第十章:瀏覽器自動化 — browser_navigate、點擊、填表、截圖、動態頁面
如果上一章的 web_extract 是「看懂」網頁,那麼這一章的「瀏覽器自動化」就是讓 Hermes Agent 真正「長出手來」操作網頁!🖐️
還記得那些讓你點到手軟的表單、需要一直往下拉才會出現內容的瀑布流網頁、或是那些討厭的彈出式廣告嗎?現在,你可以把這些苦差事全權交給管家了。它不僅能像真人一樣打開網頁,還會點擊、打字、甚至幫你截圖存證!
🤖 瀏覽器三神技,讓網頁聽你的
Hermes 內建了強大的無頭瀏覽器(Headless Browser,不是它真的沒有頭,是指在背景默默執行的瀏覽器)。你可以把它想像成一個不知疲倦的幽靈網友。
2. 點擊與填表 (Click & Type)
想要登入網站?想要點擊那顆「加入購物車」的按鈕?管家能精準地找到畫面上的按鈕並點擊,還能在輸入框裡打字。它可是名副其實的「鍵盤俠」!
3. 拍照留念 (Screenshot)
「口說無憑,截圖為證!」當你叫管家去查資料,你可以順便叫它把畫面拍下來。這對於製作報告或是監控網站變化超級好用。
🛠️ 指令教學:放出你的幽靈網友
準備好讓管家在網頁上大顯身手了嗎?讓我們來練習這 3 個超實用的瀏覽器自動化絕招!
介紹指令:使用 hermes run 指揮瀏覽器操作
💡 應用練習例子
練習 1:開啟網頁並拍照存證 我們來試著叫管家去一個網站,並且拍張照回來:
hermes run "用瀏覽器打開 Google 首頁,然後幫我截圖並存成 google_homepage.png"幽默小提示:執行完畢後,去你的資料夾看看是不是多了一張截圖。如果你看到一張完整的網頁截圖,恭喜你,你的管家剛剛完成了一次完美的偷拍(合法的那種)!
練習 2:自動化填表與點擊 這個稍微進階一點,我們讓管家去搜尋某個特定的東西:
hermes run "打開維基百科首頁,在搜尋框輸入『台灣』,然後點擊搜尋按鈕,最後把結果第一段文字告訴我"看著它行雲流水地完成「打開、打字、點擊、閱讀」,是不是覺得自己像是擁有一支千軍萬馬的駭客軍團?
練習 3:對付討厭的下拉動態頁面 很多網站要一直往下拉才會載入新內容。交給管家處理:
hermes run "打開一個新聞網站首頁,幫我往下拉幾次,確保動態內容都載入後,總結一下畫面上出現了哪些重要的新聞標題"管家會模擬人類滾動滑鼠滾輪的動作。終於有人可以代替你做這種無聊的捲動運動了!
🎉 太神啦!你已經掌握了操控瀏覽器的黑魔法!
從現在開始,那些繁瑣的網頁操作再也難不倒你了。不過,既然管家連瀏覽器都能控制,那它能不能直接操作我的電腦系統呢?
答案是:當然可以!而且非常強大!下一章,我們將解開 Hermes Agent 最危險也最迷人的封印——《終端機與檔案操作》。請繫好安全帶,我們第十一章見!⚡