第十二章:多模態能力 — 圖片生成 (image_generate)、語音合成 (text_to_speech)、視覺分析

如果你的管家只會看純文字,那它頂多算是個打字員。但現在可是「多模態 (Multimodal)」的時代!有了眼睛、耳朵和嘴巴,Hermes Agent 已經進化成了懂得藝術和聲音的全方位才子啦!✨

在這一章,我們要讓管家突破純文字的限制。它不僅能「看懂」圖片裡有什麼,還能幫你「畫」出你腦袋裡的想像,甚至還能「開口說話」!準備好迎接這場感官的饗宴了嗎?

👁️ 視覺分析:管家的火眼金睛

你有一張看不懂的外文菜單?或者是一張複雜的統計圖表?別自己傷腦筋了,直接丟給管家! 只要你使用的模型(例如 GPT-4o 或 Claude 3.5 Sonnet)支援視覺功能,Hermes 就能讀懂圖片內容。這就像是給管家戴上了一副高科技 AR 眼鏡,它能幫你翻譯、抓取數據,甚至分辨照片裡那隻貓是胖是瘦。

🎨 圖片生成 (image_generate):你點菜,它作畫

有時候,千言萬語不如一張圖。如果你需要一張「穿著太空衣的柴犬在火星上吃熱狗」的圖片,只要一句話,管家就能呼叫生圖工具(如 DALL-E)幫你畫出來。你再也不用去圖庫網站大海撈針了!

🗣️ 語音合成 (text_to_speech):讓冰冷的文字有溫度

看字看累了?讓管家唸給你聽! 透過語音合成功能,Hermes 可以把長篇大論的文字變成悅耳的語音檔案。無論是睡前故事,還是把今天的新聞總結變成你的專屬 Podcast,都難不倒它。


🛠️ 指令教學:解放感官的封印

讓我們來試試這三個超酷的多模態功能!請確保你設定的 API Provider(如 OpenAI)支援這些多模態的魔法。

介紹指令:在 hermes chat 中觸發多模態工具

💡 應用練習例子

練習 1:火眼金睛看圖片 (視覺分析) 隨便找一張你電腦裡的照片,然後進入聊天模式對管家說:

# 在 chat 模式下對 Hermes 說:
"請幫我分析一下這個路徑的照片裡有什麼東西:/絕對路徑/你的照片.jpg,用幽默的口吻描述一下。"

幽默小提示:如果管家說你的寵物貓是一塊「長毛的烤焦麵包」,請不要太苛責它,有時候 AI 的藝術眼光跟我們凡人不太一樣。

練習 2:讓管家當你的專屬插畫家 (image_generate) 發揮你的想像力,讓它畫一張圖:

# 在 chat 模式下對 Hermes 說:
"請幫我生成一張圖片:一隻穿著西裝的企鵝在喝咖啡,並把它存到我目前的資料夾裡。"

看!不出幾秒鐘,你的資料夾就會出現一張獨一無二的大作。小心別玩上癮,這可是會消耗 API 額度的喔!

練習 3:把文字變成廣播 (text_to_speech) 讓管家開口說話:

# 在 chat 模式下對 Hermes 說:
"請用一句話總結今天天氣很好,然後用語音合成工具把這句話轉成 mp3 聲音檔,存在目前的資料夾裡。"

執行完後,打開那個聲音檔聽聽看!你現在擁有了世界上最聽話的專屬播音員了。


🎉 Bravo!你的管家現在色香味俱全了!(雖然還不能聞味道)

解鎖了多模態能力後,Hermes Agent 的實用性又上了一個全新的台階。但如果管家做好了這些圖文並茂的報告,只能放在電腦裡給自己看,那也太可惜了吧?

別急!下一章,我們要教你如何讓管家主動出擊,把訊息「推播」到你的 Telegram、Slack 或 Discord 群組裡!《訊息推送》準備上線!我們第十三章見!📱