第十二章：多模態能力 — 圖片生成 (image_generate)、語音合成 (text_to_speech)、視覺分析

如果你的管家只會看純文字，那它頂多算是個打字員。但現在可是「多模態 (Multimodal)」的時代！有了眼睛、耳朵和嘴巴，Hermes Agent 已經進化成了懂得藝術和聲音的全方位才子啦！✨

在這一章，我們要讓管家突破純文字的限制。它不僅能「看懂」圖片裡有什麼，還能幫你「畫」出你腦袋裡的想像，甚至還能「開口說話」！準備好迎接這場感官的饗宴了嗎？

👁️ 視覺分析：管家的火眼金睛

你有一張看不懂的外文菜單？或者是一張複雜的統計圖表？別自己傷腦筋了，直接丟給管家！只要你使用的模型（例如 GPT-4o 或 Claude 3.5 Sonnet）支援視覺功能，Hermes 就能讀懂圖片內容。這就像是給管家戴上了一副高科技 AR 眼鏡，它能幫你翻譯、抓取數據，甚至分辨照片裡那隻貓是胖是瘦。

🎨 圖片生成 (`image_generate`)：你點菜，它作畫

有時候，千言萬語不如一張圖。如果你需要一張「穿著太空衣的柴犬在火星上吃熱狗」的圖片，只要一句話，管家就能呼叫生圖工具（如 DALL-E）幫你畫出來。你再也不用去圖庫網站大海撈針了！

🗣️ 語音合成 (`text_to_speech`)：讓冰冷的文字有溫度

看字看累了？讓管家唸給你聽！透過語音合成功能，Hermes 可以把長篇大論的文字變成悅耳的語音檔案。無論是睡前故事，還是把今天的新聞總結變成你的專屬 Podcast，都難不倒它。

🛠️ 指令教學：解放感官的封印

讓我們來試試這三個超酷的多模態功能！請確保你設定的 API Provider（如 OpenAI）支援這些多模態的魔法。

介紹指令：在 hermes chat 中觸發多模態工具

💡 應用練習例子

練習 1：火眼金睛看圖片 (視覺分析) 隨便找一張你電腦裡的照片，然後進入聊天模式對管家說：

# 在 chat 模式下對 Hermes 說：
"請幫我分析一下這個路徑的照片裡有什麼東西：/絕對路徑/你的照片.jpg，用幽默的口吻描述一下。"

幽默小提示：如果管家說你的寵物貓是一塊「長毛的烤焦麵包」，請不要太苛責它，有時候 AI 的藝術眼光跟我們凡人不太一樣。

練習 2：讓管家當你的專屬插畫家 (image_generate) 發揮你的想像力，讓它畫一張圖：

# 在 chat 模式下對 Hermes 說：
"請幫我生成一張圖片：一隻穿著西裝的企鵝在喝咖啡，並把它存到我目前的資料夾裡。"

看！不出幾秒鐘，你的資料夾就會出現一張獨一無二的大作。小心別玩上癮，這可是會消耗 API 額度的喔！

練習 3：把文字變成廣播 (text_to_speech) 讓管家開口說話：

# 在 chat 模式下對 Hermes 說：
"請用一句話總結今天天氣很好，然後用語音合成工具把這句話轉成 mp3 聲音檔，存在目前的資料夾裡。"

執行完後，打開那個聲音檔聽聽看！你現在擁有了世界上最聽話的專屬播音員了。

🎉 Bravo！你的管家現在色香味俱全了！（雖然還不能聞味道）

解鎖了多模態能力後，Hermes Agent 的實用性又上了一個全新的台階。但如果管家做好了這些圖文並茂的報告，只能放在電腦裡給自己看，那也太可惜了吧？

別急！下一章，我們要教你如何讓管家主動出擊，把訊息「推播」到你的 Telegram、Slack 或 Discord 群組裡！《訊息推送》準備上線！我們第十三章見！📱

👁️ 視覺分析：管家的火眼金睛

🎨 圖片生成 (image_generate)：你點菜，它作畫

🗣️ 語音合成 (text_to_speech)：讓冰冷的文字有溫度

🛠️ 指令教學：解放感官的封印

💡 應用練習例子

🎨 圖片生成 (`image_generate`)：你點菜，它作畫

🗣️ 語音合成 (`text_to_speech`)：讓冰冷的文字有溫度