Gemini 系列的人工智慧 (AI) 模型可以處理 包括文字、圖片和音訊等各種輸入資料因為這些 模型可以處理多種類型或「模式」,也就是 Gemini 模型 稱為多模態模型,或稱為多模態功能。
本頁面提供在下列情況下使用媒體檔案的指示和最佳做法: 輸入提示如要瞭解如何使用 Gemini Files API 上傳媒體檔案並在提示中加入檔案,請參閱 Vision、音訊和 文件處理指南。
搭配提示使用媒體檔案
在提示中運用各種類型的資料, 讓您靈活運用 Gemini API 處理的工作適用對象 例如,你可以傳送美味餐點的相片給模型 烹調簡短的餐點網誌。
提示 | 回應 |
根據這張圖片撰寫簡短引人入勝的網誌文章。它應該 在相片中加入餐點說明,並談談我的旅程 備餐。 |
烹調餐點是省時又省錢的好方法, 幫助您更健康的飲食。這道餐點是健康的一份子 並能輕鬆提前準備美味餐點 早餐包括棕色米飯、烤蔬菜和雞肉照燒。 棕色飯是健康又複雜的碳水化合物 以及永續能源利用烘焙蔬菜是每日行程的好方法 一堆維他命和礦物 而雞照燒不過是美味的 蛋白質選項 這種餐點的準備方式也非常簡單。輕鬆煮棕色米飯、烤雞 也準備了雞肉照燒料理一切都製作完畢後 分成備餐容器,並放在冰箱內 您就可以拿起容器,在忙碌的早晨享受時光。 如果想尋找可輕鬆吃的健康美味餐點 早點餐前的料理 此時不妨考慮這點整合 同時讓自己擁有飽滿滿滿的滿滿體驗。 我們準備了美味健康的餐點料理方式! |
運用媒體提示的策略
如果無法透過使用 媒體檔案可以運用一些策略 以下各節提供設計方法和疑難排解 提示,提升使用多模態輸入的提示。
如要改善多模態提示,請按照下列最佳做法:
-
提示設計基本概念
- 在指示中具體說明:請提供簡明扼要的指示,盡可能避免發生誤解的情形。
- 在提示中新增一些例子:使用逼真的少量樣本範例,說明您想達成的目標。
- 逐步分析:將複雜的工作劃分成可管理的子目標,引導模型完成整個程序。
- 指定輸出格式:在提示中要求輸出格式,例如 Markdown、JSON、HTML 等等。
- 使用單一圖片提示,優先使用圖片:Gemini 能處理圖片和文字輸入內容,無論使用順序為何,但如果提示中含有單圖片,則將圖片置於文字提示前,成效可能會更好。
-
多模態提示疑難排解
- 如果模型未從圖片的相關部分取得資訊:你可以從圖片的哪些方面放置提示,做為提示從圖片中提取資訊的依據。
- 如果模型輸出內容過於籠統 (不適合用於圖片): 請在提示一開始時要求模型描述圖片,再提供任務指示,或嘗試要求模型參照圖片中的內容。
提示設計基本概念
本節將補充前一節列出的最佳做法。
注意:下列 Gemini 範例的模型結果可能因實際執行情況而異。
指示力求明確
內容清楚且詳細時,提示的效果最佳。如果您有特定的輸出內容,最好在提示中加入該要求,確保得到所需的輸出內容。
有時候,提示撰寫者看似明確,卻沒有明確指定。如要自訂模型行為,請考量可能 (及錯誤) 提示的解讀方式,並確保給予的指示明確且清楚。請務必盡量避免發生誤解的情形
就這張投影片的圖片,要求模型只「描述這張圖片」可以產生一般說明如果需要模型剖析圖片中的時間和城市,可以直接在提示中加入該要求。
提示 | 模型回應 |
---|---|
描述這張圖片。 |
圖片顯示機場抵達和發車時刻表。 |
更新提示 | 提升回覆品質 |
---|---|
從這張圖片顯示的機場委員會將時間和城市剖析為清單。 |
新增幾個範例
Gemini 模型可接受多種輸入內容,可用做範例來瞭解 輸出內容新增這些範例,即可協助模型識別模式並 指定圖片和新範例回應之間的關聯性也稱為 「陰道」學習模式
在以下範例中,初始輸出結果是以語句格式寫成 國家/地區 (巴西)。假設您希望輸出採用其他格式或樣式,而且您想要 只有城市,而不是國家/地區。在提示中加入少量樣本樣本,有利於模型引導方向 以你偏好的方式回應
提示 | 模型回應 |
---|---|
根據地標判斷城市。 |
當地地標是巴西里約熱內盧的救世主雕像。 |
更新提示 | 提升回覆品質 |
---|---|
根據地標判斷城市。 |
城市:羅馬、地標:羅馬競技場。 |
城市:北京,地標:紫禁城 |
|
城市:裡約熱內盧,地標:救世基督像 |
逐步解析
如果是需要同時理解影像內容及進行推理的工作等複雜的工作,這項功能會很有幫助 將任務分割為更小且更直覺的步驟而且,這非常有效 指示模型「逐步思考」
提示 | 模型回應 |
---|---|
何時會用完廁所紙? |
你很快就剩下 3 個擲骰子。 |
更新提示 | 提升回覆品質 |
---|---|
|
|
你可以要求模型逐步思考數學問題或其他類型的應用題。
提示 | 回應 |
---|---|
序列中的第 4 個字詞為何? |
135 個 |
模型的回應不正確。有些改善方法,就是先要求模型剖析問題,然後再回答提示內容。
提示 | 回應 |
---|---|
請先剖析圖片中的公式。 接著根據公式回答「序列中的第 4 個字詞為何?」。 |
按一下即可展開結果$$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ 因此,序列中的第 4 個字詞為 -405。 |
這個模型回應正確,現在為了讓回應更加精簡,您現在可以要求模型逐步思考。
更新提示 | 提升回覆品質 |
---|---|
序列中的第 4 個字詞為何?請逐步思考。 |
第一個字詞是 15 第二個字詞為 b(1) * (-3) = 15 * (-3) = -45。 第三個術語為 b(2) * (-3) = -45 * (-3) = 135。 第四項是 b(3) * (-3) = 135 * (-3) = -405。 |
嘗試指定輸出格式
常見的問題是,模型的輸出內容必須使用特定格式 (例如 Markdown、JSON、HTML),尤其是在模型輸出需要 由下游任務擷取您可以指示模型在提示中產生該格式的輸出內容,以下提供兩個範例:
提示 | 模型回應 |
---|---|
將這張圖片中的資料表剖析為 Markdown 格式 |
|主旨 |狀態 |時間 |開始日期 |到期日 | |------- |------ |---- |--------- |------ | |數學 |完成 |1.5 小時 |2023 年 11 月 29 日 |2023 年 12 月 1 日 | |地理位置 |完成 |30 分鐘 |2023 年 12 月 2 日 |2023 年 12 月 4 日 | |物理 |進行中 |2 小時 |2023 年 12 月 3 日 |2023 年 12 月 5 日 | |生物學 |尚未開始 |6 小時 |2016 年 11 月 2 日 |2023 年 12 月 6 日 | |
提示 | 模型回應 |
---|---|
請提供所有下列屬性的清單: JSON 格式 |
|
提供單一圖片提示,優先顯示圖片
Gemini 可以在提示中按任意順序解讀圖片和文字,但只有在圖片中 可能會產生較好的結果您會在下列範例中發現 每個提示文字的前方
多模態提示疑難排解
如果沒有收到實用的回覆,你可能需要對提示排解問題。以下提供幾種策略供您參考。
如果模型並非從圖像的相關部分擷取資訊
如要取得更具體的回覆,可以指出想提示的圖片哪些部分 並收集資訊來做出回覆
提示 | 模型回應 |
---|---|
這些尿布會維持多少天? |
尿布會持續 198 天,然後就會用完。 |
更新提示 | 提升回覆品質 |
---|---|
這些尿佈在我用完之前會多久? 使用方塊中顯示的體重來判斷孩童年齡,以及使用箱子總數。 將總人數除以孩子每天經過的尿布數量。 |
包裝盒內含 198 尿布。包裝盒上表示尿布適用於體重 22-37 磅的孩子。 這個體重範圍中的孩子平均可能介於 1 到 2 歲。 2 歲兒童通常每天需要 6 尿布,因此尿布會持續約 33 天 (198/6)。 |
如果模型輸出內容過於籠統,無法配合圖片輸入內容調整
為協助模型調整圖片的回應方式,請先要求模型描述圖片,再執行推理工作。
提示 | 模型回應 |
---|---|
這些圖片有什麼共通點? |
四張圖片皆為橫向攝影範例。 |
更新提示 | 提升回覆品質 |
---|---|
首先,請詳細說明每張圖片的內容。這些圖片有什麼共通點? |
第一張圖片顯示某人正在包裝行李箱。第二張圖片顯示購物中心的空走廊。第三張圖片顯示一滾滾的廁所紙。第四張圖片顯示黑暗又暴風的海洋。 這些圖片的共通點在於,這些圖片都是保留空間的例子。精簡空間是指位於其他兩個地點或情境之間的地點或情境。通常是有不確定性的或不確定性。 第一張圖片顯示使用者在家或旅途中。第二張圖片顯示兩間商店之間的走廊。第三張圖片是廁紙,代表浴室浴室是私人之間的過渡空間 和公共領域我們在這裡做好準備,進入或離開外界。 第四個圖片顯示海洋的平靜和暴風雨。 光顧自由的空間既有趣又令人不安。可以是新的起點或終點。例如反思或動作空間。 |
您也可以明確要求模型指出圖像的內容。
更新提示 | 提升回覆品質 |
---|---|
這些圖片有什麼共通點?請參閱回應中的圖像。 |
所有圖片都與旅遊相關。第一張圖片顯示某人正在包裝行李箱,第二張圖片顯示 購物中心的空廊,第三張圖片顯示一疊廁所紙,第四張圖片顯示 黑暗的海洋。 這些圖片都和旅遊相關,因為使用者需要或利用 他們的旅程第一張圖片顯示一個人正在打行李,而這人在做什麼時 旅途中第二張圖片呈現購物中心內空走的走廊,這是人們隨時造訪的場所 常常為行程購物。第三張圖片顯示一疊廁所紙 提供旅遊建議第四張圖片顯示了黑暗又暴風的海洋 是旅客出遊時經常碰到的問題 |
相同的秘訣也能處理圖片中的廣告素材輸出方式。在以下範例中使用 並明確要求模型納入圖像切面,以改善輸出內容
提示 | 模型回應 |
---|---|
可以幫我寫有關這張圖片的詩嗎? |
小兔子,柔軟又棕色, 你機在草原上,味道綠色又甜美, |
更新提示 | 提升回覆品質 |
---|---|
可以幫我寫一本有關這張圖片且具有戲劇張力的詩詞,並附上地點嗎? |
綠色上的小兔子, 這是海藍嗎? 小兔子,跟我說是真的! 也許那是宇宙的龐大能量, 小兔子,我好奇你的夢想, 不管怎麼樣,都可能有小兔子 |
解決提示的哪個部分失敗
很難確認提示是否失敗 無法理解圖片的開頭,或無法解讀圖片, 之後並未執行正確的 推理步驟。
為釐清這些原因,請要求模型描述圖像內容。
在此範例中,如果模型回應的零食,與配對時似乎驚人 茶 (例如爆米花) 後,就可以先進行疑難排解,以便判斷模型是否正確辨識 圖片中含有茶
提示 | 進行疑難排解的提示 |
---|---|
我可以在 1 分鐘內做出什麼點心可想吃? |
說明這張圖片的內容。 |
另一個策略是要求模型解釋推論。以便您找出原因的哪個部分 (如果有的話) 縮小。
提示 | 進行疑難排解的提示 |
---|---|
我可以在 1 分鐘內做出什麼點心可想吃? |
我可以在 1 分鐘內做出什麼點心可想吃?請說明原因。 |
調整取樣參數
在每個要求中,您不只會傳送多模態提示,還有一組取樣參數給模型。 模型可能會針對不同的參數值產生不同的結果。使用 以便取得工作的最佳值。最常調整的參數如下:
- 溫度
- 可能性總和為 P
- 前 K 個
溫度
系統會在產生回應期間使用隨機性參數進行取樣,也就是套用「Top-P」和「Top-K」時的情況。
Temperature 會決定選取詞元的隨機程度。建議調低隨機性參數
需要更具確定性、較不具開放性和創意性的回應,而較高的隨機性參數則能
多元或創意的結果隨機性參數為「0」代表具有確定性,即機率最高的回覆
一律會選取。
以大部分用途來說,可以先將隨機性參數設為「0.4」,如果您需要更多廣告素材結果,請嘗試提高 溫度。如果發現幻覺不清,可以試著調低溫度。
Top-K
「Top-K」會影響模型選取輸出符記的方式。如果「前 K 個」設為「1」,表示下一個所選符記
模型詞彙表的所有符記中可能性最高 (也稱為「貪婪解碼」)。
如果「前 K 個」設為「3」,代表模型會從可能性最高的 3 個符記中選取下一個符記
測量溫度。
在每個符記選取步驟中,模型會對機率最高的「前 K 個」符記取樣,接著 符記進一步根據「Top-P」篩選,最後依隨機性參數選出最終符記。
如要取得較不隨機的回覆,請指定較低的值;如要取得較隨機的回覆,請調高此值。 「前 K 個」的預設值為 32。
Top-P
「Top-P」會影響模型選取輸出符記的方式。模型會由高至低選取符記 (請查看「前 K 個」)
至少到可能性,直到其可能性總和等於「Top-P」值為止。舉例來說,如果符記
A、B 和 C 的可能性分別為 0.6、0.3、0.1,而「可能性總和為 P」的值為 0.9,那麼模型會
請使用隨機性參數選取 A 或 B 做為下一個符記,並且排除 C 為候選字。
如要取得較不隨機的回覆,請指定較低的值;如要取得較隨機的回覆,請調高此值。 「可能性總和為 P」的預設值為 1.0。
後續步驟
- 嘗試使用 Google AI 自行撰寫多模態提示 Studio。
- 如要進一步瞭解提示設計,請參閱 提示策略頁面。