檔案提示策略

Gemini 的人工智慧 (AI) 模型可處理各種類型的輸入資料,包括文字、圖片和音訊。由於這些模型可以處理多種類型或模式的資料,因此 Gemini 模型稱為「多模態模型」,或解釋為具有多模態功能

本頁提供指南和最佳做法,協助您使用內含 Gemini API 提示的媒體檔案。想瞭解如何使用 Gemini Files API 上傳媒體檔案並在提示中納入,請參閱「使用媒體檔案提示」一文。

透過提示使用媒體檔案

只要在提示中使用不同類型的資料,您就能更靈活地運用 Gemini API 來處理工作。舉例來說,您可以將美味餐點的相片傳送給模型,要求模型撰寫有關餐點的簡短網誌。

提示 回應

根據這張相片撰寫引人入勝的網誌文章。相片中應包含餐點說明,並談論我的旅程準備。


餅乾

備餐既省時又省錢,更有助於吃得更健康。這種餐點是健康且容易事先準備的美味餐點的絕佳範例。

這種餐點的特色包括棕色米飯、烤蔬菜和雞肉照燒。 棕色是一種健康且複雜的碳水化合物,可讓您持續獲得活力。如果想每日增加維生素和礦物質,使用烤蔬菜是不錯的選擇,雞肉照燒是味道濃鬱且富含蛋白質的食材。

這種餐點也很容易做好準備。只需輕鬆烹煮棕色米飯、烤蔬菜,並烹煮雞肉油炸魚就夠了。完成所有烹調作業後,請將其分割為備餐容器,並放在冰箱中。這樣你就可以拿個容器,度過忙碌的早晨!

如果您正在尋找健康又美味的餐點,並能輕鬆事先準備,那就很適合選用這種餐點。裡面充滿了營養和多種口味,絕對能讓你感到飽滿又滿意。

為您送上健康美味的準備!

提示:使用媒體

如果您無法從使用媒體檔案的提示中獲得所需的輸出內容,有些策略可以幫助您獲得想要的結果。以下各節將提供設計方法和疑難排解提示,協助您改善使用多模態輸入的提示。

你可以按照下列最佳做法改善多模態提示:

提示設計基礎知識

  • 提供具體的操作說明:請確保操作說明清楚明瞭,避免遭到誤解。
  • 在提示中加入幾個範例:運用真實的幾個範例說明您想要達成的目標。
  • 逐步分析:將複雜的工作分為可管理的子目標,引導模型逐步完成程序。
  • 指定輸出格式:在提示中要求輸出內容的格式是,例如 Markdown、JSON、HTML 等。
  • 以圖片為優先,顯示單一圖片提示:Gemini 可按任意順序處理圖片和文字輸入內容,但如果提示包含單張圖片,建議將圖片放在文字提示之前,成效可能更好。

    多模態提示疑難排解

    • 如果模型並未從圖片的相關部分擷取資訊:您可以加入提示,指出您希望提示從圖片中選取資訊的地方。
    • 如果模型輸出結果過於籠統 (不適合圖片內容), 請在提示開頭嘗試先要求模型描述圖片,然後再提供工作指示,或是試著要求模型參考圖片中的內容。
    • 提示設計基礎知識

      本節會延伸至上一節列出的最佳做法。

      注意:下列 Gemini 範例的模型結果會因執行方式而異。

      說明應清楚具體

      清楚明確的提示能夠發揮最佳成效。如果您有特定輸出內容,建議您在提示中加入該要求,確保獲得想要的輸出內容。

      有時候,提示的意圖可能會讓撰寫者看似清楚,但實際上是不夠明確。如要自訂模型行為,請思考提示的解讀方式,並確保提供的操作說明清楚明確。記得留下最少空間,以免發生誤解

      以機場看板的圖片來說,要求模型只輸入「描述這張圖片」,就能產生一般說明。如果您需要模型剖析圖片中的時間和城市,可以直接在提示中加入該要求。

      提示 模型回應

      請描述這張圖片的內容。

      圖片顯示機場抵達和出發時刻表。

      更新的提示 改善回覆功能
      交通時間表

      將時間和城市從這張圖片顯示的機場看板中剖析為清單。

    • 10:50 莫斯科
    • 11:05 愛丁堡
    • 11:05 倫敦
    • 11:10 布加勒斯特
    • 11:30 基輔
    • 11:35 都柏林
    • 11:45 東密德蘭
    • 12:15 索非亞
    • 中午 12:30
    • 12 點 30 分
    • 聖彼得堡 12:40
    • 中午 12:40
    • 12:45 曼徹斯特
    • 新增幾個範例

      Gemini 模型可以接受多個輸入項目,做為範例瞭解所需的輸出內容。新增這些範例可協助模型識別模式,並將指定圖片和回應之間的關係套用至新範例。這就是所謂的「少量樣本」學習。

      在以下範例中,初始輸出內容是以語句形式撰寫,且包含國家/地區 (巴西)。假設您想要以不同格式或樣式輸出,而且您只需要城市,而非國家/地區。在提示中加入少量範例,可引導模型以您想要的方式回應。

      提示 模型回應
      交通時間表

      依據地標判斷城市。

      而這座地標位於巴西里約熱內盧的救世基督像。

      更新的提示 改善回覆功能

      依據地標判斷城市。

      羅馬競技場

      城市:羅馬、地標:羅馬競技場。

      紫禁城

      城市:北京,地標:紫禁城

      禁止城市

      城市:裡約熱內盧,地標:救世基督像

      逐步解析

      如果是需要視覺化理解與推理的工作這類複雜的工作,將工作分割為更精簡的步驟可能很有幫助。或者,直接在提示中要求模型「逐步思考」,這個方法也很有效。

      提示 模型回應

      衛生紙

      很快就能看到剩餘 3 個擲骰子。

      更新的提示 改善回覆功能

        1. 首先,計算這張相片中的廁所紙捲數。
        2. 然後判斷一般人每天會用多少廁所紙張。
        3. 計算這些廁所紙捲的持續時間。

        1. 這張相片中有 3 捲的廁所紙。
        2. 一般人每天會用約 20 張廁所紙。
        3. 如果每個擲骰子包含 200 張工作表,每個擲骰子將持續大約 10 天。因此,這 3 個擲骰子的有效期限約為一個月。

      數學問題或其他類型的文字問題,最適合要求模型逐步思考。

      提示 回應

      序列中的第 4 個字詞是什麼?

      -135

      模型的回應不正確。改善這類情況的幾個方法是,要求模型先剖析問題,再回答提示。

      提示 回應

      先剖析圖片中的公式。

      接著根據公式正確回答「序列中的第 4 個字詞是什麼?」。

      按一下即可展開結果

      $$ b(n) = b(n-1) * (-3) $$

      $$ b(1) = 15 $$

      1. 將 n = 4 替換成公式:
      2. $$ b(4) = b(4-1) * (-3) $$

        $$ b(4) = b(3) * (-3) $$

      3. 我們不知道 b(3) 的值,因此在公式中替換 n = 3:
      4. $$ b(3) = b(3-1) * (-3) $$

        $$ b(3) = b(2) * (-3) $$

      5. 我們不知道 b(2) 的值,因此在公式中替換 n = 2:
      6. $$ b(2) = b(2-1) * (-3) $$

        $$ b(2) = b(1) * (-3) $$

      7. 我們知道 b(1) 的值是 15,因此請將該值替換為公式:
      8. $$ b(2) = 15 * (-3) $$

        $$ b(2) = -45 $$

      9. 現在我們已瞭解 b(2) 的值,請將該值替換為 b(3) 的公式:
      10. $$ b(3) = b(2) * (-3) $$

        $$ b(3) = -45 * (-3) $$

        $$ b(3) = 135 $$

      11. 現在我們已瞭解 b(3) 的值,請將該值替換為 b(4) 的公式:
      12. $$ b(4) = b(3) * (-3) $$

        $$ b(4) = 135 * (-3) $$

        $$ b(4) = -405 $$

      因此,序列的第 4 個字詞是 -405。

      這個模型回應正確 - 現在為了讓回應變得更加精簡,您可以要求模型逐步思考。

      更新的提示 改善回覆功能

      序列中的第 4 個字詞是什麼?逐步思考。

      第一個字詞是 15。

      第二個字詞是 b(1) * (-3) = 15 * (-3) = -45。

      第三個字詞為 b(2) * (-3) = -45 * (-3) = 135。

      第四個字詞是 b(3) * (-3) = 135 * (-3) = -405。

      嘗試指定輸出格式

      一個常見的問題是模型輸出內容必須採用特定格式 (例如 Markdown、JSON、HTML),尤其是下游工作需要擷取模型輸出內容時。您可以在提示中指示模型以該格式產生輸出內容。以下提供兩個範例:

      提示 模型回應

      將這張圖片中的表格剖析為 Markdown 格式

      | 主旨 | 狀態 | 時間 | 開始日期 | 截止日期 |

      | ------- | ------ | ---- | --------- | ------ |

      | 數學 | 完成 | 1.5 小時 | 2023 年 11 月 29 日 | 2023 年 12 月 1 日 |

      | 地理位置 | 完成 | 30 分鐘 | 2023 年 12 月 2 日 | 2023 年 12 月 4 日 |

      | 物理學 | 正在進行中 | 2 小時 | 2023 年 12 月 3 日 | 2023 年 12 月 5 日 |

      | 生物學 | 尚未開始 | 6 小時 | 2016 年 11 月 2 日 | 2023 年 12 月 6 日 |

      提示 模型回應

      請提供所有下列屬性的清單:

      食材、料理類型、素食與 JSON 格式

      ```json```

      {

      "ingredients": [

      "rice",

      "shrimp",

      "clams",

      "mussels",

      "peas",

      "tomatoes",

      "onions",

      "garlic",

      "olive oil",

      "paprika",

      "salt",

      "pepper"

      ],

      "type of cuisine": "Spanish",

      "vegetarian": false

      針對單一圖片提示,優先顯示圖片

      雖然 Gemini 可在提示中以任何順序解讀圖片和文字,但如果在文字提示前放置單張圖片,可能可以帶來較好的結果。在以下範例中,您會注意到圖片出現在每個提示中的文字之前。

      多模態提示疑難排解

      如果沒有收到實用回應,您可能需要排解提示問題。以下提供幾個您可以嘗試的策略。

      如果模型並未從圖片的相關部分擷取資訊

      如要取得更具體的回應,可以指出您希望提示從哪些圖片中擷取資訊,據此提供回應。

      提示 模型回應

      這些尿布可以撐幾天?

      尿布將持續 198 天,之後便會用完。

      更新的提示 改善回覆功能

      這些尿布會持續多久才會耗盡?

      使用盒子上顯示的體重來判斷孩子的年齡,並使用盒子中的尿布總數。

      將總數除以孩子每天經歷的尿布數量。

      包裝盒中有 198 個尿布。箱子會顯示尿布代表體重 22-37 磅的兒童。

      此體重範圍內的平均孩子可能介於 1 到 2 歲。

      2 歲兒童通常每天會穿 6 尿布,因此尿布約會持續 33 天 (198/6)。

      如果模型輸出內容過於籠統,無法配合圖片輸入調整

      為了幫助模型調整圖片對圖片的回應,請試著先請模型描述圖片,然後再執行推理工作。

      提示 模型回應

      這些圖片有什麼共通點?

      這四個圖片都是橫向攝影範例。

      更新的提示 改善回覆功能

      首先,請詳加描述每張圖片的內容。這些圖片有什麼共通點?

      第一張圖片顯示一個人正在包裝行李箱。第二張圖片顯示購物中心中空的走廊。第三張圖片顯示一疊廁所紙。第四張圖片顯示深黑風暴的海。

      這些圖片的普遍性是,這些圖片都是小型空間的例子。預留空間是指位於另外兩個地點或情況之間的地點或情況。常見於不確定性或模糊性。

      第一張圖顯示的人在家裡和旅途中。第二張圖片顯示兩間商店之間的走廊。第三張圖片是廁所紙,可以代表浴室。浴室是私人和公共領域之間的轉換空間。我們會在當地做好進入或離開國外的準備。

      第四張圖片顯示海中的平靜和暴風雨。

      開放空間可能會讓人感到有趣又不安。可以是新的起點或終點。可以是倒影或動作地點。

      您也可以試著明確要求模型參考圖片中的內容。

      更新的提示 改善回覆功能

      這些圖片有什麼共通點?請查看回覆中的圖片。

      所有圖片都與旅遊有關。第一張圖片顯示某人正在包裝行李箱,第二張圖片顯示購物中心中空的走廊,第三張圖片顯示一疊廁紙,第四張圖片則呈現黑暗沉悶的海面。

      這些圖片都與旅遊相關,因為這些是旅遊所需的一切資訊。第一張圖片顯示一個人正在打包行李,這是人們在旅行時會做的事。第二張圖片顯示購物中心的空洞,消費者常會到這裡購買商品。第三張圖片顯示一疊廁紙,供使用者在旅行時使用。第四張圖片呈現深黑風暴的海域,這是人們外出旅行時經常碰到的內容。

      這些訣竅同樣適用於從圖片生成的廣告素材。在以下範例中,明確要求模型包含圖片中的切面,可改善輸出內容。

      提示 模型回應

      能幫我寫一首有關這張圖片的詩嗎?

      小兔子,溫和的棕色
      在球場上上下跳動。
      您的耳朵長得很小,尾巴長身一小,
      您是牠們最可愛的生物。

      你不但會吃草,一切都很環保,
      見到我時就四處奔跑。
      不過我永遠是你的朋友
      直到結束為止。

      更新的提示 改善回覆功能

      你能否為這張圖片撰寫描述詳細且具有戲劇張力的詩詞,並附上地點?

      綠色的兔子
      穿耳朵過長,好心動。
      你看到什麼?
      你在遠處看什麼?

      是海藍的
      陽光發光的波紋嗎?
      或者一波會撞擊和吼聲,
      你有這樣的節奏嗎?

      小兔子,告訴我吧!
      什麼元素能吸引你的注意?
      是是金製的,
      還是海鷗哭泣?

      這或許是世界上最巨大的世界,
      這片世界五花八門,
      夢想可以漫步的好地方,
      還有一群人會沉浸在冒險中。

      小兔子,我很好奇你的夢想。
      當你坐在草地上時,會讓寧靜放鬆。
      你是渴望到深遠的世界,
      還是留在土地上,可以飛躍?

      不論你說什麼,小兔子,
      維持一股閃耀的驚喜。
      助你實現夢想與理想,
      享受是等待你創作的世界。

      排解提示的哪個部分失敗

      很難判斷提示是否失敗,因為模型並未理解圖片,或者模型確實理解圖片,但之後並未執行正確的原因步驟

      為了釐清這些原因,建議您要求模型描述圖像中的事物。

      在以下範例中,如果模型回應的是與茶 (例如爆米花) 配對時看起來令人驚訝的點心 (例如爆米花),您可以先進行疑難排解,以判斷模型是否正確識別圖片含有茶水。

      提示 疑難排解提示

      我可以在 1 分鐘內製作哪些點心,對這件事非常有幫助?

      說明這張圖片的內容。

      另一個策略是要求模型說明推辭原因。如此一來,您就能找出造成原因中斷的哪些部分 (如果有的話)。

      提示 疑難排解提示

      我可以在 1 分鐘內製作哪些點心,對這件事非常有幫助?

      我可以在 1 分鐘內製作哪些點心,對這件事非常有幫助?請說明原因。

      調整取樣參數

      在每個要求中,您不僅會傳送多模態提示,還會傳送一組取樣參數給模型。模型可能會為不同的參數值產生不同的結果。測試不同參數,以取得最適合任務的值。最常調整的參數如下:

      • 隨機性參數
      • 可能性總和為 P
      • 前 K 個

      隨機性參數

      系統會在產生回應時採用體溫,也就是套用「Top-P」和「Top-K」時的情況。隨機性參數會決定選取符記的隨機程度。如果您想藉由提示生成更具確定性、較不具開放性和創意性的回覆,建議調低隨機性參數。另一方面,如果隨機性參數較高,則可能產生較多元或有創意的結果。隨機性參數為「0」代表具有確定性,即一律會選取可能性最高的回覆。

      以大部分用途來說,可以先將隨機性參數設為「0.4」,如果需要更多創意效果,可以嘗試調高溫度。如果出現明顯的幻覺,請嘗試調低溫度。

      Top-K

      「Top-K」會影響模型選取輸出符記的方式。如果「前 K 個」設為「1」,代表下一個所選符記是模型詞彙表的所有符記中可能性最高者 (也稱為「貪婪解碼」)。如果「前 K 個」設為「3」,則代表模型會依據隨機性參數,從可能性最高的三個符記中選取下一個符記。

      在每個符記選取步驟中,模型會對機率最高的「前 K 個」符記取樣,接著進一步根據「Top-P」篩選符記,最後依隨機性參數選出最終符記。

      如要取得較不隨機的回覆,請指定較低的值;如要取得較隨機的回覆,請調高此值。「前 K 個」的預設值為 32。

      Top-P

      「Top-P」會影響模型選取輸出符記的方式。模型會按照機率最高 (請見「Top-K」) 到最低的順序選取符記,直到所選符記的機率總和等於「Top-P」值。舉例來說,如果符記 A、B 和 C 的可能性分別為 0.6、0.3、0.1,而「可能性總和為 P」的值為 0.9,則模型會依據隨機性參數選擇 A 或 B 做為下一個符記,並排除 C。

      如要取得較不隨機的回覆,請指定較低的值;如要取得較隨機的回覆,請調高此值。「可能性總和為 P」的預設值為 1.0。

      後續步驟

      • 請嘗試使用 Google AI Studio 編寫自己的多模態提示。
      • 如需提示設計的詳細說明,請參閱「提示策略」頁面。