檔案提示策略

Gemini 系列的人工智慧 (AI) 模型可以處理 包括文字、圖片和音訊等各種輸入資料因為這些 模型可以處理多種類型或「模式」,也就是 Gemini 模型 稱為多模態模型,或稱為多模態功能

本頁面提供在下列情況下使用媒體檔案的指示和最佳做法: 輸入提示如要瞭解如何使用 Gemini Files API 上傳媒體檔案並在提示中加入檔案,請參閱 Vision音訊文件處理指南。

搭配提示使用媒體檔案

在提示中運用各種類型的資料, 讓您靈活運用 Gemini API 處理的工作適用對象 例如,你可以傳送美味餐點的相片給模型 烹調簡短的餐點網誌。

提示 回應

根據這張圖片撰寫簡短引人入勝的網誌文章。它應該 在相片中加入餐點說明,並談談我的旅程 備餐。


Cookie

烹調餐點是省時又省錢的好方法, 幫助您更健康的飲食。這道餐點是健康的一份子 並能輕鬆提前準備美味餐點

早餐包括棕色米飯、烤蔬菜和雞肉照燒。 棕色飯是健康又複雜的碳水化合物 以及永續能源利用烘焙蔬菜是每日行程的好方法 一堆維他命和礦物 而雞照燒不過是美味的 蛋白質選項

這種餐點的準備方式也非常簡單。輕鬆煮棕色米飯、烤雞 也準備了雞肉照燒料理一切都製作完畢後 分成備餐容器,並放在冰箱內 您就可以拿起容器,在忙碌的早晨享受時光。

如果想尋找可輕鬆吃的健康美味餐點 早點餐前的料理 此時不妨考慮這點整合 同時讓自己擁有飽滿滿滿的滿滿體驗。

我們準備了美味健康的餐點料理方式!

運用媒體提示的策略

如果無法透過使用 媒體檔案可以運用一些策略 以下各節提供設計方法和疑難排解 提示,提升使用多模態輸入的提示。

如要改善多模態提示,請按照下列最佳做法:

  • 提示設計基本概念

    • 在指示中具體說明:請提供簡明扼要的指示,盡可能避免發生誤解的情形。
    • 在提示中新增一些例子:使用逼真的少量樣本範例,說明您想達成的目標。
    • 逐步分析:將複雜的工作劃分成可管理的子目標,引導模型完成整個程序。
    • 指定輸出格式:在提示中要求輸出格式,例如 Markdown、JSON、HTML 等等。
    • 使用單一圖片提示,優先使用圖片:Gemini 能處理圖片和文字輸入內容,無論使用順序為何,但如果提示中含有單圖片,則將圖片置於文字提示前,成效可能會更好。
  • 多模態提示疑難排解

    • 如果模型未從圖片的相關部分取得資訊:你可以從圖片的哪些方面放置提示,做為提示從圖片中提取資訊的依據。
    • 如果模型輸出內容過於籠統 (不適合用於圖片): 請在提示一開始時要求模型描述圖片,再提供任務指示,或嘗試要求模型參照圖片中的內容。

提示設計基本概念

本節將補充前一節列出的最佳做法。

注意:下列 Gemini 範例的模型結果可能因實際執行情況而異。

指示力求明確

內容清楚且詳細時,提示的效果最佳。如果您有特定的輸出內容,最好在提示中加入該要求,確保得到所需的輸出內容。

有時候,提示撰寫者看似明確,卻沒有明確指定。如要自訂模型行為,請考量可能 (及錯誤) 提示的解讀方式,並確保給予的指示明確且清楚。請務必盡量避免發生誤解的情形

就這張投影片的圖片,要求模型只「描述這張圖片」可以產生一般說明如果需要模型剖析圖片中的時間和城市,可以直接在提示中加入該要求。

提示 模型回應

描述這張圖片。

圖片顯示機場抵達和發車時刻表。

更新提示 提升回覆品質
行程時刻表

從這張圖片顯示的機場委員會將時間和城市剖析為清單。

  • 10:50 莫斯科
  • 11:05 愛丁堡
  • 11:05 倫敦
  • 11:10 布加勒斯特
  • 11:30 基輔
  • 11:35 都柏林
  • 11:45 東密德蘭
  • 12:15 索非亞
  • 12:30 倫敦
  • 12:30 紐卡索
  • 12:40 聖彼得堡
  • 12:40 倫敦
  • 12:45 曼徹斯特
  • 新增幾個範例

    Gemini 模型可接受多種輸入內容,可用做範例來瞭解 輸出內容新增這些範例,即可協助模型識別模式並 指定圖片和新範例回應之間的關聯性也稱為 「陰道」學習模式

    在以下範例中,初始輸出結果是以語句格式寫成 國家/地區 (巴西)。假設您希望輸出採用其他格式或樣式,而且您想要 只有城市,而不是國家/地區。在提示中加入少量樣本樣本,有利於模型引導方向 以你偏好的方式回應

    提示 模型回應
    行程時刻表

    根據地標判斷城市。

    當地地標是巴西里約熱內盧的救世主雕像。

    更新提示 提升回覆品質

    根據地標判斷城市。

    羅馬競技場

    城市:羅馬、地標:羅馬競技場。

    紫禁城

    城市:北京,地標:紫禁城

    禁止城市

    城市:裡約熱內盧,地標:救世基督像

    逐步解析

    如果是需要同時理解影像內容及進行推理的工作等複雜的工作,這項功能會很有幫助 將任務分割為更小且更直覺的步驟而且,這非常有效 指示模型「逐步思考」

    提示 模型回應

    何時會用完廁所紙?

    你很快就剩下 3 個擲骰子。

    更新提示 提升回覆品質

      1. 首先,請計算這張圖中的廁所紙捲數量。
      2.然後判斷一般人每天的洗手紙量。
      3.計算這些馬桶捲的剩下時間長度。

      1. 圖中有 3 捲的廁所。
      2.一般人每天會用約 20 紙的廁所。
      3.如果每個擲出的工作表包含 200 張工作表,則每個擲出的期限大約為 10 天。因此,這 3 次累積的分數會持續約一個月。

    你可以要求模型逐步思考數學問題或其他類型的應用題。

    提示 回應

    序列中的第 4 個字詞為何?

    135 個

    模型的回應不正確。有些改善方法,就是先要求模型剖析問題,然後再回答提示內容。

    提示 回應

    請先剖析圖片中的公式。

    接著根據公式回答「序列中的第 4 個字詞為何?」。

    按一下即可展開結果

    $$ b(n) = b(n-1) * (-3) $$

    $$ b(1) = 15 $$

    1. 將 n = 4 換成公式:
    2. $$ b(4) = b(4-1) * (-3) $$

      $$ b(4) = b(3) * (-3) $$

    3. 我們不知道 b(3) 的值,因此請將 n = 3 換成公式:
    4. $$ b(3) = b(3-1) * (-3) $$

      $$ b(3) = b(2) * (-3) $$

    5. 我們不知道 b(2) 的值,因此請將 n = 2 換成公式:
    6. $$ b(2) = b(2-1) * (-3) $$

      $$ b(2) = b(1) * (-3) $$

    7. 我們知道 b(1) 的值是 15,所以請將該值換成以下公式:
    8. $$ b(2) = 15 * (-3) $$

      $$ b(2) = -45 $$

    9. 現在我們已知道 b(2) 的值,請將該值替換成 b(3) 的公式:
    10. $$ b(3) = b(2) * (-3) $$

      $$ b(3) = -45 * (-3) $$

      $$ b(3) = 135 $$

    11. 現在我們已知道 b(3) 的值,請將該值替換成 b(4) 的公式:
    12. $$ b(4) = b(3) * (-3) $$

      $$ b(4) = 135 * (-3) $$

      $$ b(4) = -405 $$

    因此,序列中的第 4 個字詞為 -405。

    這個模型回應正確,現在為了讓回應更加精簡,您現在可以要求模型逐步思考。

    更新提示 提升回覆品質

    序列中的第 4 個字詞為何?請逐步思考。

    第一個字詞是 15

    第二個字詞為 b(1) * (-3) = 15 * (-3) = -45。

    第三個術語為 b(2) * (-3) = -45 * (-3) = 135。

    第四項是 b(3) * (-3) = 135 * (-3) = -405。

    嘗試指定輸出格式

    常見的問題是,模型的輸出內容必須使用特定格式 (例如 Markdown、JSON、HTML),尤其是在模型輸出需要 由下游任務擷取您可以指示模型在提示中產生該格式的輸出內容,以下提供兩個範例:

    提示 模型回應

    將這張圖片中的資料表剖析為 Markdown 格式

    |主旨 |狀態 |時間 |開始日期 |到期日 |

    |------- |------ |---- |--------- |------ |

    |數學 |完成 |1.5 小時 |2023 年 11 月 29 日 |2023 年 12 月 1 日 |

    |地理位置 |完成 |30 分鐘 |2023 年 12 月 2 日 |2023 年 12 月 4 日 |

    |物理 |進行中 |2 小時 |2023 年 12 月 3 日 |2023 年 12 月 5 日 |

    |生物學 |尚未開始 |6 小時 |2016 年 11 月 2 日 |2023 年 12 月 6 日 |

    提示 模型回應

    請提供所有下列屬性的清單:

    JSON 格式

    ```json```

    {

    "ingredients": [

    "rice",

    "shrimp",

    "clams",

    "mussels",

    "peas",

    "tomatoes",

    "onions",

    "garlic",

    "olive oil",

    "paprika",

    "salt",

    "pepper"

    ],

    "type of cuisine": "Spanish",

    "vegetarian": false

    提供單一圖片提示,優先顯示圖片

    Gemini 可以在提示中按任意順序解讀圖片和文字,但只有在圖片中 可能會產生較好的結果您會在下列範例中發現 每個提示文字的前方

    多模態提示疑難排解

    如果沒有收到實用的回覆,你可能需要對提示排解問題。以下提供幾種策略供您參考。

    如果模型並非從圖像的相關部分擷取資訊

    如要取得更具體的回覆,可以指出想提示的圖片哪些部分 並收集資訊來做出回覆

    提示 模型回應

    這些尿布會維持多少天?

    尿布會持續 198 天,然後就會用完。

    更新提示 提升回覆品質

    這些尿佈在我用完之前會多久?

    使用方塊中顯示的體重來判斷孩童年齡,以及使用箱子總數。

    將總人數除以孩子每天經過的尿布數量。

    包裝盒內含 198 尿布。包裝盒上表示尿布適用於體重 22-37 磅的孩子。

    這個體重範圍中的孩子平均可能介於 1 到 2 歲。

    2 歲兒童通常每天需要 6 尿布,因此尿布會持續約 33 天 (198/6)。

    如果模型輸出內容過於籠統,無法配合圖片輸入內容調整

    為協助模型調整圖片的回應方式,請先要求模型描述圖片,再執行推理工作。

    提示 模型回應

    這些圖片有什麼共通點?

    四張圖片皆為橫向攝影範例。

    更新提示 提升回覆品質

    首先,請詳細說明每張圖片的內容。這些圖片有什麼共通點?

    第一張圖片顯示某人正在包裝行李箱。第二張圖片顯示購物中心的空走廊。第三張圖片顯示一滾滾的廁所紙。第四張圖片顯示黑暗又暴風的海洋。

    這些圖片的共通點在於,這些圖片都是保留空間的例子。精簡空間是指位於其他兩個地點或情境之間的地點或情境。通常是有不確定性的或不確定性。

    第一張圖片顯示使用者在家或旅途中。第二張圖片顯示兩間商店之間的走廊。第三張圖片是廁紙,代表浴室浴室是私人之間的過渡空間 和公共領域我們在這裡做好準備,進入或離開外界。

    第四個圖片顯示海洋的平靜和暴風雨。

    光顧自由的空間既有趣又令人不安。可以是新的起點或終點。例如反思或動作空間。

    您也可以明確要求模型指出圖像的內容。

    更新提示 提升回覆品質

    這些圖片有什麼共通點?請參閱回應中的圖像。

    所有圖片都與旅遊相關。第一張圖片顯示某人正在包裝行李箱,第二張圖片顯示 購物中心的空廊,第三張圖片顯示一疊廁所紙,第四張圖片顯示 黑暗的海洋。

    這些圖片都和旅遊相關,因為使用者需要或利用 他們的旅程第一張圖片顯示一個人正在打行李,而這人在做什麼時 旅途中第二張圖片呈現購物中心內空走的走廊,這是人們隨時造訪的場所 常常為行程購物。第三張圖片顯示一疊廁所紙 提供旅遊建議第四張圖片顯示了黑暗又暴風的海洋 是旅客出遊時經常碰到的問題

    相同的秘訣也能處理圖片中的廣告素材輸出方式。在以下範例中使用 並明確要求模型納入圖像切面,以改善輸出內容

    提示 模型回應

    可以幫我寫有關這張圖片的詩嗎?

    小兔子,柔軟又棕色,
    上下跳轉來到田野上。
    你的耳朵很長,尾巴這麼小,
    你是無數的最可愛生物。

    你機在草原上,味道綠色又甜美,
    看到我就離開。
    但我永遠是你的朋友
    小兔子,直到結束為止。

    更新提示 提升回覆品質

    可以幫我寫一本有關這張圖片且具有戲劇張力的詩詞,並附上地點嗎?

    綠色上的小兔子,
    耳朵很長,真積極。
    親身體驗:
    從遠方的角度來看,

    這是海藍嗎?
    在太陽的色調中發光嗎?
    又或者是發出吼叫聲的波浪,
    你有節奏嗎?

    小兔子,跟我說是真的!
    吸引你目光的因素為何?
    這是鹹風嗎?
    或是海鷗拜託?

    也許那是宇宙的龐大能量,
    世界大大小小的世界。
    夢想中的夢想家園
    冒險活動也能帶來驚喜。

    小兔子,我好奇你的夢想,
    在你坐在草坪上,感覺很寧靜。
    你是不是想要探索深度?
    或是待在大陸上,進一步發展戰力

    不管怎麼樣,都可能有小兔子
    保持神奇的火花。
    為實現你的夢想和期望,
    謊稱是正在等待你創作的世界。

    解決提示的哪個部分失敗

    很難確認提示是否失敗 無法理解圖片的開頭,或無法解讀圖片, 之後並未執行正確的 推理步驟

    為釐清這些原因,請要求模型描述圖像內容。

    在此範例中,如果模型回應的零食,與配對時似乎驚人 茶 (例如爆米花) 後,就可以先進行疑難排解,以便判斷模型是否正確辨識 圖片中含有茶

    提示 進行疑難排解的提示

    我可以在 1 分鐘內做出什麼點心可想吃?

    說明這張圖片的內容。

    另一個策略是要求模型解釋推論。以便您找出原因的哪個部分 (如果有的話) 縮小。

    提示 進行疑難排解的提示

    我可以在 1 分鐘內做出什麼點心可想吃?

    我可以在 1 分鐘內做出什麼點心可想吃?請說明原因。

    調整取樣參數

    在每個要求中,您不只會傳送多模態提示,還有一組取樣參數給模型。 模型可能會針對不同的參數值產生不同的結果。使用 以便取得工作的最佳值。最常調整的參數如下:

    • 溫度
    • 可能性總和為 P
    • 前 K 個

    溫度

    系統會在產生回應期間使用隨機性參數進行取樣,也就是套用「Top-P」和「Top-K」時的情況。 Temperature 會決定選取詞元的隨機程度。建議調低隨機性參數 需要更具確定性、較不具開放性和創意性的回應,而較高的隨機性參數則能 多元或創意的結果隨機性參數為「0」代表具有確定性,即機率最高的回覆 一律會選取。

    以大部分用途來說,可以先將隨機性參數設為「0.4」,如果您需要更多廣告素材結果,請嘗試提高 溫度。如果發現幻覺不清,可以試著調低溫度。

    Top-K

    「Top-K」會影響模型選取輸出符記的方式。如果「前 K 個」設為「1」,表示下一個所選符記 模型詞彙表的所有符記中可能性最高 (也稱為「貪婪解碼」)。 如果「前 K 個」設為「3」,代表模型會從可能性最高的 3 個符記中選取下一個符記 測量溫度。

    在每個符記選取步驟中,模型會對機率最高的「前 K 個」符記取樣,接著 符記進一步根據「Top-P」篩選,最後依隨機性參數選出最終符記。

    如要取得較不隨機的回覆,請指定較低的值;如要取得較隨機的回覆,請調高此值。 「前 K 個」的預設值為 32。

    Top-P

    「Top-P」會影響模型選取輸出符記的方式。模型會由高至低選取符記 (請查看「前 K 個」) 至少到可能性,直到其可能性總和等於「Top-P」值為止。舉例來說,如果符記 A、B 和 C 的可能性分別為 0.6、0.3、0.1,而「可能性總和為 P」的值為 0.9,那麼模型會 請使用隨機性參數選取 A 或 B 做為下一個符記,並且排除 C 為候選字。

    如要取得較不隨機的回覆,請指定較低的值;如要取得較隨機的回覆,請調高此值。 「可能性總和為 P」的預設值為 1.0。

    後續步驟