Gemini 2.0 Flash 實驗模型現已推出!
瞭解詳情
運用 Gemini API 探索視覺功能
Gemini API 可處理圖片和影片,讓開發人員有更多精彩的用途。Gemini 的視覺功能包括:
- 為圖片加上說明文字,並回答圖片相關問題
- 轉錄和分析 PDF,包括長文件 (脈絡窗口最多可達 200 萬個符號)
- 描述、區隔及擷取影片資訊,包括影像影格和音訊,長度最長 90 分鐘
- 偵測圖片中的物件,並傳回物件的定界框座標
本教學課程將示範幾種可能的方式,透過圖片和影片輸入內容提示 Gemini API,並提供程式碼範例,以及使用多模態視覺功能提示最佳做法的概略說明。所有輸出內容皆為文字。
後續步驟
本指南說明如何使用 File API 上傳圖片和影片檔案,然後根據圖片和影片輸入內容產生文字輸出內容。如要進一步瞭解相關內容,請參閱下列資源:
- 檔案提示策略:Gemini API 支援使用文字、圖片、音訊和影片資料提示,這也稱為多模態提示。
- 系統指示:系統指示可讓您根據特定需求和用途,引導模型的行為。
- 安全指南:生成式 AI 模型有時會產生非預期的輸出內容,例如不準確、偏頗或令人反感的輸出內容。後續處理和人工評估是限制這類輸出內容造成危害風險的必要措施。
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2024-12-21 (世界標準時間)。
[[["容易理解","easyToUnderstand","thumb-up"],["確實解決了我的問題","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["缺少我需要的資訊","missingTheInformationINeed","thumb-down"],["過於複雜/步驟過多","tooComplicatedTooManySteps","thumb-down"],["過時","outOfDate","thumb-down"],["翻譯問題","translationIssue","thumb-down"],["示例/程式碼問題","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["上次更新時間:2024-12-21 (世界標準時間)。"],[],[]]