教學課程:開始使用 Gemini API


本教學課程示範如何直接透過 使用 Google AI Swift SDK 的 Swift 應用程式。如果您不想使用這個 SDK 以便直接使用 REST API 或伺服器端程式碼 (例如 Python) 進行存取 Swift 應用程式中的 Gemini 模型。

在本教學課程中,您將瞭解如何執行下列操作:

此外,本教學課程還包含進階用途的相關章節 (例如 計算符記) 以及 控管內容生成功能

必要條件

本教學課程假設您熟悉使用 Xcode 開發 Swift 應用程式。

如要完成本教學課程,請確認您的開發環境和 Swift 應用程式符合下列規定:

  • Xcode 15.0 以上版本
  • Swift 應用程式必須指定 iOS 15 以上版本或 macOS 12 以上版本。

設定專案

呼叫 Gemini API 前,請務必先設定 Xcode 專案, 包括設定 API 金鑰、將 SDK 套件加進 Xcode 專案 然後初始化模型

設定 API 金鑰

如要使用 Gemini API,您必須具備 API 金鑰。如果您沒有帳戶 建立金鑰

取得 API 金鑰

確保 API 金鑰安全

強烈建議您「不要」在版本中檢查 API 金鑰 控制系統另一個替代方案是儲存在 GenerativeAI-Info.plist 檔案,然後從 .plist 讀取 API 金鑰 檔案。請務必將這個 .plist 檔案放在應用程式的根資料夾,並 請從版本管控系統排除該版本

您也可以前往 範例應用程式 瞭解如何將 API 金鑰儲存在 .plist 檔案中。

本教學課程的所有程式碼片段均假設您正在存取 API 金鑰 這個隨選資源 .plist 檔案。

在專案中新增 SDK 套件

如要在自己的 Swift 應用程式中使用 Gemini API,請新增 GoogleGenerativeAI 安裝到應用程式中:

  1. 在 Xcode 中的專案導覽器專案上按一下滑鼠右鍵。

  2. 在內容選單中選取「Add Packages」

  3. 在「Add Packages」對話方塊中,將套件網址貼到搜尋列中:

    https://github.com/google/generative-ai-swift
    
  4. 按一下「新增套件」。Xcode 現在會新增 GoogleGenerativeAI 套件 。

初始化生成式模型

您必須先初始化生成式模型,才能發出 API 呼叫。

  1. 匯入 GoogleGenerativeAI 模組:

    import GoogleGenerativeAI
    
  2. 初始化生成式模型:

    // Access your API key from your on-demand resource .plist file
    // (see "Set up your API key" above)
    // The Gemini 1.5 models are versatile and work with most use cases
    let model = GenerativeModel(name: "gemini-1.5-flash", apiKey: APIKey.default)
    

指定模型時,請注意下列事項:

  • 請使用符合自身用途的模型,例如 gemini-1.5-flash 多模態輸入)。本指南中將說明 實作會列出每種用途的建議模型。

實作常見用途

專案設定完成後,您就可以使用 Gemini API 進行以下操作: 用途包括

從純文字輸入來生成文字

如果提示內容只包含文字,請使用 Gemini 1.5 模型或 使用 generateContent 的 Gemini 1.0 Pro 模型生成文字:

import GoogleGenerativeAI

// The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
// Access your API key from your on-demand resource .plist file (see "Set up your API key" above)
let model = GenerativeModel(name: "gemini-1.5-flash", apiKey: APIKey.default)

let prompt = "Write a story about a magic backpack."
let response = try await model.generateContent(prompt)
if let text = response.text {
  print(text)
}

根據文字和圖片輸入內容產生文字 (多模態)

Gemini 提供各種模型,可處理多模態輸入 (Gemini 1.5 模型),就能輸入文字 和圖片請務必詳閱 提示的圖片相關規定

如果提示輸入內容包含文字和圖片,請使用 Gemini 1.5 模型 並使用 generateContent 方法產生文字輸出:

import GoogleGenerativeAI

// The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
// Access your API key from your on-demand resource .plist file (see "Set up your API key" above)
let model = GenerativeModel(name: "gemini-1.5-flash", apiKey: APIKey.default)

let image1 = UIImage(...)
let image2 = UIImage(...)

let prompt = "What's different between these pictures?"

let response = try await model.generateContent(prompt, image1, image2)
if let text = response.text {
  print(text)
}

打造多輪對話 (聊天)

使用 Gemini 即可多回合,建立任意形式的對話。 SDK 會管理對話狀態,藉此簡化程序,因此 使用「generateContent」時,您不必儲存對話記錄 你自己。

如要建立多輪對話 (例如對話),請使用 Gemini 1.5 模型或 接著,您就能呼叫 startChat() 來初始化 Gemini 1.0 Pro 模型。 接著,使用 sendMessage() 傳送新的使用者訊息,此訊息也會附加 訊息和對即時通訊記錄的回應。

role 有兩種可能的選項, 對話:

  • user:提供提示的角色。這是 sendMessage 次通話。

  • model:提供回應的角色。這個角色可用於 使用現有的 history 呼叫 startChat()

,瞭解如何調查及移除這項存取權。
import GoogleGenerativeAI

let config = GenerationConfig(
  maxOutputTokens: 100
)

// The Gemini 1.5 models are versatile and work with multi-turn conversations (like chat)
// Access your API key from your on-demand resource .plist file (see "Set up your API key" above)
let model = GenerativeModel(
  name: "gemini-1.5-flash",
  apiKey: APIKey.default,
  generationConfig: config
)

let history = [
  ModelContent(role: "user", parts: "Hello, I have 2 dogs in my house."),
  ModelContent(role: "model", parts: "Great to meet you. What would you like to know?"),
]

// Initialize the chat
let chat = model.startChat(history: history)
let response = try await chat.sendMessage("How many paws are in my house?")
if let text = response.text {
  print(text)
}

使用串流加快互動速度

根據預設,模型會在完成整個生成程序後傳回回應 上傳資料集之後,您可以運用 AutoML 自動完成部分資料準備工作您不必等待整個 並改用串流處理部分結果

以下範例顯示如何使用 generateContentStream 方法,根據文字和圖片輸入內容產生文字 提示。

import GoogleGenerativeAI

// The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
// Access your API key from your on-demand resource .plist file (see "Set up your API key" above)
let model = GenerativeModel(name: "gemini-1.5-flash", apiKey: APIKey.default)

let image1 = UIImage(named: "")!
let image2 = UIImage(named: "")!

let prompt = "What's different between these pictures?"
var fullResponse = ""
let contentStream = model.generateContentStream(prompt, image1, image2)
for try await chunk in contentStream {
  if let text = chunk.text {
    print(text)
    fullResponse += text
  }
}
print(fullResponse)

在純文字輸入和聊天使用情境中,您也可以採取類似的做法。

// Use streaming with text-only input
let contentStream = model.generateContentStream(prompt)
// Use streaming with multi-turn conversations (like chat)
let responseStream = chat.sendMessageStream(message)

實作進階用途

本教學課程前一節所述的常見用途 您越來越習慣使用 Gemini API本節將說明 可能有更進階的用途

函式呼叫

函式呼叫可讓您輕鬆取得結構化資料輸出內容 生成式模型您可以運用這些輸出內容呼叫其他 API,並傳回 傳送給模型的相關回應資料換句話說,函式呼叫有助於 必須連結生成式模型與外部系統 內含最新且準確的資訊。 詳情請參閱 函式呼叫教學課程

計算符記數量

使用長提示時,建議您先計算符記數量,再傳送 傳回給模型的內容下列範例說明如何使用 countTokens() 用途相當廣泛

// For text-only input
let response = try await model.countTokens("Why is the sky blue?")
print(response.totalTokens)
// For text-and-image input (multi-modal)
let response = try await model.countTokens(prompt, image1, image2)
print(response.totalTokens)
// For multi-turn conversations (like chat)
let chat = model.startChat()
let history = chat.history
let message = try ModelContent(role: "user", "Why is the sky blue?")
let contents = history + [message]
let response = try await model.countTokens(contents)
print(response.totalTokens)

控管內容生成功能的選項

您可以設定模型參數和 安全性設定

設定模型參數

您傳送至模型的每個提示都含有參數值,用來控制 模型會產生回應模型可能會針對 不同的參數值進一步瞭解 模型參數: 系統會在模型執行個體的生命週期內保留設定。

let config = GenerationConfig(
  temperature: 0.9,
  topP: 0.1,
  topK: 16,
  maxOutputTokens: 200,
  stopSequences: ["red"]
)

// Access your API key from your on-demand resource .plist file (see "Set up your API key" above)
let model = GenerativeModel(
  // The Gemini 1.5 models are versatile and work with most use cases
  name: "gemini-1.5-flash",
  apiKey: APIKey.default,
  generationConfig: config
)

使用安全性設定

您可以運用安全性設定,調整收到回應 可能會被視為有害內容根據預設,安全性設定會封鎖中性內容 和/或所有維度中都很有可能出現不安全的內容學習新知 進一步瞭解安全性設定

以下說明如何進行各項安全性設定:

// Access your API key from your on-demand resource .plist file (see "Set up your API key" above)
let model = GenerativeModel(
  // The Gemini 1.5 models are versatile and work with most use cases
  name: "gemini-1.5-flash",
  apiKey: APIKey.default,
  safetySettings: [
    SafetySetting(harmCategory: .harassment, threshold: .blockOnlyHigh)
  ]
)

你也可以設置多項安全性設定:

let harassmentSafety = SafetySetting(harmCategory: .harassment, threshold: .blockOnlyHigh)
let hateSpeechSafety = SafetySetting(harmCategory: .hateSpeech, threshold: .blockMediumAndAbove)

// Access your API key from your on-demand resource .plist file (see "Set up your API key" above)
let model = GenerativeModel(
  // The Gemini 1.5 models are versatile and work with most use cases
  name: "gemini-1.5-flash",
  apiKey: APIKey.default,
    safetySettings: [harassmentSafety, hateSpeechSafety]
)

後續步驟

  • 「提示設計」是指建立提示來促成所需流程的程序 語言模型的回應撰寫條理分明的提示相當重要 能確保語言模型提供準確且高品質的回覆。 瞭解撰寫提示的最佳做法

  • Gemini 提供多種模型版本,可滿足不同用途的需求 例如輸入類型和複雜度、即時通訊等實作 對話語言工作和大小限制 瞭解可用的 Gemini 模型