Eğitim: Gemini API'yi kullanmaya başlama


Bu eğitimde, Google AI Swift SDK'sını kullanarak Gemini API'ye doğrudan Swift uygulamanızdan nasıl erişileceği gösterilmektedir. Swift uygulamanızdaki Gemini modellerine erişmek için doğrudan REST API'lerle veya sunucu tarafı kodlarıyla (Python gibi) çalışmak istemiyorsanız bu SDK'yı kullanabilirsiniz.

Bu eğitimde aşağıdakileri nasıl yapacağınızı öğreneceksiniz:

Ayrıca bu eğitim, gelişmiş kullanım alanları (ör. sayım jetonları) ve içerik oluşturmayı kontrol etme seçenekleri hakkında bölümler içerir.

Ön koşullar

Bu eğiticide, Swift uygulamaları geliştirmek için Xcode'u kullanma konusunda bilgi sahibi olduğunuz varsayılır.

Bu eğiticiyi tamamlamak için geliştirme ortamınızın ve Swift uygulamanızın aşağıdaki koşulları karşıladığından emin olun:

  • Xcode 15.0 veya sonraki sürümler
  • Swift uygulamanız iOS 15 veya sonraki sürümleri ya da macOS 12 veya sonraki sürümleri hedeflemelidir.

Projenizi oluşturun

Gemini API'yi çağırmadan önce Xcode projenizi ayarlamanız gerekir. Bu proje; API anahtarınızı oluşturma, SDK paketini Xcode projenize ekleme ve modeli başlatma adımlarından oluşur.

API anahtarınızı oluşturma

Gemini API'yi kullanmak için API anahtarına ihtiyacınız vardır. Henüz yoksa Google AI Studio'da bir anahtar oluşturun.

API anahtarı alma

API anahtarınızın güvenliğini sağlayın

Sürüm kontrol sisteminizde bir API anahtarını kontrol etmemeniz kesinlikle önerilir. Alternatif olarak, API anahtarını bir GenerativeAI-Info.plist dosyasında depolayıp .plist dosyasından API anahtarını okuyabilirsiniz. Bu .plist dosyasını uygulamanızın kök klasörüne koyduğunuzdan ve sürüm kontrolünden hariç tuttuğunuzdan emin olun.

API anahtarınızı bir .plist dosyasında nasıl depolayacağınızı öğrenmek için örnek uygulamayı da inceleyebilirsiniz.

Bu eğitimdeki tüm snippet'ler, API anahtarınıza bu isteğe bağlı kaynak .plist dosyasından eriştiğiniz varsayılır.

SDK paketini projenize ekleyin

Gemini API'yi kendi Swift uygulamanızda kullanmak için GoogleGenerativeAI paketini uygulamanıza ekleyin:

  1. Xcode'da, proje gezgininden projenizi sağ tıklayın.

  2. İçerik menüsünden Paket Ekle'yi seçin.

  3. Paket Ekle iletişim kutusunda, paket URL'sini arama çubuğuna yapıştırın:

    https://github.com/google/generative-ai-swift
    
  4. Paket Ekle'yi tıklayın. Xcode, şimdi GoogleGenerativeAI paketini projenize ekler.

Üretken modeli başlatma

API çağrısı yapabilmek için üretken modeli ilk kullanıma hazırlamanız gerekir.

  1. GoogleGenerativeAI modülünü içe aktarın:

    import GoogleGenerativeAI
    
  2. Üretken modeli başlatın:

    // Access your API key from your on-demand resource .plist file
    // (see "Set up your API key" above)
    // The Gemini 1.5 models are versatile and work with most use cases
    let model = GenerativeModel(name: "gemini-1.5-flash", apiKey: APIKey.default)
    

Bir model belirtirken aşağıdakilere dikkat edin:

  • Kullanım alanınıza özel bir model kullanın (örneğin, gemini-1.5-flash çok modlu giriş içindir). Bu kılavuzda, her uygulamaya ait talimatlarda her kullanım alanı için önerilen modeller listelenmiştir.

Yaygın kullanım alanlarını hayata geçirin

Artık projeniz hazır olduğuna göre Gemini API'yi kullanarak farklı kullanım alanları uygulayabilirsiniz:

Yalnızca metin girişinden metin oluştur

İstem girişi yalnızca metin içeriyorsa metin çıkışı oluşturmak için Gemini 1.5 modelini veya generateContent özelliğine sahip Gemini 1.0 Pro modelini kullanın:

import GoogleGenerativeAI

// The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
// Access your API key from your on-demand resource .plist file (see "Set up your API key" above)
let model = GenerativeModel(name: "gemini-1.5-flash", apiKey: APIKey.default)

let prompt = "Write a story about a magic backpack."
let response = try await model.generateContent(prompt)
if let text = response.text {
  print(text)
}

Metin ve resim girişlerinden metin oluşturma (çok modlu)

Gemini, hem metin hem de resim girebilmeniz için çok modlu girişleri (Gemini 1.5 modelleri) işleyebilen çeşitli modeller sunar. İstemler için resim şartlarını incelemeyi unutmayın.

İstem girişi hem metin hem de resim içerdiğinde metin çıkışı oluşturmak için generateContent yöntemiyle Gemini 1.5 modelini kullanın:

import GoogleGenerativeAI

// The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
// Access your API key from your on-demand resource .plist file (see "Set up your API key" above)
let model = GenerativeModel(name: "gemini-1.5-flash", apiKey: APIKey.default)

let image1 = UIImage(...)
let image2 = UIImage(...)

let prompt = "What's different between these pictures?"

let response = try await model.generateContent(prompt, image1, image2)
if let text = response.text {
  print(text)
}

Çok dönüşlü görüşmeler (sohbet) oluşturun

Gemini'ı kullanarak birden fazla turne arasında serbest biçimli sohbetler gerçekleştirebilirsiniz. SDK, görüşmenin durumunu yöneterek süreci basitleştirir. Bu sayede, generateContent uygulamasının aksine, görüşme geçmişini sizin saklamanız gerekmez.

Çok dönüşlü bir sohbet (ör. sohbet) başlatmak için Gemini 1.5 veya Gemini 1.0 Pro modelini kullanın. Ardından, startChat() numaralı telefonu arayarak sohbeti başlatın. Ardından, yeni kullanıcı mesajı göndermek için sendMessage() öğesini kullanın. Bu mesaj, mesajı ve yanıtı da sohbet geçmişine ekler.

Bir görüşmedeki içerikle ilişkili role için iki olası seçenek vardır:

  • user: İstemleri sağlayan roldür. Bu değer, sendMessage çağrıları için varsayılan değerdir.

  • model: yanıtları sağlayan rol. Bu rol, mevcut history ile startChat() çağrısı yapılırken kullanılabilir.

import GoogleGenerativeAI

let config = GenerationConfig(
  maxOutputTokens: 100
)

// The Gemini 1.5 models are versatile and work with multi-turn conversations (like chat)
// Access your API key from your on-demand resource .plist file (see "Set up your API key" above)
let model = GenerativeModel(
  name: "gemini-1.5-flash",
  apiKey: APIKey.default,
  generationConfig: config
)

let history = [
  ModelContent(role: "user", parts: "Hello, I have 2 dogs in my house."),
  ModelContent(role: "model", parts: "Great to meet you. What would you like to know?"),
]

// Initialize the chat
let chat = model.startChat(history: history)
let response = try await chat.sendMessage("How many paws are in my house?")
if let text = response.text {
  print(text)
}

Daha hızlı etkileşimler için akışı kullanın

Varsayılan olarak model, oluşturma sürecinin tamamını tamamladıktan sonra yanıt döndürür. Sonucun tamamını beklemeden, bunun yerine kısmi sonuçları işlemek için akışı kullanarak daha hızlı etkileşimler gerçekleştirebilirsiniz.

Aşağıdaki örnekte, metin ve resim giriş isteminden metin oluşturmak için generateContentStream yöntemiyle akışın nasıl uygulanacağı gösterilmektedir.

import GoogleGenerativeAI

// The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
// Access your API key from your on-demand resource .plist file (see "Set up your API key" above)
let model = GenerativeModel(name: "gemini-1.5-flash", apiKey: APIKey.default)

let image1 = UIImage(named: "")!
let image2 = UIImage(named: "")!

let prompt = "What's different between these pictures?"
var fullResponse = ""
let contentStream = model.generateContentStream(prompt, image1, image2)
for try await chunk in contentStream {
  if let text = chunk.text {
    print(text)
    fullResponse += text
  }
}
print(fullResponse)

Yalnızca metin girişi ve sohbet kullanım alanları için de benzer bir yaklaşım kullanabilirsiniz.

// Use streaming with text-only input
let contentStream = model.generateContentStream(prompt)
// Use streaming with multi-turn conversations (like chat)
let responseStream = chat.sendMessageStream(message)

Gelişmiş kullanım alanları uygulayın

Bu eğiticinin önceki bölümünde açıklanan yaygın kullanım alanları, Gemini API'yi rahatça kullanmanıza yardımcı olur. Bu bölümde, daha gelişmiş olarak değerlendirilebilecek bazı kullanım alanları açıklanmaktadır.

İşlev çağırma

İşlev çağrısı, üretken modellerden yapılandırılmış veri çıkışları almanızı kolaylaştırır. Daha sonra bu çıkışları kullanarak diğer API'leri çağırabilir ve ilgili yanıt verilerini modele döndürebilirsiniz. Başka bir deyişle, işlev çağrısı, üretken modelleri harici sistemlere bağlamanıza yardımcı olur. Böylece, oluşturulan içerik en güncel ve doğru bilgileri içerir. İşlev çağrısı eğiticisinden daha fazla bilgi edinebilirsiniz.

Jetonları say

Uzun istemler kullanırken, modele herhangi bir içerik göndermeden önce jetonları saymak faydalı olabilir. Aşağıdaki örnekler, çeşitli kullanım alanları için countTokens() hizmetinin nasıl kullanılacağını gösterir:

// For text-only input
let response = try await model.countTokens("Why is the sky blue?")
print(response.totalTokens)
// For text-and-image input (multi-modal)
let response = try await model.countTokens(prompt, image1, image2)
print(response.totalTokens)
// For multi-turn conversations (like chat)
let chat = model.startChat()
let history = chat.history
let message = try ModelContent(role: "user", "Why is the sky blue?")
let contents = history + [message]
let response = try await model.countTokens(contents)
print(response.totalTokens)

İçerik oluşturmayı kontrol etme seçenekleri

Model parametrelerini yapılandırarak ve güvenlik ayarlarını kullanarak içerik oluşturmayı kontrol edebilirsiniz.

Model parametrelerini yapılandırma

Modele gönderdiğiniz her istem, modelin yanıt oluşturma şeklini kontrol eden parametre değerleri içerir. Model, farklı parametre değerleri için farklı sonuçlar oluşturabilir. Model parametreleri hakkında daha fazla bilgi edinin. Yapılandırma, model örneğinizin kullanım ömrü boyunca korunur.

let config = GenerationConfig(
  temperature: 0.9,
  topP: 0.1,
  topK: 16,
  maxOutputTokens: 200,
  stopSequences: ["red"]
)

// Access your API key from your on-demand resource .plist file (see "Set up your API key" above)
let model = GenerativeModel(
  // The Gemini 1.5 models are versatile and work with most use cases
  name: "gemini-1.5-flash",
  apiKey: APIKey.default,
  generationConfig: config
)

Güvenlik ayarlarını kullan

Zararlı olarak değerlendirilebilecek yanıtlar alma olasılığını ayarlamak için güvenlik ayarlarını kullanabilirsiniz. Varsayılan olarak güvenlik ayarları, güvenli olmayan içerik olma olasılığı orta ve yüksek olasılıklı içerikleri tüm boyutlarda engeller. Güvenlik ayarları hakkında daha fazla bilgi edinin.

Aşağıda, bir güvenlik ayarını nasıl yapacağınız açıklanmaktadır:

// Access your API key from your on-demand resource .plist file (see "Set up your API key" above)
let model = GenerativeModel(
  // The Gemini 1.5 models are versatile and work with most use cases
  name: "gemini-1.5-flash",
  apiKey: APIKey.default,
  safetySettings: [
    SafetySetting(harmCategory: .harassment, threshold: .blockOnlyHigh)
  ]
)

Ayrıca, birden fazla güvenlik ayarı da belirleyebilirsiniz:

let harassmentSafety = SafetySetting(harmCategory: .harassment, threshold: .blockOnlyHigh)
let hateSpeechSafety = SafetySetting(harmCategory: .hateSpeech, threshold: .blockMediumAndAbove)

// Access your API key from your on-demand resource .plist file (see "Set up your API key" above)
let model = GenerativeModel(
  // The Gemini 1.5 models are versatile and work with most use cases
  name: "gemini-1.5-flash",
  apiKey: APIKey.default,
    safetySettings: [harassmentSafety, hateSpeechSafety]
)

Sırada ne var?

  • İstem tasarımı, dil modellerinden istenen yanıtı üreten istem oluşturma sürecidir. İyi yapılandırılmış istemler yazmak, bir dil modelinden doğru ve yüksek kaliteli yanıtlar almanın önemli bir parçasıdır. İstem yazmayla ilgili en iyi uygulamalar hakkında bilgi edinin.

  • Gemini; giriş türleri ve karmaşıklığı, sohbet veya diğer iletişim dili görevlerine yönelik uygulamalar ve boyut kısıtlamaları gibi farklı kullanım alanlarının ihtiyaçlarını karşılamak için çeşitli model varyasyonları sunar. Mevcut Gemini modelleri hakkında bilgi edinin.