Gemini API ile Araçları ve Aracıları Kullanma

Araçlar ve Temsilciler, Gemini modellerinin yeteneklerini genişleterek dünyada işlem yapmalarını, anlık bilgilere erişmelerini ve karmaşık hesaplama görevlerini gerçekleştirmelerini sağlar. Modeller, Live API'yi kullanarak hem standart istek-yanıt etkileşimlerinde hem de gerçek zamanlı akış oturumlarında araçları kullanabilir.

  • Araçlar, bir modelin sorguları yanıtlamak için kullanabileceği belirli özelliklerdir (ör. Google Arama veya Kod Yürütme).
  • Aracı, kullanıcı hedefine ulaşmak için çok adımlı görevleri planlayabilen, yürütebilen ve sentezleyebilen sistemlerdir.

Gemini API, Gemini modelleri için optimize edilmiş, tümüyle yönetilen, yerleşik bir araç ve aracı paketi sunar. Ayrıca Function Calling'i kullanarak özel araçlar da tanımlayabilirsiniz.

Kullanılabilir yerleşik araçlar

Araç Açıklama Kullanım Alanları
Google Arama Halüsinasyonları azaltmak için yanıtları web'deki güncel olaylar ve bilgilerle temellendirin. - Son olaylarla ilgili soruları yanıtlama
- Çeşitli kaynaklarla bilgileri doğrulama
Google Haritalar Yerleri bulabilen, yol tarifi alabilen ve zengin yerel bağlam bilgileri sağlayabilen konuma duyarlı asistanlar oluşturun. - Birden fazla durak içeren seyahat planları yapma
- Kullanıcı ölçütlerine göre yerel işletmeleri bulma
Kod Yürütme Modelin matematik problemlerini çözmek veya verileri doğru şekilde işlemek için Python kodu yazmasına ve çalıştırmasına izin verin. - Karmaşık matematiksel denklemleri çözme
- Metin verilerini hassas bir şekilde işleme ve analiz etme
URL Bağlamı Modele, belirli web sayfalarındaki veya dokümanlardaki içerikleri okuyup analiz etmesini söyleyin. - Belirli URL'lere veya belgelere dayalı olarak soruları yanıtlama
- Farklı web sayfalarındaki bilgileri alma
Bilgisayar Kullanımı (Önizleme) Gemini'ın ekranı görüntülemesine ve web tarayıcısı kullanıcı arayüzleriyle etkileşim kurmak için işlemler oluşturmasına izin verin (istemci tarafında yürütme). - Tekrarlanan web tabanlı iş akışlarını otomatikleştirme
- Web uygulaması kullanıcı arayüzlerini test etme
Dosya Arama Veriyle Artırılmış Üretim'i (RAG) etkinleştirmek için kendi dokümanlarınızı dizine ekleyin ve arayın. - Teknik kılavuzlarda arama yapma
- Tescilli verilerle ilgili soruları yanıtlama

Belirli araçlarla ilişkili maliyetler hakkında ayrıntılı bilgi için Fiyatlandırma sayfasına bakın.

Kullanılabilir müşteri temsilcileri

Temsilci Açıklama Kullanım Alanları
Deep Research Çok adımlı araştırma görevlerini bağımsız olarak planlar, yürütür ve sentezler. - Pazar analizi
- Durum tespiti
- Edebiyat incelemeleri

Araç yürütme işleyiş şekli

Araçlar, modelin sohbet sırasında işlem isteğinde bulunmasına olanak tanır. Akış, aracın yerleşik (Google tarafından yönetilen) veya özel (sizin tarafınızdan yönetilen) olmasına bağlı olarak değişir.

Yerleşik araç akışı

Google Arama veya Kod Yürütme gibi yerleşik araçlar için tüm süreç tek bir API çağrısı içinde gerçekleşir:

  1. Siz bir istem gönderiyorsunuz: "GOOG'un en son hisse senedi fiyatının karekökü nedir?"
  2. Gemini, araçlara ihtiyaç duyduğuna karar verir ve bunları Google'ın sunucularında çalıştırır (ör. hisse senedi fiyatını arar, ardından karekökü hesaplamak için Python kodu çalıştırır).
  3. Gemini, araç sonuçlarına dayalı nihai yanıtı geri gönderir.

Özel araç akışı (işlev çağırma)

Özel araçlar ve bilgisayar kullanımı için yürütme işlemini uygulamanız gerçekleştirir:

  1. İşlev (araç) bildirimleriyle birlikte istem gönderiyorsanız siz.
  2. Gemini, belirli bir işlevi (ör. {"name": "get_order_status", "args": {"order_id": "123"}}) çağırmak için yapılandırılmış bir JSON döndürebilir.
  3. İşlevi uygulamanızda veya ortamınızda siz yürütürsünüz.
  4. İşlev sonuçlarını siz Gemini'a geri gönderirsiniz.
  5. Gemini, sonuçları kullanarak nihai bir yanıt veya başka bir araç çağrısı oluşturur.

Daha fazla bilgi için İşlev çağrısı kılavuzu'nu inceleyin.

Yapılandırılmış çıkışlar ve işlev çağrısı

Gemini, yapılandırılmış çıkışlar oluşturmak için iki yöntem sunar. Modelin kendi araçlarınıza veya veri sistemlerinize bağlanarak ara adım atması gerektiğinde fonksiyon çağrısı özelliğini kullanın. Modelin nihai yanıtının belirli bir şemaya (ör. özel bir kullanıcı arayüzü oluşturma) kesinlikle uyması gerektiğinde Yapılandırılmış Çıkışlar'ı kullanın.

Araçlarla yapılandırılmış çıkışlar

Yapılandırılmış Çıkışlar'ı yerleşik araçlarla birleştirerek harici verilere veya hesaplamalara dayalı model yanıtlarının katı bir şemaya uymaya devam etmesini sağlayabilirsiniz.

Kod örnekleri için Araçlarla yapılandırılmış çıkışlar bölümüne bakın.

Aracı oluşturma

Temsilciler, çok adımlı görevleri tamamlamak için modelleri ve araçları kullanan sistemlerdir. Gemini, muhakeme yetenekleri ("beyin") ve temel araçlar ("eller") sunsa da genellikle aracının belleğini yönetmek, plan döngüleri oluşturmak ve karmaşık araç zincirleme işlemlerini gerçekleştirmek için bir orkestrasyon çerçevesine ihtiyacınız olur.

Çok adımlı iş akışlarında güvenilirliği en üst düzeye çıkarmak için modelin nasıl akıl yürüteceğini ve planlayacağını açıkça kontrol eden talimatlar oluşturmanız gerekir. Gemini, genel olarak güçlü bir akıl yürütme yeteneği sunsa da karmaşık ajanlar, sorunlar karşısında ısrarcı olma, risk değerlendirmesi ve proaktif planlama gibi belirli davranışları zorunlu kılan istemlerden yararlanır.

Bu istemleri tasarlamayla ilgili stratejiler için Agentic iş akışları bölümüne bakın. Aşağıda, sistem talimatı örneği verilmiştir. Bu talimat, çeşitli aracı ölçütlerinde performansı yaklaşık %5 oranında artırmıştır.

Aracı çerçeveleri

Gemini, aşağıdaki gibi önde gelen açık kaynaklı aracı çerçeveleriyle entegre olur:

  • LangChain / LangGraph: Grafik yapılarını kullanarak durum bilgisi olan, karmaşık uygulama akışları ve çok agent'lı sistemler oluşturun.
  • LlamaIndex: RAG ile geliştirilmiş iş akışları için Gemini aracılarını özel verilerinize bağlayın.
  • CrewAI: Ortak çalışmaya dayalı, rol oynayan otonom yapay zeka temsilcilerini yönetin.
  • Vercel AI SDK: JavaScript/TypeScript'te yapay zeka destekli kullanıcı arayüzleri ve temsilciler oluşturun.
  • Google ADK: Birlikte çalışabilen yapay zeka aracıları oluşturmak ve düzenlemek için kullanılan açık kaynaklı bir çerçeve.