Gemini Live API'ye genel bakış

Live API, Gemini ile düşük gecikmeli ve gerçek zamanlı sesli ve görsel etkileşimler sağlar. Ses, resim ve metin akışlarını sürekli olarak işleyerek anında, insan benzeri sözlü yanıtlar verir ve kullanıcılarınız için doğal bir sohbet deneyimi oluşturur.

Live API'ye Genel Bakış

Kullanım alanları

Live API, aşağıdakiler de dahil olmak üzere çeşitli sektörlerde gerçek zamanlı sesli temsilciler oluşturmak için kullanılabilir:

  • E-ticaret ve perakende: Kişiselleştirilmiş öneriler sunan alışveriş asistanları ve müşteri sorunlarını çözen destek temsilcileri.
  • Oyun: Etkileşimli oyuncu olmayan karakterler (NPC'ler), oyun içi yardım asistanları ve oyun içi içeriğin anlık çevirisi.
  • Yeni nesil arayüzler: Robotik, akıllı gözlükler ve araçlarda ses ve video özellikli deneyimler.
  • Sağlık hizmetleri: Hasta desteği ve eğitimi için sağlık arkadaşları.
  • Finansal hizmetler: Servet yönetimi ve yatırım tavsiyesi için yapay zeka danışmanları.
  • Eğitim: Kişiselleştirilmiş talimatlar ve geri bildirimler sağlayan yapay zeka mentorları ve öğrenme arkadaşları.
  • Çeviri ve yerelleştirme: Konuşma sohbetlerinin anlık ve düşük gecikmeli çevirisi sayesinde sorunsuz çok dilli iletişim.

Temel özellikler

Live API, güçlü sesli ajanlar oluşturmak için kapsamlı bir özellik seti sunar:

  • Çok dilli destek: Desteklenen 70 dilde sohbet edin.
  • Araya girme: Kullanıcılar, yanıt veren etkileşimler için modeli istedikleri zaman kesebilir.
  • Araç kullanımı: Dinamik etkileşimler için işlev çağırma ve Google Arama gibi araçları entegre eder.
  • Ses transkripsiyonları: Hem kullanıcı girişinin hem de model çıkışının metin transkriptlerini sağlar.
  • Proaktif ses: Modelin ne zaman ve hangi bağlamlarda yanıt vereceğini kontrol etmenizi sağlar.
  • Duygusal diyalog: Yanıt stilini ve tonunu, kullanıcının giriş ifadesine uyacak şekilde ayarlar.
  • Canlı Çeviri: 70'ten fazla dilde anlık sesli çeviri.

Teknik özellikler

Aşağıdaki tabloda, Live API'nin teknik özellikleri özetlenmiştir:

Kategori Ayrıntılar
Giriş biçimleri Ses (ham 16 bit PCM ses, 16 kHz, little-endian), resimler (JPEG <= 1 FPS), metin
Çıkış biçimleri Ses (ham 16 bit PCM ses, 24 kHz, little-endian)
Protokol Durumlu WebSocket bağlantısı (WSS)

Bir uygulama yaklaşımı seçin

Live API ile entegrasyon yaparken aşağıdaki uygulama yaklaşımlarından birini seçmeniz gerekir:

  • Sunucudan sunucuya: Arka uçunuz, WebSockets kullanarak Live API'ye bağlanır. Genellikle istemciniz akış verilerini (ses, video, metin) sunucunuza gönderir. Sunucunuz da bu verileri Live API'ye iletir.
  • İstemciden sunucuya: Ön uç kodunuz, verileri yayınlamak için WebSockets kullanarak doğrudan Live API'ye bağlanır ve arka ucunuzu atlar.

Başlayın

Geliştirme ortamınıza uygun kılavuzu seçin:

Sunucudan sunucuya

Python arka ucuyla gerçek zamanlı çok formatlı bir uygulama oluşturmak için GenAI SDK'yı kullanarak Gemini Live API'ye bağlanın.

İstemciden sunucuya

JavaScript ön ucu ve kısa ömürlü jetonlarla çok formatlı gerçek zamanlı bir uygulama oluşturmak için WebSockets kullanarak Gemini Live API'ye bağlanın.

Temsilci geliştirme kiti

Temsilci oluşturun ve sesli ve görüntülü iletişimi etkinleştirmek için Agent Development Kit (ADK) Streaming'i kullanın.

İş ortağı entegrasyonları

Anlık ses ve video uygulamalarının geliştirilmesini kolaylaştırmak için WebRTC veya WebSocket'ler üzerinden Gemini Live API'yi destekleyen bir üçüncü taraf entegrasyonu kullanabilirsiniz.