Gemini Live API overview

Live API, Gemini ile düşük gecikmeli ve anlık sesli ve görsel etkileşimler sağlar. Kullanıcılarınıza doğal bir sohbet deneyimi sunmak için anında, insan benzeri sözlü yanıtlar vermek üzere sürekli ses, resim ve metin akışlarını işler.

Live API'ye Genel Bakış

Kullanım alanları

Live API, aşağıdakiler de dahil olmak üzere çeşitli sektörlerde gerçek zamanlı sesli temsilciler oluşturmak için kullanılabilir:

  • E-ticaret ve perakende: Kişiselleştirilmiş öneriler sunan alışveriş asistanları ve müşteri sorunlarını çözen destek temsilcileri.
  • Oyun: Etkileşimli oynanamayan karakterler (NPC'ler), oyun içi yardım asistanları ve oyun içi içeriğin anlık çevirisi.
  • Yeni nesil arayüzler: Robotik, akıllı gözlükler ve araçlarda ses ve video özellikli deneyimler.
  • Sağlık hizmetleri: Hasta desteği ve eğitimi için sağlık arkadaşları.
  • Finansal hizmetler: Varlık yönetimi ve yatırım tavsiyesi için yapay zeka danışmanları.
  • Eğitim: Kişiselleştirilmiş talimatlar ve geri bildirimler sağlayan yapay zeka eğitmenleri ve öğrenci yardımcıları.

Temel özellikler

Live API, güçlü sesli temsilciler oluşturmak için kapsamlı bir özellik seti sunar:

  • Çok dilli destek: Desteklenen 70 dilde sohbet edin.
  • Araya girme: Kullanıcılar, yanıt veren etkileşimler için modeli istedikleri zaman kesebilir.
  • Araç kullanımı: Dinamik etkileşimler için işlev çağırma ve Google Arama gibi araçları entegre eder.
  • Ses transkriptleri: Hem kullanıcı girişinin hem de model çıkışının metin transkriptlerini sağlar.
  • Proaktif ses: Modelin ne zaman ve hangi bağlamlarda yanıt vereceğini kontrol etmenizi sağlar.
  • Moda uygun diyalog: Yanıt stilini ve üslubunu, kullanıcının giriş ifadesine uyacak şekilde uyarlar.

Teknik özellikler

Aşağıdaki tabloda, Live API'nin teknik özellikleri özetlenmiştir:

Kategori Ayrıntılar
Giriş biçimleri Ses (ham 16 bit PCM ses, 16 kHz, little-endian), resimler (JPEG <= 1 FPS), metin
Çıkış biçimleri Ses (ham 16 bit PCM ses, 24 kHz, little-endian)
Protokol Durumlu WebSocket bağlantısı (WSS)

Bir uygulama yaklaşımı seçin

Live API ile entegrasyon yaparken aşağıdaki uygulama yaklaşımlarından birini seçmeniz gerekir:

  • Sunucudan sunucuya: Arka ucunuz, WebSockets kullanarak Live API'ye bağlanır. Genellikle istemciniz, akış verilerini (ses, video, metin) sunucunuza gönderir. Sunucunuz da bu verileri Live API'ye iletir.
  • İstemciden sunucuya: Ön uç kodunuz, verileri yayınlamak için WebSockets'i kullanarak doğrudan Live API'ye bağlanır ve arka ucunuzu atlar.

Başlayın

Geliştirme ortamınıza uygun kılavuzu seçin:

Sunucudan sunucuya

Python arka ucuyla gerçek zamanlı çok formatlı bir uygulama oluşturmak için GenAI SDK'yı kullanarak Gemini Live API'ye bağlanın.

İstemciden sunucuya

JavaScript ön ucu ve kısa ömürlü jetonlarla çok formatlı anlık bir uygulama oluşturmak için WebSockets kullanarak Gemini Live API'ye bağlanın.

Temsilci geliştirme kiti

Bir aracı oluşturun ve sesli ve görüntülü iletişimi etkinleştirmek için Agent Development Kit (ADK) Streaming'i kullanın.

İş ortağı entegrasyonları

Gerçek zamanlı ses ve video uygulamalarının geliştirilmesini kolaylaştırmak için WebRTC veya WebSocket'ler üzerinden Gemini Live API'yi destekleyen bir üçüncü taraf entegrasyonu kullanabilirsiniz.