Live API, Gemini ile düşük gecikmeli ve anlık sesli ve görsel etkileşimler sağlar. Kullanıcılarınıza doğal bir sohbet deneyimi sunmak için anında, insan benzeri sözlü yanıtlar vermek üzere sürekli ses, resim ve metin akışlarını işler.

Kullanım alanları
Live API, aşağıdakiler de dahil olmak üzere çeşitli sektörlerde gerçek zamanlı sesli temsilciler oluşturmak için kullanılabilir:
- E-ticaret ve perakende: Kişiselleştirilmiş öneriler sunan alışveriş asistanları ve müşteri sorunlarını çözen destek temsilcileri.
- Oyun: Etkileşimli oynanamayan karakterler (NPC'ler), oyun içi yardım asistanları ve oyun içi içeriğin anlık çevirisi.
- Yeni nesil arayüzler: Robotik, akıllı gözlükler ve araçlarda ses ve video özellikli deneyimler.
- Sağlık hizmetleri: Hasta desteği ve eğitimi için sağlık arkadaşları.
- Finansal hizmetler: Varlık yönetimi ve yatırım tavsiyesi için yapay zeka danışmanları.
- Eğitim: Kişiselleştirilmiş talimatlar ve geri bildirimler sağlayan yapay zeka eğitmenleri ve öğrenci yardımcıları.
Temel özellikler
Live API, güçlü sesli temsilciler oluşturmak için kapsamlı bir özellik seti sunar:
- Çok dilli destek: Desteklenen 70 dilde sohbet edin.
- Araya girme: Kullanıcılar, yanıt veren etkileşimler için modeli istedikleri zaman kesebilir.
- Araç kullanımı: Dinamik etkileşimler için işlev çağırma ve Google Arama gibi araçları entegre eder.
- Ses transkriptleri: Hem kullanıcı girişinin hem de model çıkışının metin transkriptlerini sağlar.
- Proaktif ses: Modelin ne zaman ve hangi bağlamlarda yanıt vereceğini kontrol etmenizi sağlar.
- Moda uygun diyalog: Yanıt stilini ve üslubunu, kullanıcının giriş ifadesine uyacak şekilde uyarlar.
Teknik özellikler
Aşağıdaki tabloda, Live API'nin teknik özellikleri özetlenmiştir:
| Kategori | Ayrıntılar |
|---|---|
| Giriş biçimleri | Ses (ham 16 bit PCM ses, 16 kHz, little-endian), resimler (JPEG <= 1 FPS), metin |
| Çıkış biçimleri | Ses (ham 16 bit PCM ses, 24 kHz, little-endian) |
| Protokol | Durumlu WebSocket bağlantısı (WSS) |
Bir uygulama yaklaşımı seçin
Live API ile entegrasyon yaparken aşağıdaki uygulama yaklaşımlarından birini seçmeniz gerekir:
- Sunucudan sunucuya: Arka ucunuz, WebSockets kullanarak Live API'ye bağlanır. Genellikle istemciniz, akış verilerini (ses, video, metin) sunucunuza gönderir. Sunucunuz da bu verileri Live API'ye iletir.
- İstemciden sunucuya: Ön uç kodunuz, verileri yayınlamak için WebSockets'i kullanarak doğrudan Live API'ye bağlanır ve arka ucunuzu atlar.
Başlayın
Geliştirme ortamınıza uygun kılavuzu seçin:
GenAI SDK eğitimi
Python arka ucuyla gerçek zamanlı çok formatlı bir uygulama oluşturmak için GenAI SDK'yı kullanarak Gemini Live API'ye bağlanın.
WebSocket eğitimi
JavaScript ön ucu ve kısa ömürlü jetonlarla çok formatlı anlık bir uygulama oluşturmak için WebSockets kullanarak Gemini Live API'ye bağlanın.
ADK eğitimi
Bir aracı oluşturun ve sesli ve görüntülü iletişimi etkinleştirmek için Agent Development Kit (ADK) Streaming'i kullanın.
İş ortağı entegrasyonları
Gerçek zamanlı ses ve video uygulamalarının geliştirilmesini kolaylaştırmak için WebRTC veya WebSocket'ler üzerinden Gemini Live API'yi destekleyen bir üçüncü taraf entegrasyonu kullanabilirsiniz.
LiveKit
Gemini Live API'yi LiveKit Agents ile kullanma
Pipecat by Daily
Gemini Live ve Pipecat'i kullanarak gerçek zamanlı yapay zeka destekli chatbot oluşturun.
Fishjam by Software Mansion
Fishjam ile canlı video ve ses akışı uygulamaları oluşturun.
Akışa Göre Vision Agents
Vision Agents ile gerçek zamanlı ses ve video yapay zeka uygulamaları oluşturun.
Voximplant
Gelen ve giden aramaları Voximplant ile Live API'ye bağlayın.
Firebase AI SDK
Firebase AI Logic'i kullanarak Gemini Live API'yi kullanmaya başlayın.