Etkileşimler API'si artık genel kullanıma sunulmuştur. En yeni özelliklere ve modellere erişmek için bu API'yi kullanmanızı öneririz.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini Live API'ye genel bakış

Live API, Gemini ile düşük gecikmeli ve gerçek zamanlı sesli ve görsel etkileşimler sağlar. Ses, resim ve metin akışlarını sürekli olarak işleyerek anında, insan benzeri sözlü yanıtlar verir ve kullanıcılarınız için doğal bir sohbet deneyimi oluşturur.

Live API'ye Genel Bakış

Google AI Studio'da Live API'yi deneyin GitHub'dan örnek uygulamaları klonlayın Kodlama aracısı becerilerini kullanın

Kullanım alanları

Live API, aşağıdakiler de dahil olmak üzere çeşitli sektörlerde gerçek zamanlı sesli temsilciler oluşturmak için kullanılabilir:

E-ticaret ve perakende: Kişiselleştirilmiş öneriler sunan alışveriş asistanları ve müşteri sorunlarını çözen destek temsilcileri.
Oyun: Etkileşimli oyuncu olmayan karakterler (NPC'ler), oyun içi yardım asistanları ve oyun içi içeriğin anlık çevirisi.
Yeni nesil arayüzler: Robotik, akıllı gözlükler ve araçlarda ses ve video özellikli deneyimler.
Sağlık hizmetleri: Hasta desteği ve eğitimi için sağlık arkadaşları.
Finansal hizmetler: Servet yönetimi ve yatırım tavsiyesi için yapay zeka danışmanları.
Eğitim: Kişiselleştirilmiş talimatlar ve geri bildirimler sağlayan yapay zeka mentorları ve öğrenme arkadaşları.
Çeviri ve yerelleştirme: Konuşma sohbetlerinin anlık ve düşük gecikmeli çevirisi sayesinde sorunsuz çok dilli iletişim.

Temel özellikler

Live API, güçlü sesli ajanlar oluşturmak için kapsamlı bir özellik seti sunar:

Çok dilli destek: Desteklenen 70 dilde sohbet edin.
Araya girme: Kullanıcılar, yanıt veren etkileşimler için modeli istedikleri zaman kesebilir.
Araç kullanımı: Dinamik etkileşimler için işlev çağırma ve Google Arama gibi araçları entegre eder.
Ses transkripsiyonları: Hem kullanıcı girişinin hem de model çıkışının metin transkriptlerini sağlar.
Proaktif ses: Modelin ne zaman ve hangi bağlamlarda yanıt vereceğini kontrol etmenizi sağlar.
Duygusal diyalog: Yanıt stilini ve tonunu, kullanıcının giriş ifadesine uyacak şekilde ayarlar.
Canlı Çeviri: 70'ten fazla dilde anlık sesli çeviri.

Teknik özellikler

Aşağıdaki tabloda, Live API'nin teknik özellikleri özetlenmiştir:

Kategori	Ayrıntılar
Giriş biçimleri	Ses (ham 16 bit PCM ses, 16 kHz, little-endian), resimler (JPEG <= 1 FPS), metin
Çıkış biçimleri	Ses (ham 16 bit PCM ses, 24 kHz, little-endian)
Protokol	Durumlu WebSocket bağlantısı (WSS)

Bir uygulama yaklaşımı seçin

Live API ile entegrasyon yaparken aşağıdaki uygulama yaklaşımlarından birini seçmeniz gerekir:

Sunucudan sunucuya: Arka uçunuz, WebSockets kullanarak Live API'ye bağlanır. Genellikle istemciniz akış verilerini (ses, video, metin) sunucunuza gönderir. Sunucunuz da bu verileri Live API'ye iletir.
İstemciden sunucuya: Ön uç kodunuz, verileri yayınlamak için WebSockets kullanarak doğrudan Live API'ye bağlanır ve arka ucunuzu atlar.

Başlayın

Geliştirme ortamınıza uygun kılavuzu seçin:

Sunucudan sunucuya

İş ortağı entegrasyonları

Anlık ses ve video uygulamalarının geliştirilmesini kolaylaştırmak için WebRTC veya WebSocket'ler üzerinden Gemini Live API'yi destekleyen bir üçüncü taraf entegrasyonu kullanabilirsiniz.

LiveKit

LiveKit Agents ile Gemini Live API'yi kullanma.

Pipecat by Daily

Gemini Live ve Pipecat'i kullanarak gerçek zamanlı yapay zeka destekli chatbot oluşturun.

Software Mansion'ın Fishjam'i

Fishjam ile canlı video ve ses akışı uygulamaları oluşturun.

Akışa Göre Vision Agents

Vision Agents ile gerçek zamanlı ses ve video yapay zeka uygulamaları oluşturun.

Voximplant

Gelen ve giden aramaları Voximplant ile Live API'ye bağlayın.

Agora

Agora ile anlık etkileşimli yapay zeka uygulamaları oluşturun.

Firebase AI SDK'sı

Firebase AI Logic'i kullanarak Gemini Live API'yi kullanmaya başlayın.