Multimodal Live API

Çoklu Formatlı Canlı API, ses ve metin çıkışıyla birlikte metin, ses ve video girişi kullanan düşük gecikmeli, iki yönlü etkileşimler sağlar. Bu sayede, modeli istediğiniz zaman kesintiye uğratarak doğal ve insan sesine benzeyen sesli sohbetler yapabilirsiniz. Modelin video anlama özelliği, iletişim modlarını genişleterek kamera girişini veya ekran kayıtlarını paylaşmanıza ve bunlarla ilgili sorular sormanıza olanak tanır.

Çoklu modlu canlı API aşağıdaki temel özellikleri içerir:

  • Çok formatlılık: Model görebilir, duyabilir ve konuşabilir.
  • Düşük gecikmeli gerçek zamanlı etkileşim: Model hızlı yanıtlar sağlayabilir.
  • Oturum belleği: Model, tek bir oturumdaki tüm etkileşimlerin belleğini saklayarak daha önce duyulan veya görülen bilgileri hatırlar.
  • İşlev çağırma, kod yürütme ve Araç Olarak Arama desteği: Modeli harici hizmetler ve veri kaynaklarıyla entegre edebilirsiniz.

Multimodal Live API, sunucudan sunucuya iletişim için tasarlanmıştır.

Web ve mobil uygulamalar için Daily'deki iş ortaklarımızın entegrasyonunu kullanmanızı öneririz.

Entegrasyon kılavuzu

Oturum sayısı

Oturum, istemci ile Gemini sunucusu arasındaki tek bir WebSocket bağlantısını temsil eder.

Bir istemci yeni bir bağlantı başlattıktan sonra oturum, sunucuyla mesaj alışverişinde bulunarak şunları yapabilir:

  • Gemini sunucusuna metin, ses veya video gönderme.
  • Gemini sunucusundan ses, metin veya işlev çağrısı yanıtları alın.

Oturum yapılandırması, bağlantıdan sonraki ilk mesajda gönderilir. Oturum yapılandırması; modeli, oluşturma parametrelerini, sistem talimatlarını ve araçları içerir.

Aşağıdaki örnek yapılandırmaya bakın:

{​​
  "model": string,
  "generation_config": {​​
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "response_modalities": string,
    "speech_config":object
  },

  "system_instruction": "",
  "tools":[]
}

Daha fazla bilgi için BidiGenerateContentSetup konusuna bakın.

Mesaj gönderin

Mesajlar, WebSocket bağlantısı üzerinden paylaşılan JSON biçimli dizelerdir.

İstemcinin mesaj gönderebilmesi için açık bir WebSocket bağlantısı üzerinden JSON biçimli bir dizeyle desteklenen bir istemci mesajı göndermesi gerekir.

Aşağıdaki kaynakları da incelemenizi öneririz:

  • Sık kullanılan API alanları (ör.Content ve Tool) hakkında daha fazla bilgi için İçerik oluşturma başlıklı makaleyi inceleyin.
  • İşlev çağırma hakkında daha fazla bilgi edinin.