Live API מאפשר אינטראקציות קוליות וחזותיות בזמן אמת עם Gemini, עם זמן טעינה נמוך. היא מעבדת זרמים רציפים של אודיו, תמונות וטקסט כדי לספק תשובות מיידיות בדיבור שנשמע אנושי, וכך ליצור חוויה שיחתית טבעית למשתמשים.

תרחישים לדוגמה
אפשר להשתמש ב-Live API כדי ליצור סוכנים קוליים בזמן אמת למגוון תעשיות, כולל:
- מסחר אלקטרוני וקמעונאות: עוזרים לקניות שמציעים המלצות מותאמות אישית וסוכני תמיכה שפותרים בעיות של לקוחות.
- גיימינג: דמויות אינטראקטיביות שאי אפשר לשחק איתן (NPC), עוזרים במשחק ותרגום בזמן אמת של תוכן במשחק.
- ממשקי דור חדש: חוויות שכוללות קול ווידאו ברובוטיקה, במשקפיים חכמים ובכלי רכב.
- שירותי בריאות: עוזרים בתחום הבריאות לתמיכה במטופלים ולחינוך שלהם.
- שירותים פיננסיים: יועצים מבוססי-AI לניהול כספים ולייעוץ בנושא השקעות.
- Education: מנטורים מבוססי-AI ועוזרי למידה שמספקים הדרכה ומשוב בהתאמה אישית.
תכונות עיקריות
ממשק API בזמן אמת מציע קבוצה מקיפה של תכונות לבניית סוכני קולי חזקים:
- תמיכה רב-לשונית: אפשר לנהל שיחות ב-70 שפות נתמכות.
- התפרצות לשיחה: המשתמשים יכולים לקטוע את המודל בכל שלב כדי ליצור אינטראקציות דינמיות.
- שימוש בכלים: משלב כלים כמו קריאה לפונקציות וחיפוש Google כדי ליצור אינטראקציות דינמיות.
- תמלילי אודיו: מספק תמלילי טקסט של קלט של משתמשים והפלט מהמודל.
- אודיו פרואקטיבי: מאפשר לכם לשלוט במצבים שבהם המודל מגיב ובהקשרים שבהם הוא מגיב.
- שיחה מותאמת-רגש: התאמת סגנון התגובה והטון שלה כך שיתאימו לביטוי הקלט של המשתמש.
מפרטים טכניים
בטבלה הבאה מפורטות המפרטים הטכניים של Live API:
| קטגוריה | פרטים |
|---|---|
| אופני קלט | אודיו (אודיו PCM גולמי של 16 ביט, 16kHz, little-endian), תמונות (JPEG <= 1FPS), טקסט |
| אופנויות פלט | אודיו (אודיו PCM גולמי של 16 ביט, 24kHz, little-endian) |
| פרוטוקול | חיבור WebSocket עם שמירת מצב (WSS) |
בחירת גישת הטמעה
כשמשלבים עם Live API, צריך לבחור באחת מגישות ההטמעה הבאות:
- שרת לשרת: הקצה העורפי מתחבר ל-Live API באמצעות WebSockets. בדרך כלל, הלקוח שולח נתוני שידור (אודיו, וידאו, טקסט) לשרת, והשרת מעביר אותם ל-Live API.
- לקוח לשרת: קוד הקצה הקדמי מתחבר ישירות ל-Live API באמצעות WebSockets כדי להזרים נתונים, בלי לעבור דרך הקצה העורפי.
שנתחיל?
בוחרים את המדריך שמתאים לסביבת הפיתוח:
מדריך ל-GenAI SDK
מתחברים ל-Gemini Live API באמצעות GenAI SDK כדי ליצור אפליקציה מולטי-מודאלית בזמן אמת עם קצה עורפי של Python.
WebSocket tutorial
מתחברים ל-Gemini Live API באמצעות WebSockets כדי ליצור אפליקציה מולטי-מודאלית בזמן אמת עם קצה קדמי של JavaScript וטוקנים זמניים.
מדריך ל-ADK
יוצרים סוכן ומשתמשים ב-ADK Streaming כדי להפעיל תקשורת קולית ווידאו.
שילובים עם שותפים
כדי לייעל את הפיתוח של אפליקציות אודיו ווידאו בזמן אמת, אפשר להשתמש בשילוב של צד שלישי שתומך ב-Gemini Live API באמצעות WebRTC או WebSockets.
LiveKit
שימוש ב-Gemini Live API עם סוכני LiveKit.
Pipecat by Daily
איך יוצרים צ'אט בוט מבוסס-AI בזמן אמת באמצעות Gemini Live ו-Pipecat.
Fishjam by Software Mansion
יצירת אפליקציות לסטרימינג של וידאו ואודיו בשידור חי באמצעות Fishjam.
סוכני Vision לפי Stream
פיתוח אפליקציות AI של וידאו וקול בזמן אמת באמצעות סוכני Vision.
Voximplant
אפשר לקשר שיחות נכנסות ויוצאות ל-Live API באמצעות Voximplant.
Firebase AI SDK
מתחילים להשתמש ב-Gemini Live API באמצעות Firebase AI Logic.