‫Interactions API זמין עכשיו לכלל המשתמשים. מומלץ להשתמש ב-API הזה כדי לקבל גישה לכל התכונות והמודלים העדכניים.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

סקירה כללית על Gemini Live API

‫Live API מאפשר אינטראקציות קוליות וחזותיות בזמן אמת עם Gemini, עם זמן טעינה נמוך. היא מעבדת זרמים רציפים של אודיו, תמונות וטקסט כדי לספק תשובות מיידיות בדיבור שנשמע טבעי, וכך ליצור חוויה שיחתית טבעית למשתמשים.

סקירה כללית על Live API

אפשר לנסות את Live API ב-Google AI Studio אפשר לשכפל אפליקציות לדוגמה מ-GitHub אפשר להשתמש במיומנויות של סוכן תכנות

תרחישים לדוגמה

אפשר להשתמש ב-Live API כדי ליצור סוכנים קוליים בזמן אמת למגוון תעשיות, כולל:

מסחר אלקטרוני וקמעונאות: עוזרים לקניות שמציעים המלצות מותאמות אישית וסוכני תמיכה שפותרים בעיות של לקוחות.
גיימינג: דמויות אינטראקטיביות שאי אפשר לשחק איתן (NPC), עזרה במשחק, ותרגום בזמן אמת של תוכן במשחק.
ממשקי הדור הבא: חוויות מבוססות קול ווידאו ברובוטיקה, במשקפיים חכמים ובכלי רכב.
שירותי בריאות: עוזרים בתחום הבריאות לתמיכה במטופלים ולחינוך שלהם.
שירותים פיננסיים: יועצים מבוססי-AI לניהול כספים ולייעוץ בנושא השקעות.
‫Education: מנטורים מבוססי-AI ועוזרי למידה שמספקים הדרכה ומשוב בהתאמה אישית.
תרגום ולוקליזציה: תרגום בזמן אמת של שיחות בדיבור עם זמן אחזור נמוך, שמאפשר תקשורת חלקה בשפות שונות.

תכונות עיקריות

ממשק API בזמן אמת מציע מגוון רחב של תכונות ליצירת סוכנים קוליים חזקים:

תמיכה רב-לשונית: אפשר לנהל שיחות ב-70 שפות נתמכות.
התפרצות לשיחה: המשתמשים יכולים להפריע למודל בכל שלב כדי לנהל אינטראקציות דינמיות.
שימוש בכלים: משלב כלים כמו קריאה לפונקציות וחיפוש Google כדי ליצור אינטראקציות דינמיות.
תמלילי אודיו: מספק תמלילי טקסט של קלט של משתמשים והפלט מהמודל.
אודיו פרואקטיבי: מאפשר לכם לשלוט מתי המודל מגיב ובאילו הקשרים.
שיחה מותאמת-רגש: התאמת סגנון התגובה והטון שלהם לביטוי הקלט של המשתמש.
תרגום בזמן אמת: תרגום קולי בזמן אמת ביותר מ-70 שפות.

מפרטים טכניים

בטבלה הבאה מפורטות המפרטים הטכניים של Live API:

קטגוריה	פרטים
אופני קלט	אודיו (אודיו PCM גולמי של 16 ביט, 16kHz, ‏ little-endian), תמונות (JPEG <= 1FPS), טקסט
אופנויות פלט	אודיו (אודיו PCM גולמי של 16 ביט, 24kHz, ‏ little-endian)
פרוטוקול	חיבור WebSocket עם שמירת מצב (WSS)

בחירת גישת הטמעה

כשמשלבים את Live API, צריך לבחור באחת מגישות ההטמעה הבאות:

שרת לשרת: הקצה העורפי שלכם מתחבר ל-Live API באמצעות WebSockets. בדרך כלל, הלקוח שולח נתוני סטרימינג (אודיו, וידאו, טקסט) לשרת, והשרת מעביר אותם ל-Live API.
לקוח לשרת: קוד הקצה הקדמי מתחבר ישירות ל-Live API באמצעות WebSockets כדי להזרים נתונים, בלי לעבור דרך הקצה העורפי.

בסביבות ייצור, כדי לצמצם את סיכוני האבטחה, מומלץ להשתמש בטוקנים זמניים במקום במפתחות API רגילים.

שנתחיל?

בוחרים את המדריך שמתאים לסביבת הפיתוח:

Server-to-server

מדריך ל-GenAI SDK

מתחברים ל-Gemini Live API באמצעות GenAI SDK כדי ליצור אפליקציה מולטי-מודאלית בזמן אמת עם קצה עורפי של Python.

Client-to-server

WebSocket tutorial

אפשר להתחבר ל-Gemini Live API באמצעות WebSockets כדי ליצור אפליקציה מולטי-מודאלית בזמן אמת עם ממשק קצה ב-JavaScript וטוקנים זמניים.

Agent development kit

מדריך ל-ADK

יצירת סוכן ושימוש בסטרימינג של ערכת פיתוח סוכנים (ADK) כדי להפעיל תקשורת קולית ווידאו.

שילובים עם שותפים

כדי לייעל את הפיתוח של אפליקציות אודיו ווידאו בזמן אמת, אפשר להשתמש בשילוב של צד שלישי שתומך ב-Gemini Live API באמצעות WebRTC או WebSockets.

LiveKit

איך משתמשים ב-Gemini Live API עם סוכני LiveKit.

Pipecat by Daily

ליצור צ'אט בוט מבוסס-AI בזמן אמת באמצעות Gemini Live ו-Pipecat.

Fishjam by Software Mansion

יצירת אפליקציות לסטרימינג בשידור חי של וידאו ואודיו באמצעות Fishjam.

סוכני Vision לפי זרם

פיתוח אפליקציות AI של קול ווידאו בזמן אמת באמצעות סוכני Vision.

Voximplant

אפשר לחבר שיחות נכנסות ויוצאות ל-Live API באמצעות Voximplant.

Agora

פיתוח אפליקציות AI בממשק שיחה בזמן אמת באמצעות Agora.

Firebase AI SDK

מתחילים להשתמש ב-Gemini Live API באמצעות Firebase AI Logic.