Gemini

Gemini היא משפחה של מודלים של בינה מלאכותית גנרטיבית, שמאפשרים למפתחים ליצור תוכן ולפתור בעיות. המודלים האלה תוכננו ואומנו לטפל גם בטקסט וגם בתמונות כקלט. במדריך הזה מפורט מידע על כל וריאנט של המודל, כדי לעזור לכם להחליט איזו מהן הכי מתאימה לתרחיש לדוגמה שלכם.

בטיחות ושימוש מיועד

מודלים של בינה מלאכותית גנרטיבית הם כלים חזקים מאוד, אבל יש להם מגבלות שונות. הרבגוניות והיישומים שלהן יכולים לגרום לפעמים לפלטים בלתי צפויים, כמו פלטים לא מדויקים, מוטים או פוגעניים. כדי להגביל את הסיכון לנזק מפלטים כאלה, חייבים לבצע עיבוד לאחר עיבוד ובדיקה ידנית קפדנית. קראו את הנחיות הבטיחות כדי לקבל הצעות נוספות לשימוש בטוח.

המודלים שסופקו על ידי Gemini API יכולים לשמש למגוון רחב של אפליקציות של בינה מלאכותית גנרטיבית ועיבוד שפה טבעית (NLP). השימוש בפונקציות האלה זמין רק דרך Gemini API או דרך אפליקציית האינטרנט של Google AI Studio. השימוש ב-Gemini API כפוף גם למדיניות בנושא שימוש אסור ב-AI גנרטיבי ולתנאים ולהגבלות של Gemini API.

וריאציות של דגם

ב-Gemini API יש מודלים שונים שמותאמים לתרחישי שימוש ספציפיים. הנה סקירה קצרה של וריאנטים הזמינים של Gemini:

גרסת הדגם קלט(ים) פלט בוצעה אופטימיזציה עבור
Gemini 1.5 Pro (גרסת טרום-השקה) אודיו, תמונות וטקסט טקסט משימות של הסבר, כולל, בין היתר, יצירת קוד וטקסט, עריכת טקסט, פתרון בעיות, חילוץ נתונים ויצירתם
Gemini 1.5 Flash (תצוגה מקדימה) אודיו, תמונות וטקסט טקסט ביצועים מהירים וגמישים במגוון משימות
Gemini 1.0 Pro טקסט טקסט משימות של שפה טבעית (NLP), צ'אט עם קוד וכתיבה עם ריבוי פניות, ויצירת קוד
Gemini 1.0 Pro Vision תמונות וטקסט טקסט ביצועים אופטימליים למשימות שקשורות ויזואלית, כמו יצירת תיאורי תמונות או זיהוי אובייקטים בתמונות
הטמעת טקסט טקסט הטמעות טקסט יצירת הטמעות טקסט גמיש ב-768 מידות לכל היותר עבור טקסט עם עד 2,048 אסימונים
הטמעה טקסט הטמעות טקסט יצירת הטמעות טקסט עם 768 מידות לטקסט עד 2,048 אסימונים
AQA טקסט טקסט ביצוע משימות הקשורות למענה לשאלות מיוחסות על גבי הטקסט שסופק

בטבלה הבאה מפורטים המאפיינים של דגמי Gemini שמשותפים לכל הווריאציות של הדגמים:

מאפיין תיאור
נתוני אימון מועד סיום תקופת ההיכרות של Gemini מתקיים בתחילת 2023. היכולת לדעת על אירועים לאחר פרק זמן זה מוגבלת.
שפות נתמכות הצגת השפות הזמינות
פרמטרים של מודל שניתן להגדיר
  • P עליון
  • K למעלה
  • טמפרטורה
  • עצירת הרצף
  • אורך מקסימלי של פלט
  • מספר התשובות האפשריות

מידע על כל אחד מהפרמטרים האלה מופיע בקטע של הפרמטרים של המודלים במדריך למודלים גנרטיביים.

Gemini 1.5 Pro (גרסת טרום-השקה)

Gemini 1.5 Pro הוא מודל מרובה מצבים בינוני שמותאם למגוון רחב של משימות חשיבה, כמו:

  • יצירת קוד
  • יצירת טקסט
  • עריכת טקסט
  • פתרון בעיות
  • יצירת המלצות
  • חילוץ מידע
  • חילוץ או יצירה של נתונים
  • יצירת סוכני AI

1.5 Pro יכול לעבד כמויות גדולות של נתונים בו-זמנית, כולל שעה אחת של וידאו, 9.5 שעות של אודיו, בסיסי קוד עם יותר מ-30,000 שורות קוד או יותר מ-700,000 מילים.

גרסת 1.5 Pro יכולה לטפל במשימות למידה מסוג אפס, אחת או שתיים.

פרטי דגם

מאפיין (property) תיאור
קוד הדגם models/gemini-1.5-pro-latest
קלט אודיו, תמונות וטקסט
פלט טקסט
שיטות יצירה נתמכות generateContent
מגבלת אסימון הקלט[**] 1,048,576
מגבלת אסימון הפלט[**] 8,192
מספר תמונות מקסימלי להצעה לפעולה 3,600
אורך סרטון מקסימלי שעה אחת
אורך אודיו מקסימלי כ-9.5 שעות
המספר המקסימלי של קובצי אודיו לכל הצעה לפעולה 1
בטיחות הדגם הגדרות בטיחות שחלות באופן אוטומטי, והמפתחים יכולים לשנות אותן. אפשר לקרוא פרטים בדף הגדרות הבטיחות שלנו.
הגבלות קצב של יצירת בקשות[*]
בחינם:
  • 2 סיבובים לדקה
  • 32,000 TPM
  • 50 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 סל״ד
  • 10 מיליון TPM
  • RPD 10,000
  • 14,400,000,000 TPD
שני מיליון הקשר:
  • סיבוב אחד לדקה
  • 2 מיליון TPM
  • 50 RPD
הוראות המערכת נתמך
מצב JSON נתמך
הגרסה האחרונה gemini-1.5-pro-latest
הגרסה היציבה האחרונה gemini-1.5-pro
העדכון האחרון אפריל 2024

Gemini 1.5 Flash (תצוגה מקדימה)

Gemini 1.5 Flash הוא מודל מהיר ורב-תכליתי שמאפשר התאמה לעומס (scaling) במשימות שונות.

פרטי דגם

מאפיין (property) תיאור
קוד הדגם gemini-1.5-flash
קלט(ים) אודיו, תמונות וטקסט
פלט טקסט
שיטות יצירה נתמכות generateContent
מגבלת אסימון הקלט[**] 1,048,576
מגבלת אסימון הפלט[**] 8,192
מספר תמונות מקסימלי להצעה לפעולה 3,600
אורך סרטון מקסימלי שעה אחת
אורך אודיו מקסימלי כ-9.5 שעות
המספר המקסימלי של קובצי אודיו לכל הצעה לפעולה 1
בטיחות הדגם הגדרות בטיחות שחלות באופן אוטומטי, והמפתחים יכולים לשנות אותן. אפשר לקרוא פרטים בדף הגדרות הבטיחות שלנו.
הגבלות קצב של יצירת בקשות[*]
בחינם:
  • 15 סל״ד
  • מיליון TPM
  • RPD 1,500
Pay-as-you-go:
  • 360 סל״ד
  • 10 מיליון TPM
  • RPD 10,000
הוראות המערכת נתמך
מצב JSON נתמך
הגרסה האחרונה gemini-1.5-flash-latest
הגרסה היציבה האחרונה gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro הוא מודל NLP שמטפל במשימות כמו צ'אט בטקסט, קוד צ'אט ויצירת קוד.

גרסת 1.0 Pro יכולה לטפל במשימות למידה מסוג אפס, אחת או שתיים.

פרטי דגם

מאפיין (property) תיאור
קוד הדגם models/gemini-pro
קלט טקסט
פלט טקסט
שיטות יצירה נתמכות
Python: generate_content
REST: generateContent
הגבלות קצב של יצירת בקשות[*]
בחינם:
  • 15 סל״ד
  • 32,000 TPM
  • 1,500 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 סל״ד
  • 120,000 TPM
  • 30,000 RPD
  • 172,800,000 TPD
הוראות המערכת לא נתמכת
מצב JSON לא נתמכת
הגרסה האחרונה gemini-1.0-pro-latest
הגרסה היציבה האחרונה gemini-1.0-pro
גרסאות יציבות gemini-1.0-pro-001
העדכון האחרון פברואר 2024

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision הוא מודל רב-אופני עם אופטימיזציה לביצועים, שיכול לבצע משימות שקשורות ויזואלית. לדוגמה, 1.0 Pro Vision יכול ליצור תיאורי תמונות, לזהות אובייקטים שנמצאים בתמונות, לספק מידע על מקומות או אובייקטים שמופיעים בתמונות ועוד.

1.0 Pro Vision יכול לטפל במשימות של צילום אחד, או של כמה דוגמאות.

פרטי דגם

מאפיין (property) תיאור
קוד הדגם models/gemini-pro-vision
קלט טקסט ותמונות
פלט טקסט
שיטות יצירה נתמכות
Python: generate_content
REST: generateContent
מגבלת אסימון להזנת קלט[*] 12,288
מגבלת אסימון הפלט[*] 4,096
גודל תמונה מקסימלי אין מגבלה
מספר תמונות מקסימלי להצעה לפעולה ‏16
אורך סרטון מקסימלי שתי דקות
מספר הסרטונים המקסימלי לכל הצעה לפעולה 1
בטיחות הדגם הגדרות בטיחות שחלות באופן אוטומטי, והמפתחים יכולים לשנות אותן. אפשר לקרוא פרטים בדף הגדרות הבטיחות שלנו.
מגבלת קצב של יצירת בקשות[*] 60 בקשות לדקה
הגרסה האחרונה gemini-1.0-pro-vision-latest
הגרסה היציבה האחרונה gemini-1.0-pro-vision
העדכון האחרון דצמבר 2023

הטמעה והטמעה של טקסט

הטמעת טקסט

אפשר להשתמש במודל 'הטמעת טקסט' כדי ליצור הטמעות טקסט בשביל טקסט קלט. למידע נוסף על המודל 'הטמעת טקסט', אפשר לעיין בתיעוד של בינה מלאכותית גנרטיבית ב-Vertex AI בנושא הטמעות טקסט.

המודל 'הטמעת טקסט' עבר אופטימיזציה ליצירת הטמעות ב-768 מידות לטקסט עם עד 2,048 אסימונים. התכונה 'הטמעת טקסט' מציעה גודלי הטמעה גמישים מתחת ל-768. אפשר להשתמש בהטמעות גמישות כדי ליצור מידות פלט קטנות יותר ולחסוך בעלויות מחשוב ואחסון עם אובדן מזערי בביצועים.

פרטי דגם
מאפיין (property) תיאור
קוד הדגם models/text-embedding-004 (text-embedding-preview-0409 ב-Vertex AI)
קלט טקסט
פלט הטמעות טקסט
מגבלת אסימון קלט 2,048
גודל מידות הפלט 768
שיטות יצירה נתמכות
Python: embed_content
REST: embedContent
בטיחות הדגם אין הגדרות בטיחות שניתן לכוונן.
מגבלת קצב של יצירת בקשות[*] 1,500 בקשות לדקה
העדכון האחרון אפריל 2024

הטמעה

אפשר להשתמש במודל 'הטמעה' כדי ליצור הטמעות טקסט בשביל טקסט קלט.

מודל ההטמעה עבר אופטימיזציה ליצירת הטמעות עם 768 מאפיינים עבור טקסט עם עד 2,048 אסימונים.

פרטי המודל להטמעה
מאפיין (property) תיאור
קוד הדגם models/embedding-001
קלט טקסט
פלט הטמעות טקסט
מגבלת אסימון קלט 2,048
גודל מידות הפלט 768
שיטות יצירה נתמכות
Python: embed_content
REST: embedContent
בטיחות הדגם אין הגדרות בטיחות שניתן לכוונן.
מגבלת קצב של יצירת בקשות[*] 1,500 בקשות לדקה
העדכון האחרון דצמבר 2023

בקרת איכות

אפשר להשתמש במודל AQA כדי לבצע משימות שקשורות למענה לשאלות מיוחסות (AQA) במסמך, במאגר או בקבוצת פסקאות. מודל ה-AQA מחזיר תשובות לשאלות שמבוססות על מקורות הנתונים, יחד עם הערכה של ההסתברות שניתן יהיה לענות עליה.

פרטי דגם

מאפיין (property) תיאור
קוד הדגם models/aqa
קלט טקסט
פלט טקסט
שיטות יצירה נתמכות
Python: GenerateAnswerRequest
REST: generateAnswer
שפות נתמכות אנגלית
מגבלת אסימון הקלט[**] 7,168
מגבלת אסימון הפלט[**] 1,024
בטיחות הדגם הגדרות בטיחות שחלות באופן אוטומטי, והמפתחים יכולים לשנות אותן. אפשר לקרוא פרטים בדף הגדרות הבטיחות שלנו.
מגבלת קצב של יצירת בקשות[*] 60 בקשות לדקה
העדכון האחרון דצמבר 2023

תוכלו להיעזר בדוגמאות כדי לבחון את היכולות של הווריאציות של המודל.

[*] אסימון שווה ערך לכ-4 תווים בדגמים של Gemini. 100 אסימונים הם בערך 60-80 מילים באנגלית.

[**] RPM: שאילתות לדקה
TPM: אסימונים לדקה
RPD: בקשות ליום
TPD: אסימונים ליום

בגלל מגבלות הקיבולת, לא מובטח מגבלות קצב מקסימליות שצוינו.

תבניות של שמות של גרסאות דגם

דגמי Gemini זמינים בגרסאות תצוגה מקדימה או בגרסה יציבה. תוכלו להשתמש בקוד באחד מהפורמטים הבאים של שמות מודלים כדי לציין באיזה מודל וגרסה רוצים להשתמש.

  • העדכני ביותר: מצביע על הגרסה החדשנית של המודל לדור ולוריאציה ספציפיים. המודל הבסיסי מתעדכן באופן קבוע, והוא עשוי להיות גרסה מקדימה. ניתן להשתמש בכינוי הזה רק באפליקציות ובאבי טיפוס שמיועדים לבדיקה.

    כדי לציין את הגרסה העדכנית ביותר, משתמשים בתבנית הבאה: <model>-<generation>-<variation>-latest. לדוגמה, gemini-1.0-pro-latest.

  • היציבות האחרונה: הפניה לגרסה היציבה האחרונה שהושקה לגרסה וליצירת המודל שצוינו.

    כדי לציין את הגרסה היציבה האחרונה, צריך להשתמש בתבנית הבאה: <model>-<generation>-<variation>. לדוגמה: gemini-1.0-pro.

  • יציב:מצביע על מודל יציב ספציפי. מודלים יציבים לא משתנים. ברוב האפליקציות בסביבת הייצור מומלץ להשתמש במודל יציב ספציפי.

    כדי לציין גרסה יציבה, צריך להשתמש בתבנית הבאה: <model>-<generation>-<variation>-<version>. לדוגמה, gemini-1.0-pro-001.