משפחת המודלים של הבינה המלאכותית (AI) של Gemini מיועדת להתמודד עם סוגים שונים של נתוני קלט, כולל טקסט, תמונות ואודיו. כי אלה יכולים לטפל ביותר מסוג אחד או מצב אחד של נתונים. המודלים של Gemini נקראים מודלים רב-אופניים או מוסברים שיש להם יכולות מרובות מצבים.
בדף הזה מפורטות הנחיות ושיטות מומלצות לשימוש בקובצי מדיה עם הנחיות ל-Gemini API. מידע על השימוש ב-Gemini Files API שתעלו קובצי מדיה ולכלול אותם בהנחיות, תוכלו לראות ראייה, אודיו ו מדריכים לעיבוד מסמכים.
שימוש בקובצי מדיה עם הנחיות
היכולת להשתמש בסוגים שונים של נתונים בהנחיות מספקת יותר גמישות בכל הנוגע למשימות שאפשר לבצע בעזרת Gemini API. עבור למשל, אפשר לשלוח למודל תמונה של ארוחה טעימה ולבקש ממנו לכתוב בלוג קצר על הארוחה.
הנחיה | תגובה |
תכתוב פוסט קצר ומרתק בבלוג שמבוסס על התמונה הזו. היא צריכה לכלול בתמונה תיאור של הארוחה ולדבר על המסע שלי להכין ארוחה. |
הכנת ארוחה מראש היא דרך מצוינת לחסוך זמן וכסף, והיא יכולה גם עוזרות לכם לאכול בריא יותר. הארוחה הזו היא דוגמה מצוינת לתזונה בריאה וארוחה טעימה שאפשר להכין בקלות מראש. בארוחה יש אורז חום, ירקות צלויים ועוף טריאקי. האורז החום הוא פחמימות בריאה ומורכבת שתיתן לכם אנרגיה מתחדשת. הירקות הקלויים הם דרך מצוינת לקבל של ויטמינים ומינרלים, ועוף טריאקי טעים עשירה בחלבון. גם הארוחה הזאת קלה מאוד להכנה. פשוט מבשלים את האורז החום והצלי את הירקות, ומבשלים את עוף הטריאקי. אחרי שהכול מוכן, מחלקים אותו למכלים להכנת ארוחה ומאחסנים אותם במקרר. לאחר מכן תוכלו לתפוס מכלה ולהמשיך בבוקרים עמוסים! אם אתם מחפשים ארוחה בריאה וטעימה שניתן למצוא בקלות הארוחה הזאת שהוכנה מראש, היא אפשרות מצוינת. הוא מלא חומרים תזונתיים וטעמים, והוא יעזור לכם להרגיש מלאים. הנה ארוחה בריאה וטעימה |
אסטרטגיות ליצירת הנחיות במדיה
אם אתם מתקשים לקבל את הפלט הרצוי מההנחיות שמשתמשות יש כמה אסטרטגיות שיכולות לעזור לכם להשיג רוצה. בקטעים הבאים מוצגות גישות עיצוב ופתרון בעיות טיפים לשיפור הנחיות שמשתמשות בקלט מרובה מצבים.
כדי לשפר את ההנחיות לכמה שיטות, כדאי לפעול לפי השיטות המומלצות הבאות:
-
העקרונות הבסיסיים של עיצוב הנחיות
- הקפידו להיות ספציפיים בהוראות: הקפידו על הוראות ברורות ותמציתיות שישמרו על טעות בפרשנות.
- הוסיפו כמה דוגמאות להנחיה: השתמשו בדוגמאות ריאליסטיות של כמה דוגמאות כדי להמחיש את מה שאתם רוצים להשיג.
- פירוט של המשימות: חלקו משימות מורכבות ליעדי משנה שאפשר לנהל, והנחו את המודל לאורך התהליך.
- ציון פורמט הפלט: בהנחיה, מבקשים שהפלט יהיה בפורמט הרצוי, כמו Markdown, JSON, HTML ועוד.
- למקם את התמונה קודם בהנחיות עם תמונה יחידה: Gemini יכול לטפל בקלט של תמונה וטקסט בכל סדר שהוא, אבל בהנחיות שמכילות תמונה אחת, הביצועים שלו עשויים להשתפר אם מציבים את התמונה לפני ההנחיה של הטקסט.
-
פתרון בעיות בהנחיה מרובת מצבים
- אם המודל לא שולף מידע מהחלק הרלוונטי של התמונה: משחררים רמזים בעזרת המידע על ההיבטים של התמונה שעליהם רוצים לקבל את ההנחיה.
- אם הפלט של המודל כללי מדי (לא מותאם מספיק לתמונה): בתחילת ההנחיה, נסו לבקש מהמודל לתאר את התמונות לפני שאתם מספקים את הוראות המשימה, או לבקש מהמודל להתייחס למה שמופיע בתמונה.
העקרונות הבסיסיים של עיצוב הנחיות
הקטע הזה מרחיב את השיטות המומלצות שצוינו בקטע הקודם.
הערה: התוצאות של בניית המודל מהדוגמאות הבאות של Gemini עשויות להשתנות מהרצה להרצה.
ההנחיות צריכות להיות ספציפיות
ההנחיות הן הכי מצליחות כשהן ברורות ומפורטות. אם חשבתם על פלט ספציפי, עדיף לכלול את הדרישה הזו בהנחיה כדי להבטיח שתקבלו את הפלט הרצוי.
לפעמים, המטרה של הנחיה עשויה להיראות ברורה לאדם שכתב אותה, אבל למעשה היא לא מצוינת. כדי להתאים אישית את התנהגות המודל, כדאי לקחת בחשבון את האופן שבו ההנחיה יכולה להתפרש (באופן שגוי) ולוודא שההוראות שאתם נותנים הן ספציפיות וברורות. חשוב להשאיר מקום מינימלי לפרשנות שגויה
לתמונה הזו של לוח נמל תעופה, שמבקש מהמודל רק "לתאר את התמונה הזו" הם יכולים ליצור תיאור כללי. אם אתם צריכים שהמודל ינתח את הזמן והעיר מהתמונה, תוכלו לכלול את הבקשה הזו ישירות בהנחיה.
הנחיה | תגובת המודל |
---|---|
מה מופיע בתמונה? |
תמונה שבה מוצג לוח זמני הגעה ויציאה של נמל תעופה. |
הנחיה מעודכנת | תגובה משופרת |
---|---|
ניתוח השעה והעיר מלוח התעופה שמוצג בתמונה לרשימה. |
מומלץ להוסיף כמה דוגמאות
מודל Gemini יכול לקבל כמה קלטים, ולהשתמש בהם כדוגמאות כדי להבין הפלט הרצוי. הוספת הדוגמאות האלה יכולה לעזור למודל לזהות את הדפוסים ולהחיל בין התמונות הנתונות והתגובות לדוגמה החדשה. נקרא גם כמה דוגמאות למידת מכונה.
בדוגמה הבאה, הפלט הראשוני נכתב בצורת משפט, ומכיל גם את מדינה (ברזיל). נניח שאתם רוצים שהפלט יהיה בפורמט או סגנון אחר, רק את העיר, ולא את המדינה. הוספת דוגמאות של כמה שוטים להנחיה יכולה לכוון את המודל כדי להגיב בדרך הרצויה.
הנחיה | מודל התשובה |
---|---|
קובעים את העיר יחד עם ציון הדרך. |
האתר המפורסם הוא פסל ישו הגואל בריו דה ז'ניירו, ברזיל. |
הנחיה מעודכנת | תגובה משופרת |
---|---|
קובעים את העיר יחד עם ציון הדרך. |
עיר: רומא, ציון דרך: הקולוסיאום. |
עיר: בייג'ינג, ציון דרך: העיר האסורה |
|
עיר: ריו דה ז'ניירו, ציון דרך: פסל ישו הגואל |
פירוט שלו שלב אחרי שלב
במקרים של משימות מורכבות כמו משימות שדורשות גם הבנה חזותית וגם הסקת מסקנות, כדאי להיעזר ברשימה הזו. כדי לפצל את המשימה לשלבים קטנים ופשוטים יותר. אפשרות אחרת יכולה להיות שימושית אם בקשו מהמודל ישירות "לחשוב שלב אחרי שלב" בהנחיה.
הנחיה | תגובת המודל |
---|---|
מתי ייגמר לי נייר הטואלט? |
בקרוב נשארו לך רק 3 גלילות. |
הנחיה מעודכנת | תגובה משופרת |
---|---|
|
|
בעיות מתמטיות או סוגים אחרים של בעיות מילוליות הן מועמדים מצוינים לבקש מהמודל לחשוב שלב אחרי שלב.
הנחיה | תגובה |
---|---|
מה האיבר הרביעי ברצף? |
-135 |
התשובה מהמודל שגויה. דרכים לשיפור הזה הן לבקש מהמודל לנתח את הבעיה לפני שהוא עונה על ההנחיה.
הנחיה | תגובה |
---|---|
קודם כול צריך לנתח את הנוסחה שבתמונה. לאחר מכן, בהתאם לנוסחה, עונים "מה המונח הרביעי ברצף?". |
אפשר ללחוץ כדי להרחיב את התוצאה$$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ לכן, האיבר הרביעי ברצף הוא -405. |
התשובה הזו מהמודל נכונה – עכשיו כדי לשפר את התשובה, אתם יכולים לבקש מהמודל לחשוב על השלבים הבאים.
הנחיה מעודכנת | תגובה משופרת |
---|---|
מה האיבר הרביעי ברצף? חשבו שלב אחרי שלב. |
האיבר הראשון הוא 15. האיבר השני הוא b(1) * (-3) = 15 * (-3) = -45. האיבר השלישי הוא b(2) * (-3) = -45 * (-3) = 135. האיבר הרביעי הוא b(3) * (-3) = 135 * (-3) = -405. |
נסה לציין את פורמט הפלט
בעיה נפוצה היא הצורך שהפלט של המודל יהיה בפורמט מסוים (למשל Markdown, JSON, HTML), במיוחד אם הפלט של המודל צריך מוטמעת על ידי משימה במורד הזרם. אתם יכולים לנסות להפיק פלט בפורמט הזה על ידי הוראה למודל לעשות זאת בתוך ההנחיה. בהמשך מופיעות שתי דוגמאות:
הנחיה | תגובת המודל |
---|---|
חיתוך הטבלה בתמונה הזו לפורמט Markdown |
| נושא | סטטוס | שעה | תאריך התחלה | לתשלום בתאריך | | ------- | ------ | ---- | --------- | ------ | | מתמטיקה | סיום | שעה וחצי | 29.11.2023 | 1.12.2023 | | גיאוגרפיה | סיום | 30 דקות | 2.12.2023 | 4.12.2023 | | פיזיקה | בביצוע | שעתיים | 3/12/2023 | 5.12.2023 | | ביולוגיה | לא התחיל | 6 שעות | 2/11/2016 | 6.12.2023 | |
הנחיה | מודל התשובה |
---|---|
מספקים רשימה של כל המאפיינים הבאים: מרכיבים, סוג מטבח, צמחוני או לא, בפורמט JSON |
|
יש למקם את התמונה ראשונה בהנחיות של תמונה יחידה
Gemini יכול לפרש תמונה וטקסט בכל סדר בתוך הנחיה, אבל למקם תמונה אחת לפני שהנחיית הטקסט עשויה להוביל לתוצאות טובות יותר. בדוגמאות הבאות אפשר לראות את התמונה מופיע לפני הטקסט בכל הנחיה.
פתרון בעיות בהנחיה מרובת מצבים
אם לא קיבלתם תשובה מועילה, יכול להיות שתצטרכו לפתור בעיות בהנחיה. יש כמה אסטרטגיות שאפשר לנסות.
אם המודל לא שולף מידע מהחלק הרלוונטי של התמונה
כדי לקבל תשובה ספציפית יותר, אפשר לציין לגבי אילו היבטים בתמונה רוצים שההנחיה למשוך מידע מ- כדי ליצור את התגובה.
הנחיה | תגובת המודל |
---|---|
לכמה ימים החיתולים האלה יחזיקו תינוק? |
החיתולים יישמרו למשך 198 ימים לפני שייגמרו. |
הנחיה מעודכנת | תגובה משופרת |
---|---|
כמה זמן החיתולים האלה יישארו בתוקף עד שייגמר לי? משתמשים במשקל שמוצג על האריזה כדי לקבוע את גיל הילד או הילדה ומשתמשים במספר החיתולים הכולל בקופסה. מחלקים את המספר הכולל במספר החיתולים שהילד או הילדה עוברים ביום. |
בקופסה יש 198 חיתולים. על האריזה כתוב שהחיתולים מיועדים לילד או לילדה במשקל 22-37 ק"ג. הילד או הילדה הממוצע בטווח המשקל הזה צפויים להיות בני שנה עד שנתיים. ילד בן שנתיים בדרך כלל עובר 6 חיתולים ביום, לכן החיתולים נשארים באורך של כ-33 יום (198/6). |
אם הפלט של המודל כללי מדי ולא מותאם מספיק לקלט של התמונה
כדי לעזור למודל להתאים את התגובה שלו לתמונות, נסו לבקש ממנו לתאר את התמונות לפני ביצוע של משימת הנימוקים.
הנחיה | תגובת המודל |
---|---|
מה משותף בין התמונות האלה? |
כל ארבע התמונות הן דוגמאות לצילום נוף. |
הנחיה מעודכנת | תגובה משופרת |
---|---|
קודם כול צריך לתאר בפירוט את מה שמופיע בכל תמונה. מה המשותף בין התמונות האלה? |
בתמונה הראשונה רואים אדם אורז מזוודה. בתמונה השנייה מוצג פרוזדור ריק בקניון. בתמונה השלישית רואים גליל של נייר טואלט. בתמונה הרביעית מוצג ים חשוך וסוער. השכיחות בין התמונות האלה היא שכולן דוגמאות למרחבים לימינלים. מרחבים לימינאליים הם מקומות או מצבים שנמצאים בין שני מקומות או מצבים אחרים. לעיתים קרובות הם מתאפיינים במצב של אי-ודאות או אי-בהירות. בתמונה הראשונה רואים את האדם שנמצא בבית בזמן הנסיעה. בתמונה השנייה רואים את המסדרון בין שתי חנויות. התמונה השלישית היא של נייר טואלט, שיכול לייצג חדר אמבטיה. חדר אמבטיה הוא מרחב מעבר בין מרחבים והתחומים הציבוריים. זה מקום שבו אנחנו מכינים את עצמנו להיכנס לעולם החיצוני או לצאת ממנו. בתמונה הרביעית רואים את הים בין רגיעה לסוער. מרחבים לימינאליים יכולים להיות מרגשים ומטרידים. הם יכולים להיות מקום של התחלה חדשה או מקום של סיום. הם יכולים להיות מקום התבוננות או מקום של פעולה. |
אתם יכולים גם לבקש מהמודל באופן מפורש להתייחס למה שמופיע בתמונה.
הנחיה מעודכנת | תגובה משופרת |
---|---|
מה משותף בין התמונות האלה? בודקים מה מופיע בתמונות שבתשובה. |
כל התמונות קשורות לנסיעות. בתמונה הראשונה רואים אדם אורז מזוודה, ובתמונה השנייה רואים מסדרון ריק בקניון, בתמונה השלישית רואים ערימה של נייר טואלט, ובתמונה הרביעית רואים לים אפל וסוער. כל התמונות האלה קשורות לנסיעות, כי כולן דברים שאנשים צריכים או משתמשים בהן הם נוסעים. בתמונה הראשונה רואים אדם אורז מזוודה, וזה משהו שאנשים עושים כשהם יוצאים לטיול. בתמונה השנייה מוצג מסדרון ריק בקניון, שהוא מקום שאנשים בדרך כלל קונים דברים לנסיעות שלהם. בתמונה השלישית רואים ערימה של נייר טואלט, שזה משהו שאנשים משתמשים בהם לעיתים קרובות כשהם בנסיעות. התמונה הרביעית מציגה ים חשוך וסוער, משהו שאנשים נתקלים בו לעיתים קרובות כשהם בנסיעות. |
הטיפים הבאים רלוונטיים גם ליצירת פלט יצירתי מהתמונות. בדוגמה הבאה עם והארנבה, בקשה מפורשת מהמודל לכלול אספקטים מהתמונה, יכולה לשפר את הפלט.
הנחיה | תגובת המודל |
---|---|
אפשר לבקש ממך לכתוב לי שיר על התמונה הזו? |
ארנב קטן, כל כך רך וחום, את נושפת את הדשא, ירוק ומתוק, |
הנחיה מעודכנת | תגובה משופרת |
---|---|
תוכל לכתוב לי שיר תיאורי ודרמה על התמונה הזו ולכלול את המיקום? |
ארנב קטן על גינה, האם זה כחול ים, ארנב קטן, תגיד לי נכון, אולי בגלל הגודל של הכול, ארנב קטן, מעניין מה חלום, מה שיהיה, ארנב קטן, |
פתרון בעיות איזה חלק בהנחיה נכשל
יכול להיות קשה לדעת אם הנחיה נכשלה כי המודל לא הבין את התמונה מלכתחילה, או אם הוא הבין את התמונה אבל לא ביצעו את שלבי ההסבר הנכונים לאחר מכן.
כדי להבדיל בין הסיבות האלה, צריך לבקש מהמודל לתאר מה מופיע בתמונה.
בדוגמה הזו, אם המודל מגיב בחטיף שנראה מפתיע כשמשלבים אותו עם תה (למשל, פופקורן), קודם אפשר לפתור את הבעיות כדי לקבוע אם המודל זיהה נכון שבתמונה יש תה.
הנחיה | בקשה לפתרון בעיות |
---|---|
איזה חטיף אוכל להכין בדקה אחת שמתאים לי? |
מה מופיע בתמונה הזו? |
שיטה נוספת היא לבקש מהמודל להסביר את הנימוקים שלו. כך תוכלו להבין איזה חלק בנימוק היה פירוט של הסיבות, אם בכלל.
הנחיה | בקשה לפתרון בעיות |
---|---|
איזה חטיף אוכל להכין בדקה אחת שמתאים לי? |
איזה חטיף אוכל להכין בדקה אחת שמתאים לי? מה הסיבה? |
כוונון הפרמטרים של הדגימה
בכל בקשה שולחים למודל לא רק את ההנחיה מרובת המודלים, אלא גם קבוצה של פרמטרים של דגימה. המודל יכול ליצור תוצאות שונות לערכי פרמטרים שונים. התנסות עם כדי לקבל את הערכים הטובים ביותר למשימה. הפרמטרים הנפוצים ביותר לשינוי הם:
- טמפרטורה
- מספר ההסתברויות המובילות (P)
- מספר המילים המובילות
טמפרטורה
הטמפרטורה משמשת לדגימה במהלך יצירת התגובה, שמתרחשת כשמחילים ערכי P ו-K מובילים.
הטמפרטורה קובעת את רמת הרנדומיזציה בבחירת האסימון. שימוש בטמפרטורות נמוכות יותר מתאים להנחיות
מחייבות תגובה דטרמיניסטית יותר ותגובה פחות יצירתית או פתוחה, בעוד שטמפרטורות גבוהות יותר עלולות להוביל
תוצאות מגוונות או יצירתיות. טמפרטורה של 0 היא דטרמיניסטית, כלומר התשובה שיש לה את הסבירות הגבוהה ביותר
נבחר תמיד.
ברוב המקרים, כדאי להתחיל בטמפרטורה של 0.4. אם דרושות לך תוצאות יצירתיות נוספות, אפשר לנסות להגדיל לטמפרטורה. אם יש לך תגובות לא תואמות נתונים (hallucination), אז כדאי לנסות להוריד את הטמפרטורה.
למעלה מ-K
ה-Top-K משנה את האופן שבו המודל בוחר אסימונים לפלט. המשמעות של המספר הגבוה ביותר של 1 היא שהאסימון הבא שנבחר
האסימונים בעלי הסבירות הגבוהה ביותר מבין כל האסימונים באוצר המילים של המודל (נקרא גם פענוח באמצעות אלגוריתם חמדן),
המשמעות של K-3 היא שהאסימון הבא נבחר מתוך שלושת האסימונים בעלי הסבירות הגבוהה ביותר על-ידי
באמצעות טמפרטורה.
בכל שלב של בחירת אסימון, נדגמים את האסימונים המובילים עם ההסתברויות הגבוהות ביותר. לאחר מכן האסימונים מסוננים עוד יותר על סמך P עליון כשהאסימון הסופי נבחר באמצעות דגימת טמפרטורה.
להגדיר ערך נמוך יותר לתשובות אקראיות פחות וערך גבוה יותר לתגובות אקראיות יותר. ערך ברירת המחדל של המספר הגבוה ביותר הוא 32.
ראשון
ההיבט העליון (P) משנה את האופן שבו המודל בוחר אסימונים לפלט. האסימונים נבחרים בתדירות הגבוהה ביותר (ראו למעלה)
לפחות בעלי הסבירות הגבוהה ביותר עד שסכום ההסתברויות שלהם שווה לערך ההסתברויות המובילות. לדוגמה, אם אסימונים
ל-A, ל-B ול-C יש הסתברות של 0.6, 0.3, 0.1 והערך P הוא 0.9, אז המודל
בוחרים את A או B כאסימון הבא באמצעות הטמפרטורה, ולא כוללים את C כמועמד.
להגדיר ערך נמוך יותר לתשובות אקראיות פחות וערך גבוה יותר לתגובות אקראיות יותר. ערך ברירת המחדל של אינטראקציה מובילה הוא 1.0.
השלבים הבאים
- רוצה לנסות לכתוב הנחיות משלך עם כמה מצבים באמצעות AI מבית Google? Studio.
- להנחיות נוספות לגבי עיצוב הנחיות, אפשר לעיין הדף שיטות פרומפטים.