Gemini 1.5 Flash מגיע עם חלון הקשר של מיליון אסימונים, Gemini 1.5 Pro כולל חלון הקשר של 2 מיליון אסימונים. בעבר, גדול מודלים גדולים של שפה (LLM) היו מוגבלים משמעותית על ידי כמות הטקסט (או ) שניתן להעביר למודל בבת אחת. אורך Gemini 1.5 חלון הקשר, עם אחזור מושלם ( >99%), פותח עולם שלם של פרדיגמות חדשות ותרחישים לדוגמה של מפתחים.
הקוד שבו אתם כבר משתמשים למקרים כמו text גנרטיבי או multimodal קלטים יעבדו מחוץ לקופסה עם הקשר ארוך.
במדריך הזה אתם חוקרים בקצרה את היסודות של חלון ההקשר, כדאי למפתחים לחשוב על הקשר ארוך, על תרחישים לדוגמה שונים בעולם האמיתי הקשר ארוך ודרכים לאופטימיזציה של השימוש בהקשר ארוך.
מהו חלון הקשר?
הדרך הבסיסית להשתמש במודלים של Gemini 1.5 היא להעביר מידע (הקשר) למודל, מה שיפיק תשובה. אנלוגיה עבור חלון ההקשר הוא זיכרון לטווח קצר. יש כמות מוגבלת של מידע שיכולים להישמר בזיכרון הקצר של מישהו, וכך גם לגבי גנרטיביים.
אפשר לקבל מידע נוסף על האופן שבו מודלים פועלים לעומק במודלים הגנרטיביים שלנו guide.
איך מתחילים להשתמש בהקשר ארוך
רוב המודלים הגנרטיביים שנוצרו בשנים האחרונות יכלו רק לעבד 8,000 אסימונים בו-זמנית. מודלים חדשים יותר הגדילו את החשיפה בכך שהם קיבלו 32,000 אסימונים או 128,000 אסימונים. Gemini 1.5 הוא המודל הראשון שיכול מקבלים מיליון אסימונים, ועכשיו 2 מיליון אסימונים ב-Gemini 1.5 יתרון.
בפועל, מיליון אסימונים ייראו כך:
- 50,000 שורות קוד (כ-80 תווים רגילים בכל שורה)
- כל הודעות הטקסט ששלחת ב-5 השנים האחרונות
- 8 רומנים אנגליים באורך ממוצע
- תמלילים של יותר מ-200 פרקי פודקאסטים באורך ממוצע
המודלים יכולים לתת הקשרים רבים יותר, החוכמה הקונבנציונלית בשימוש במודלי שפה גדולים (LLM) מניחה כי זה מובנה מגבלה על המודל, שהחל מ-2024, כבר לא קיימת.
כמה אסטרטגיות נפוצות לטיפול במגבלה של חלונות הקשר קטנים כלול:
- משחררים באופן אקראי הודעות או טקסט ישנים מחלון ההקשר כטקסט חדש מגיע
- סיכום של תוכן קודם והחלפתו בסיכום כאשר חלון ההקשר עומד להיגמר
- שימוש ב-RAG עם חיפוש סמנטי כדי להעביר נתונים מחלון ההקשר למסד נתונים וקטורי
- שימוש במסננים דטרמיניסטיים או גנרטיביים כדי להסיר טקסט מסוים או תווים מהנחיות לשמירת אסימונים
רבים מהפרטים האלה עדיין רלוונטיים במקרים מסוימים, אבל ברירת המחדל עכשיו פשוט מציבים את כל האסימונים בחלון ההקשר. כי המודלים של Gemini 1.5 נוצרו במיוחד עם חלון הקשר ארוך, ללמידה בהקשר. לדוגמה, כחלק מהסבר רק חומרים (דקדוק עזר של 500 דפים, מילון ו-≈ 400 מקבילים נוספים משפטים) שכל המידע מופיע בהקשר, Gemini 1.5 Pro ו-Gemini 1.5 Flash יכולת ללמוד לתרגם מאנגלית לקלמאנג - שפה פפואה עם פחות מ-200 דוברים ולכן כמעט אין נוכחות באינטרנט - איכות שדומה לזו של אדם שלמד מאותם חומרים.
הדוגמה הזו מדגישה איך מתחילים לחשוב על מה שאפשר לעשות את ההקשר הארוך ואת יכולות הלמידה בהקשר של Gemini 1.5.
תרחישים לדוגמה בהקשר ארוך
ברוב המודלים הגנרטיביים עדיין משתמשים בקלט טקסט, אבל בתרחיש לדוגמה משפחת המודלים של Gemini 1.5 מאפשרת פרדיגמה חדשה של תרחישים שונים לדוגמה. האלה יכולים להבין באופן טבעי טקסט, וידאו, אודיו ותמונות. אלו השמות בשילוב עם Gemini API שלוקח קובץ מרובה מצבים סוגים של מטעמי נוחות.
טקסט ארוך
טקסט הוכיח את עצמו בתור שכבת מידע, שמבוססת על חלק גדול מומנטום בנושא מודלים גדולים של שפה. כפי שציינו קודם, חלק גדול מהמגבלות המעשיות למודלים מסוג LLM לא היה חלון הקשר מספיק גדול כדי לבצע פעולות מסוימות למשימות סיווג. הדבר הוביל לאימוץ מהיר של תהליך יצירה משופר של אחזור (RAG) ושיטות אחרות שמספקות למודל באופן דינמי מידע לפי הקשר. עכשיו, עם חלונות הקשר גדולים וגדולים יותר (כרגע עד 2 מיליון משתמשים ב-Gemini 1.5 Pro), יש שיטות חדשות שמתבססות על שיטות ולקבל גישה לתרחישים חדשים לדוגמה.
דוגמאות לתרחישים חדשים וסטנדרטיים לשימוש בהקשר ארוך מבוסס-טקסט:
- סיכום קטעי טקסט גדולים
- אפשרויות סיכום קודמות עם מודלים קטנים יותר של הקשר יחייבו חלון הזזה או שיטה אחרת לשמירת המצב של הקטעים הקודמים כשאסימונים חדשים מועברים למודל
- שאלות ומענה
- מבחינה היסטורית זה היה אפשרי רק באמצעות RAG בהינתן כמות מוגבלת של של הקשרים ושל מודלים הרבה זכירת עובדות,
- תהליכי עבודה נציגים
- הטקסט הוא הבסיס לאופן שבו הנציגים שומרים על מצב מה שהם עשו ומה הם צריכים לעשות. שאין מספיק מידע על העולם והמטרה של הסוכן היא הגבלה על האמינות של הנציגים
למידה מתוך הקשר עם תמונות רבות היא אחת את היכולות הייחודיות ביותר שמודלים של הקשר ארוך יכולים להשתמש בהן. מחקרים הוכיחו שלוקחים את ה"צילום יחיד" או 'multi-shot' בפרדיגמה לדוגמה, מוצג מודל אחד או כמה דוגמאות של משימה, ומדרג אותם עד מאות, אלפים ואפילו מאות אלפי דוגמאות, יכולות חדשניות של מודלים. כבר ראינו שהגישה הזו, הכוללת דוגמאות רבות, מניבה ביצועים בדומה למודלים שכווננו במיוחד למשימה ספציפית. לתרחישים לדוגמה הביצועים של מודל Gemini עדיין לא מספיקים ליצירת תוכלו לנסות את הגישה עם רוב התרחישים. כמו שאולי תגלו בהמשך של אופטימיזציה של הקשר ארוך, שמירת ההקשר במטמון הופכת את סוג הקלט הזה לקלט עומס עבודה של אסימונים. הוא מעשי מבחינה כלכלית יותר, ואפילו זמן אחזור קצר יותר במקרים שונים.
סרטון ארוך
השימוש בתוכן וידאו מוגבל כבר זמן רב על ידי חוסר נגישות של המדיה עצמה. היה קשה לרפרף בתוכן, התמלילים נכשלו בדרך כלל כדי להבין את הניואנסים של הסרטון, ורוב הכלים לא מעבדים תמונות, טקסט או אודיו יחד. ב-Gemini בגרסה 1.5, היכולות של טקסט עם הקשר ארוך מתורגמות את היכולת לחשוב על שאלות ולענות על שאלות לגבי קלט מרובה מצבים באמצעות ביצועים טובים לאורך זמן. Gemini 1.5 Flash, כשהוא נבדק על המחט בסרטון בעיית haystack עם מיליון אסימונים, שהתקבלו יותר מ-99.8% מהזיכרון של הסרטון ו-1.5 Pro הגיעו לרמת ביצועים ברמה גבוהה מאוד נקודת השוואה של Video-MME.
הנה מספר תרחישים לדוגמה חדשים ורגילים של הקשר ארוך של סרטונים:
- שאלה ותשובה בסרטונים
- זיכרון וידאו, כפי שמוצג עם Project Astra של Google
- כתוביות לסרטונים
- מערכות להמלצות על סרטונים, על ידי העשרת מטא-נתונים קיימים באמצעות הבנה מרובת מצבים
- התאמה אישית של הסרטון באמצעות בחינת מאגר נתונים והסרטון המשויך מטא נתונים ולאחר מכן הסרה של חלקים מסרטונים שאינם רלוונטיים צופה
- ניהול תוכן הסרטון
- עיבוד סרטונים בזמן אמת
כשעובדים עם סרטונים, חשוב לקחת בחשבון את הביצועים של הסרטונים מעובדים לאסימונים. זה משפיע על ומגבלות שימוש. אפשר לקרוא מידע נוסף על יצירת הנחיות בקובצי וידאו בכתובת ההנחיות guide.
אודיו ארוך
המודלים של Gemini 1.5 היו מודל השפה הגדול הראשון שמבוסס על מודל שפה גדול (LLM) במקור. שיכול להבין אודיו. בעבר, תהליך העבודה הרגיל של מפתחים היה לכלול קיבוץ של כמה מודלים ספציפיים לדומיין, כמו של המרת דיבור לטקסט (STT) ומודל של טקסט לטקסט כדי לעבד אודיו. הזה הוביל לזמן אחזור נוסף שנדרש על ידי ביצוע מספר בקשות הלוך ושוב וירידה בביצועים בדרך כלל מיוחסים לארכיטקטורות מנותקות את ההגדרה של מודלים מרובים.
בהערכות סטנדרטיות של Audio-haystack, Gemini 1.5 Pro יכול למצוא אודיו מוסתר ב-100% מהבדיקות, ו-Gemini 1.5 Flash יכול למצוא אותו 98.7% מתוך בדיקות. Gemini 1.5 Flash מקבל עד 9.5 שעות של אודיו בהקלטה אחת בקשה וגם Gemini 1.5 Pro יכול לקבל עד 19 שעות של אודיו באמצעות אסימון של 2 מיליון חלון ההקשר. ואם זה לא מספיק, הניסוי של Gemini 1.5 Pro מתבצע על סט בדיקה של קטעי אודיו באורך 15 דקות. מעביר לארכיון שיעור שגיאות מילים (WER) של כ-5.5%, הרבה יותר נמוך מאשר אפילו שגיאות מודלים של דיבור לטקסט, ללא המורכבות הנוספת של פילוח קלט נוסף ובעיבוד מראש.
הנה מספר תרחישים לדוגמה חדשים וסטנדרטיים לשימוש בהקשר של אודיו:
- תמלול ותרגום בזמן אמת
- שאלה ומענה לפודקאסטים או לסרטונים
- תמלול וסיכום של פגישות
- עוזרים קוליים
אפשר לקרוא מידע נוסף על הנחיות באמצעות קובצי אודיו בהנחיות guide.
אופטימיזציות של הקשר ארוך
האופטימיזציה העיקרית בעבודה עם הקשר ארוך ועם Gemini 1.5 היא להשתמש בהקשר שמירה במטמון. מעבר לסרטון הקודם ואין אפשרות לעבד הרבה אסימונים בבקשה אחת, והשיטה העיקרית המגבלה הייתה העלות. אם אתם משוחחים ב'צ'אט עם הנתונים שלכם' אפליקציה שבה המשתמש מעלה 10 קובצי PDF, סרטון וכמה מסמכי עבודה, שכלל כדי לעבוד עם כלי מורכב יותר ליצירה משופרת של אחזור (RAG) / כדי לעבד את הבקשות האלה ולשלם סכום משמעותי עבור האסימונים שהועברו לחלון ההקשר. עכשיו אפשר לשמור קבצים של המשתמש העלאות בתשלום כדי לאחסן אותן על בסיס שעתי. עלות הקלט / פלט לכל שליחת בקשה ל-Gemini לדוגמה 1.5 Flash הוא פי 4 פחות מעלות הקלט / פלט הסטנדרטית, כך שאם המשתמש משוחח בצ'אט עם הנתונים שלו מספיק, וזה הופך לחיסכון משמעותי בעלויות מפתח האפליקציה.
הגבלות שקשורות להקשר ארוך
בקטעים שונים במדריך הזה, דיברנו על האופן שבו המודלים של Gemini 1.5 משיגים רמת ביצועים גבוהה במגוון פונקציות של אחזור מחט בתוך מקבץ שחת. האלה הבדיקה מתייחסת להגדרה הבסיסית ביותר, שבה יש מחט אחת מה הם מחפשים. במקרים שבהם יש לכם מספר "מחטים" או קטעים ספציפיים למידע שאתם מחפשים, המודל לא מבצע את אותה פעולה מדויקות. הביצועים עשויים להשתנות במידה רבה בהתאם להקשר. הזה שחשוב להביא בחשבון, כי יש יחסי גומלין בין השגת את המידע הנכון שמאוחזר ואת העלות. אפשר לקבל כ-99% בתגובה לשאילתה אחת, תצטרכו לשלם את העלות של אסימון הקלט בכל פעם שאתם שולחים את השאילתה. אז ל-100 של נתונים לאחזור, אם דרוש לך 99% ביצועים, יצטרכו לשלוח 100 בקשות. זאת דוגמה טובה למצב שבו ההקשר שמירה במטמון יכולה להפחית משמעותית את העלויות שקשורות לשימוש במודלים של Gemini תוך שמירה על רמת ביצועים גבוהה.
שאלות נפוצות
האם הביצועים של המודל נמחקים כשמוסיפים עוד אסימונים לשאילתה?
באופן כללי, אם אתם לא צריכים אסימונים להעברה למודל, עדיף ולא להעביר אותם. אבל אם יש לכם מקטע גדול של אסימונים ורוצים לשאול שאלות על המידע הזה, בעל יכולת גבוהה לחלץ את המידע הזה (עד 99% דיוק במקרים שונים).
מה הביצועים של Gemini 1.5 Pro בבדיקה הרגילה של needle-in-a-haystack?
Gemini 1.5 Pro מספק 100% ריקול של עד 530,000 אסימונים ויותר מ-99.7% זכירת נתונים (עד 99.7%) מיליון אסימונים.
איך אפשר להפחית את העלות בעזרת שאילתות עם הקשר ארוך?
אם יש לכם קבוצה דומה של אסימונים או הקשרים שאתם רוצים להשתמש בהם שוב שמירה במטמון לפי הקשר יכולה לעזור להפחית את העלויות שקשורה לשאלות לגבי המידע הזה.
איך אפשר לקבל גישה לחלון ההקשר של 2 מיליון האסימונים?
לכל המפתחים יש עכשיו גישה לחלון הקשר של 2 מיליון אסימונים ב-Gemini 1.5 Pro.
האם אורך ההקשר משפיע על זמן האחזור של המודל?
בכל בקשה נתונה יש משך אחזור קבוע מסוים, ללא קשר ל אבל בדרך כלל לשאילתות ארוכות יותר יהיה זמן אחזור ארוך יותר (הזמן עד לפעם הראשונה ).
יכולות ההקשר הארוך שונות ב-Gemini 1.5 ב-Flash וב-Gemini 1.5 Pro?
כן, חלק מהמספרים אוזכרים בקטעים שונים במדריך הזה, אבל באופן כללי, הביצועים של Gemini 1.5 Pro טובים יותר בתרחישים לדוגמה של הקשר ארוך יותר.