20 במאי 2025
Toonsutra מפיחה חיים בקומיקס: חוויית קריאה סוחפת שמבוססת על Gemini API, גרסת טרום-השקה של Gemini 2.5 Pro ו-Lyria 2
Toonsutra, היעד הגדול ביותר בהודו לקומיקס באינטרנט ולרומנים גרפיים, פועל כדי לחבר קהל עולמי ליקום הנרטיבי העצום של קומיקס באינטרנט, עם דגש מיוחד על הנגשת סיפורים ברמה עולמית בשפות הודיות. מתוך רצון להעמיק את האינטראקציה עם הקהל, ב-Toonsutra שאלו: איך אפשר להפוך את חוויית הקריאה המסורתית של קומיקס למסע קולנועי סוחף שבו הקול, המוזיקה והסיפור זורמים באופן טבעי בשפה שבה הקוראים חולמים?
יצירת הפרק הבא בסיפורים אינטראקטיביים
השאלה הזו הפכה למוקד העיקרי של Toonsutra. משוב מהקהילה שלהם הדגיש את הרצון להתעמקות גדולה יותר בתוכן ולנגישות רחבה יותר. מתוך הכרה בפוטנציאל העצום של AI, ובגיבוי של AI Futures Fund מבית Google, חברת Toonsutra שיתפה פעולה עם צוותי Labs ו-Partner Innovation ב-Google. הם משתמשים יחד ב-Gemini API, שכולל את גרסת טרום-ההשקה של Gemini 2.5 Pro, וב-Lyria 2 (מודל ליצירת מוזיקה של Google DeepMind) כדי להמציא מחדש את חוויית הקומיקס באינטרנט עבור מעריצים ברחבי העולם.
המיזם המשותף, שנחשף בכנס Google I/O, מציג חוויה של קומיקס מבוסס-AI שבה הסיפורים לא נשארים סטטיים בדף, אלא מגיבים ויוצרים אינטראקציה, והופכים תמונות סטטיות לסיפורים דינמיים עם אודיו:
- קריינות AI דינמית: גרסת טרום ההשקה של Gemini 2.5 Pro יוצרת קריינות AI שמתאימה למהירות הקריאה, ומפיחה חיים בדמויות באמצעות קולות ייחודיים. ההשפעה של התכונה הזו משמעותית במיוחד על קוראים בהודו, שבה יש ניואנסים תרבותיים רבים בשפה. היכולות המותאמות והרב-לשוניות של Gemini 2.5 Pro, בשילוב עם מנוע הקשר של הדמויות הקנייני של Toonsutra, מבטיחות סיפור עקבי וניואנסי.
- סביבות קוליות דינמיות: באמצעות יכולות ההבנה המולטי-מודאליות של גרסת טרום-ההשקה של Gemini 2.5 Pro ויכולות יצירת האודיו המובנות של Lyria ו-Gemini, הפלטפורמה יוצרת סביבות קוליות סוחפות, כולל מוזיקה בהתאמה אישית, קריינות וצלילי תנועה – מצלצול של חרב ועד לאווירה של שוק הומה.
- אינטראקטיביות משופרת: רכיבים שמבוססים על גרסת טרום-ההשקה של Gemini 2.5 Pro מאפשרים לקוראים להפעיל דיאלוג ייחודי, לחקור פרטים נסתרים או להשפיע בעדינות על קווי עלילה, וכך ליהנות מחוויית קריאה מגוונת.
פרטים טכניים
בפרויקט הזה מוצגת גישה חדשנית ליצירה אוטומטית של אודיו היקפי לקומיקס דיגיטלי, כולל מטא-נתונים מרחביים מסונכרנים. בבסיסו נמצאת ארכיטקטורה מרובת סוכנים שמבוססת על Gemini 2.5 Pro Preview, שכוללת סוכנים ייעודיים: Comic Context Extractor, Narrator, Music Composer, Music Director ו-Sound Effects Agents.
תהליך העבודה מתחיל בסוכן Comic Context Extractor (חילוץ הקשר של קומיקס) שמנתח כמה פרקים של קומיקס כדי ליצור תקציר מקיף, ז'אנר ומאפייני דמויות. לאחר מכן, החלוניות מחולצות עם גבולות מוגדרים. הסוכן Narrator מתאים את הדיאלוג מהתמלילים לפאנלים האלה, שמועשרים בהקשר של הדמות ומוקראים על ידי Gemini Native Audio. במקביל, סוכן ה-Music Composer, בהשראת כתיבת מוזיקה לסרטים, משתמש בגרסת טרום ההשקה של Gemini 2.5 Pro כדי להבחין בין נושאים ורגשות לאורך הפרקים, ומתרגם אותם להנחיות מוזיקליות כדי שמודל Lyria ייצור פסקולים לשימוש כרקע. הסוכן Music Director ממפה את המוזיקה הזו לחלוניות ספציפיות, והסוכן Sound Effects ממפה חלוניות לתגי אפקטים קוליים רלוונטיים, שנשלפים ממסד נתונים.
תהליך העבודה הזה מסתיים בקובץ JSON עם פרטים על קואורדינטות של חלוניות, קריינות, אפקטים קוליים ומוזיקה מסונכרנת, שנשלח לחלק הקדמי של Toonsutra.
אחד מההישגים המרכזיים הוא היכולת של Gemini ליצור באופן טבעי אודיו קולנועי בשפות הודיות, החל מהינדית, וכך לקדם את המשימה של Toonsutra להנגשת התוכן.
"היה כיף ומרתק להשתמש ביכולות המולטי-מודאליות והרב-לשוניות של Gemini. השימוש במודלים גדולים של שפה (LLM) של Google כדי להבין תמונות, דמויות, סקיצות ונושאים באופן סמנטי, הוא מנגנון מצוין לזיקוק של מדיה שמוזנת למערכת למהות שלה. היכולות המתקדמות של Lyria ליצירת מוזיקה והיכולות המובנות של Gemini לדיבור, במיוחד בשפות הודיות, שיפרו את חוויית השימוש הסופית שיכולנו לספק בשיתוף עם Toonsutra"
מ-Google I/O לזמינות כללית
ההשקה ב-Google I/O הייתה אבן דרך מדהימה, שהמחישה איך AI יכול לשפר באופן משמעותי תוכן דיגיטלי. עבור Toonsutra, זה רק הפרק הראשון.
כמו שהצוות שלנו אומר לעיתים קרובות: "החזון שלנו ב-Toonsutra תמיד היה להפוך את הקומיקס למעניין ונגיש יותר לכולם, בכל מקום. השותפות הזו עם Google היא צעד משמעותי לקראת מימוש החזון הזה. היכולת ליצור חוויות קריאה עשירות ומבוססות-AI האלה היא מענה ישיר למשוב שקיבלנו מהקהילה שלנו, והיא מאיצה את תהליך החדשנות שלנו. התגובות שקיבלנו ב-I/O היו מדהימות, ואנחנו רוצים לשלב את התכונה הזו באפליקציית Toonsutra. אנחנו אפילו בוחנים אפשרות ליצור API שיאפשר ליוצרים אחרים להשתמש בה".
חברת Toonsutra מתמקדת עכשיו בשילוב הדרגתי של התכונות האלה באפליקציה הראשית שלה, תוך הקשבה קפדנית למשוב מהקהילה. הם מאמינים שהם לא רק משפרים את הפלטפורמה שלהם, אלא גם עוזרים ליצור תוכנית חדשה לתוכן שמשופר על ידי AI.
מוכנים להתחיל? כל מה שחשוב לדעת מפורט במאמרי העזרה של Gemini API וכדי להתחיל להשתמש אפשר להיעזר ב-Google AI Studio.
Toonsutra היא חברה ב-AI Futures Fund של Google, שמשקיעה בסטארטאפים שאפתניים ומשתפת איתם פעולה כדי לפתח את הדור הבא של טכנולוגיית ה-AI.