20 במאי 2025
Toonsutra מפיחה חיים בקומיקס: חוויית קריאה סוחפת שמבוססת על Gemini API, גרסת טרום-השקה של Gemini 2.5 Pro ו-Lyria 2
Toonsutra, היעד הגדול ביותר בהודו לקומיקס באינטרנט ולרומנים גרפיים, פועל כדי לחבר קהל עולמי ליקום הנרטיבי העצום של קומיקס באינטרנט, עם דגש מיוחד על הנגשת סיפורים ברמה עולמית בשפות הודיות. במטרה להעמיק את האינטראקציה עם הקהל, ב-Toonsutra שאלו: איך אפשר להפוך את חוויית הקריאה המסורתית של קומיקס למסע קולנועי סוחף שבו הקול, המוזיקה והסיפור זורמים באופן טבעי בשפה שבה הקוראים חולמים?
יצירת הפרק הבא בסיפור אינטראקטיבי
השאלה הזו הפכה למוקד העיקרי של Toonsutra. משוב מהקהילה שלהם הדגיש את הרצון להתעמקות גדולה יותר בתוכן ולנגישות רחבה יותר. מתוך הכרה בפוטנציאל העצום של AI, ובגיבוי של AI Futures Fund של Google, חברת Toonsutra שיתפה פעולה עם צוותי Labs ו-Partner Innovation ב-Google. הם משתמשים יחד ב-Gemini API, שכולל את גרסת טרום-ההשקה של Gemini 2.5 Pro, וב-Lyria 2 (מודל ליצירת מוזיקה של Google DeepMind) כדי לשנות את חוויית הקומיקס באינטרנט עבור מעריצים ברחבי העולם.
המיזם המשותף, שנחשף בכנס Google I/O, מציג חוויה של קומיקס מבוסס-AI שבה הסיפורים לא נשארים סטטיים בדף, אלא מגיבים ויוצרים אינטראקציה, והופכים תמונות סטטיות לסיפורים דינמיים עם אודיו:
- קריינות AI דינמית: גרסת טרום ההשקה של Gemini 2.5 Pro יוצרת קריינות AI שמתאימה למהירות הקריאה, ומפיחה חיים בדמויות באמצעות קולות ייחודיים. ההשפעה של התכונה הזו משמעותית במיוחד עבור קוראים בהודו, שבה יש ניואנסים תרבותיים רבים בשפה. היכולות המותאמות והרב-לשוניות של Gemini 2.5 Pro, בשילוב עם מנוע הקשר הייחודי של Toonsutra, מבטיחות סיפורים עקביים ומורכבים.
- סביבות קוליות דינמיות: באמצעות יכולות ההבנה המולטי-מודאליות של גרסת טרום-ההשקה של Gemini 2.5 Pro ויכולות יצירת האודיו המובנות של Lyria ו-Gemini, הפלטפורמה יוצרת סביבות קוליות סוחפות, כולל מוזיקה בהתאמה אישית, קריינות וצלילי תנועה – מצלצול של חרב ועד לאווירה של שוק הומה.
- אינטראקטיביות משופרת: רכיבים שמבוססים על גרסת טרום-ההשקה של Gemini 2.5 Pro מאפשרים לקוראים להפעיל דיאלוג ייחודי, לחקור פרטים נסתרים או להשפיע בעדינות על קווי עלילה, וכך ליהנות מחוויית קריאה מגוונת.
פרטים טכניים
בפרויקט הזה מוצגת גישה חדשנית ליצירה אוטומטית של אודיו סוחף עבור קומיקס דיגיטלי, כולל מטא-נתונים מרחביים מסונכרנים. בבסיסו נמצאת ארכיטקטורה מרובת סוכנים שמבוססת על Gemini 2.5 Pro Preview, שכוללת סוכנים ייעודיים: Comic Context Extractor, Narrator, Music Composer, Music Director ו-Sound Effects Agents.
תהליך העבודה מתחיל בסוכן Comic Context Extractor (חילוץ הקשר של קומיקס) שמנתח כמה פרקים של קומיקס כדי ליצור תקציר מקיף, ז'אנר ומאפייני דמויות. לאחר מכן, החלוניות מחולצות עם גבולות מוגדרים. הסוכן Narrator מתאים את הדיאלוג מהתמלילים לפאנלים האלה, שמועשרים בהקשר של הדמות, ומוקראים על ידי Gemini Native Audio. במקביל, סוכן מלחין המוזיקה, בהשראת מוזיקה לסרטים, משתמש בגרסת טרום ההשקה של Gemini 2.5 Pro כדי להבחין בין נושאים ורגשות לאורך הפרקים, ומתרגם אותם להנחיות מוזיקליות כדי שמודל Lyria ייצור מוזיקת רקע. הסוכן Music Director ממפה את המוזיקה הזו לחלוניות ספציפיות, והסוכן Sound Effects ממפה חלוניות לתגי אפקטים קוליים רלוונטיים, שנשלפים ממסד נתונים.
בסיום תהליך העבודה נוצר קובץ JSON עם פרטים על קואורדינטות של חלוניות, קריינות, אפקטים קוליים ומוזיקה מסונכרנת, והוא נשלח לחלק הקדמי של Toonsutra.
אחד מההישגים המרכזיים הוא היכולת של Gemini ליצור באופן טבעי אודיו קולנועי בשפות הודיות, החל מהינדית, וכך לקדם את המשימה של Toonsutra להנגשת התוכן.
"היה כיף ומרתק להשתמש ביכולות המולטי-מודאליות והרב-לשוניות של Gemini בתרחיש השימוש הזה. השימוש במודלים גדולים של שפה (LLM) של Google כדי להבין תמונות, דמויות, סקיצות ונושאים באופן סמנטי, הוא מנגנון מצוין לזיקוק של מדיה שמוזנת למערכת למהות שלה. היכולות המתקדמות של Lyria ליצירת מוזיקה והיכולות המובנות של Gemini לדיבור, במיוחד בשפות הודיות, שיפרו את חוויית השימוש הסופית שיכולנו לספק בשיתוף עם Toonsutra"
מ-Google I/O לזמינות כללית
התצוגה המקדימה של Google I/O הייתה אבן דרך מדהימה, שהמחישה איך AI יכול לשפר באופן מהותי תוכן דיגיטלי. עבור Toonsutra, זהו רק הפרק הראשון.
כמו שהצוות שלנו אומר לעיתים קרובות: "החזון שלנו ב-Toonsutra תמיד היה להפוך את הקומיקס למעניין ונגיש יותר לכולם, בכל מקום. השותפות הזו עם Google היא צעד משמעותי לקראת מימוש החזון הזה. היכולת ליצור חוויות קריאה עשירות ומבוססות-AI האלה היא תגובה ישירה למשוב שקיבלנו מהקהילה שלנו, והיא מאיצה את תהליך החדשנות שלנו. התגובות שקיבלנו ב-I/O היו מדהימות, ואנחנו רוצים לשלב את התכונה הזו באפליקציית Toonsutra. אנחנו אפילו בוחנים אפשרות ליצור API שיעזור ליוצרים אחרים".
חברת Toonsutra מתמקדת עכשיו בשילוב הדרגתי של התכונות האלה באפליקציה הראשית שלה, תוך הקשבה קפדנית למשוב מהקהילה. הם מאמינים שהם לא רק משפרים את הפלטפורמה שלהם, אלא גם עוזרים ליצור תוכנית חדשה לתוכן שמשופר על ידי AI.
מוכנים להתחיל? כל מה שחשוב לדעת מפורט במאמרי העזרה של Gemini API וכדי להתחיל להשתמש אפשר להיעזר ב-Google AI Studio.
Toonsutra היא חברה ב-AI Futures Fund של Google, שמשקיעה בסטארטאפים שאפתניים ומשתפת איתם פעולה כדי לפתח את הדור הבא של טכנולוגיית ה-AI.