שיתוף

‫20 במאי 2025

‫Toonsutra מפיחה חיים בקומיקס: חוויית קריאה סוחפת שמבוססת על Gemini API, גרסת טרום-השקה של Gemini 2.5 Pro ו-Lyria 2

Sharad Devarajan | Vishal Anand

מייסדי Toonsutra

Avneet Singh

מנהל מוצר, Google Partner Innovation

תמונה ראשית של Cartwheel

‫Toonsutra, היעד הגדול ביותר בהודו לקומיקס באינטרנט ולרומנים גרפיים, פועל כדי לחבר קהל עולמי ליקום הנרטיבי העצום של קומיקס באינטרנט, עם דגש מיוחד על הנגשת סיפורים ברמה עולמית בשפות הודיות. מתוך רצון להעמיק את האינטראקציה עם הקהל, צוות Toonsutra שאל: איך אפשר להפוך את חוויית הקריאה של קומיקס מסורתי למסע קולנועי סוחף שבו הקול, המוזיקה והסיפור זורמים באופן טבעי בשפה שבה הקוראים חולמים?

יצירת הפרק הבא בסיפור אינטראקטיבי

השאלה הזו הפכה למוקד העיקרי של Toonsutra. המשוב מהקהילה שלהם הצביע על רצון להגביר את ההתעניינות של הקהל בערוץ ולשפר את הנגישות. מתוך הכרה בפוטנציאל העצום של AI, ובגיבוי של AI Futures Fund של Google, חברת Toonsutra שיתפה פעולה עם צוותי Labs ו-Partner Innovation ב-Google. הם משתמשים יחד ב-Gemini API, שכולל את גרסת טרום-ההשקה של Gemini 2.5 Pro, וב-Lyria 2 (מודל ליצירת מוזיקה של Google DeepMind) כדי לשנות את חוויית הקומיקס באינטרנט עבור מעריצים ברחבי העולם.

המיזם המשותף, שנחשף בכנס Google I/O, מציג חוויה של קומיקס מבוסס-AI שבה הסיפורים לא נשארים סטטיים בדף, אלא מגיבים ויוצרים אינטראקציה, והופכים תמונות סטטיות לסיפורים דינמיים עם אודיו:

  • קריינות AI דינמית: גרסת טרום ההשקה של Gemini 2.5 Pro יוצרת קריינות AI שמתאימה למהירות הקריאה, ומפיחה חיים בדמויות באמצעות קולות ייחודיים. ההשפעה של התכונה הזו משמעותית במיוחד עבור קוראים בהודו, שבה יש ניואנסים תרבותיים רבים בשפה. היכולות המותאמות והרב-לשוניות של Gemini 2.5 Pro, בשילוב עם מנוע הקשר של הדמויות הקנייני של Toonsutra, מבטיחות סיפור עקבי וניואנסי.
  • סביבות קוליות דינמיות: באמצעות יכולות ההבנה המולטי-מודאליות של גרסת טרום-ההשקה של Gemini 2.5 Pro ויכולות יצירת האודיו המובְנות של Lyria ו-Gemini, הפלטפורמה יוצרת סביבות קוליות סוחפות, כולל מוזיקה בהתאמה אישית, קריינות וצלילי תנועה – מצלצול חרב ועד לאווירה של שוק הומה.
  • אינטראקטיביות משופרת: רכיבים שמבוססים על גרסת טרום-ההשקה של Gemini 2.5 Pro מאפשרים לקוראים להפעיל דיאלוג ייחודי, לחקור פרטים נסתרים או להשפיע בעדינות על קווי עלילה, וכך ליהנות מחוויית קריאה מגוונת.

פרטים טכניים

בפרויקט הזה מוצגת גישה חדשנית ליצירה אוטומטית של אודיו סוחף לקומיקס דיגיטלי, כולל מטא-נתונים מרחביים מסונכרנים. בבסיסו נמצאת ארכיטקטורה מרובת סוכנים שמבוססת על Gemini 2.5 Pro Preview, שכוללת סוכנים ייעודיים: Comic Context Extractor (חילוץ הקשר של קומיקס), Narrator (קריין), Music Composer (מלחין), Music Director (מנהל מוזיקלי) ו-Sound Effects Agents (סוכני אפקטים קוליים).

תהליך העבודה מתחיל בסוכן Comic Context Extractor (חילוץ הקשר של קומיקס) שמנתח כמה פרקים של קומיקס כדי ליצור תקציר מקיף, ז'אנר ומאפייני דמויות. לאחר מכן, החלוניות מחולצות עם גבולות מוגדרים. הסוכן Narrator מתאים את הדיאלוג מהתמלילים ללוחות האלה, שמועשרים בהקשר של הדמות ומוקראים על ידי Gemini Native Audio. במקביל, סוכן ה-Music Composer, בהשראת כתיבת מוזיקה לסרטים, משתמש בגרסת טרום ההשקה של Gemini 2.5 Pro כדי לזהות נושאים ורגשות לאורך הפרקים, ולתרגם אותם להנחיות מוזיקליות כדי ש-Lyria תיצור פסקולים לרקע. הסוכן Music Director ממפה את המוזיקה הזו לחלוניות ספציפיות, והסוכן Sound Effects ממפה חלוניות לתגי אפקטים קוליים רלוונטיים, שנשלפים ממסד נתונים.

תהליך העבודה הזה מסתיים בקובץ JSON עם פרטים על קואורדינטות של חלוניות, קריינות, אפקטים קוליים ומוזיקה מסונכרנת, שנשלח לחלק הקדמי של Toonsutra.

אחד מההישגים המרכזיים הוא היכולת של Gemini ליצור באופן טבעי אודיו קולנועי בשפות הודיות, החל מהינדית, וכך לקדם את המשימה של Toonsutra להנגשת התוכן.

"היה כיף ומרגש להשתמש ב-Gemini כדי לתרגם את השיר הזה, בזכות היכולות המולטי-מודאליות והרב-לשוניות שלו. השימוש במודלים גדולים של שפה (LLM) של Google כדי להבין תמונות, דמויות, סקיצות ונושאים באופן סמנטי, הוא מנגנון מצוין לזיקוק של מדיה שמוזנת למערכת למהות שלה. היכולות המתקדמות של Lyria ליצירת מוזיקה והיכולות המובנות של Gemini ליצירת דיבור, במיוחד בשפות הודיות, שיפרו את חוויית השימוש הסופית שיכולנו לספק בשיתוף עם Toonsutra"‏

– אווניט (Avneet) (מנהל מוצר, Google Partner Innovation)

מ-Google I/O לזמינות כללית

ההשקה ב-Google I/O הייתה אבן דרך מדהימה, שהמחישה איך AI יכול לשפר באופן משמעותי תוכן דיגיטלי. עבור Toonsutra, זהו רק הפרק הראשון.

כמו שהצוות שלנו אומר לעיתים קרובות: "החזון שלנו ב-Toonsutra תמיד היה להפוך את הקומיקס למעניין ונגיש יותר לכולם, בכל מקום. השותפות הזו עם Google היא צעד משמעותי לקראת מימוש החזון הזה. היכולת ליצור חוויות קריאה עשירות ומבוססות-AI האלה היא מענה ישיר למשוב שקיבלנו מהקהילה שלנו, והיא מאיצה את החדשנות שלנו. התגובות שקיבלנו ב-I/O היו מדהימות, ואנחנו רוצים לשלב את התכונה הזו באפליקציית Toonsutra. אנחנו אפילו בוחנים אפשרות ליצור API שיעזור ליוצרים אחרים".

חברת Toonsutra מתמקדת עכשיו בשילוב הדרגתי של התכונות האלה באפליקציה הראשית שלה, תוך הקשבה קפדנית למשוב מהקהילה. הם מאמינים שהם לא רק משפרים את הפלטפורמה שלהם, אלא גם עוזרים ליצור תוכנית חדשה לתוכן שמשופר על ידי AI.

מוכנים להתחיל? כל מה שחשוב לדעת מפורט במאמרי העזרה של Gemini API וכדי להתחיל להשתמש ב-Google AI Studio אפשר להיעזר במאמרים האלה.

‫Toonsutra היא חברה ב-AI Futures Fund של Google, שמשקיעה בסטארטאפים שאפתניים ומשתפת איתם פעולה כדי לפתח את הדור הבא של טכנולוגיית ה-AI.