20 במאי 2025
Toonsutra מפיח חיים בקומיקס: חוויית קריאה סוחפת שמבוססת על Gemini API, על גרסת טרום-השקה של Gemini 2.5 Pro ועל Lyria 2

פלטפורמת Toonsutra היא היעד הגדול ביותר בהודו לקומיקס באינטרנט ולרומנים גרפיים. המטרה שלה היא לחבר קהל עולמי ליקום הנרטיבי העצום של קומיקס באינטרנט, עם דגש מיוחד על הנגשת סיפורים ברמה עולמית בשפות הודיות. מתוך רצון להעמיק את האינטראקציה עם הקהל, צוות Toonsutra שאל: איך אפשר להפוך את חוויית הקריאה המסורתית של קומיקס למסע קולנועי סוחף שבו הקול, המוזיקה והסיפור זורמים באופן טבעי בשפה שבה הקוראים חולמים?
יצירת הפרק הבא בסיפור אינטראקטיבי
השאלה הזו הפכה למוקד העיקרי של Toonsutra. המשוב מהקהילה שלהם הדגיש את הרצון להגביר את ההתעניינות בערוץ ולשפר את הנגישות. מתוך הכרה בפוטנציאל העצום של AI, ובגיבוי של קרן AI Futures Fund של Google, חברת Toonsutra שיתפה פעולה עם צוותי Labs ו-Partner Innovation ב-Google. הם משתמשים יחד ב-Gemini API, שכולל את Gemini 2.5 Pro Preview ואת Lyria 2 (מודל ליצירת מוזיקה של Google DeepMind), כדי לשנות את חוויית הקומיקס באינטרנט עבור מעריצים ברחבי העולם.
המיזם המשותף, שנחשף בכנס Google I/O, מציג חוויה של קומיקס מבוסס-AI שבה הסיפורים לא נשארים סטטיים בדף, אלא מגיבים ויוצרים אינטראקציה, והופכים תמונות סטטיות לסיפורים דינמיים עם אודיו:
- קריינות AI דינמית: גרסת טרום ההשקה של Gemini 2.5 Pro יוצרת קריינות AI שמתאימה למהירות הקריאה, ומפיחה חיים בדמויות באמצעות קולות ייחודיים. השינוי הזה משמעותי במיוחד לקוראים בהודו, שבה יש ניואנסים תרבותיים רבים בשפה. היכולות המותאמות והרב-לשוניות של Gemini 2.5 Pro, בשילוב עם מנוע ההקשר של הדמויות הקנייני של Toonsutra, מבטיחות סיפור עקבי ומורכב.
- סביבות קוליות דינמיות: באמצעות יכולות ההבנה הרב-מודאליות של Gemini 2.5 Pro Preview ויכולות יצירת האודיו המובְנות של Lyria ו-Gemini, הפלטפורמה יוצרת סביבות קוליות סוחפות, כולל מוזיקה בהתאמה אישית, קריינות וצלילי תנועה – מצלצול של חרב ועד לאווירה של שוק הומה.
- אינטראקטיביות משופרת: רכיבים שמבוססים על גרסת טרום-השקה של Gemini 2.5 Pro מאפשרים לקוראים להפעיל דיאלוג ייחודי, לחקור פרטים נסתרים או להשפיע בעדינות על קווי עלילה, וכך ליהנות מחוויית קריאה מגוונת.
פרטים טכניים
בפרויקט הזה מוצגת גישה חדשנית ליצירה אוטומטית של אודיו היקפי לקומיקס דיגיטלי, כולל מטא-נתונים מרחביים מסונכרנים. בבסיסו נמצאת ארכיטקטורה מרובת סוכנים שמבוססת על Gemini 2.5 Pro Preview, שכוללת סוכנים ייעודיים: Comic Context Extractor (חילוץ הקשר של הקומיקס), Narrator (קריין), Music Composer (מלחין), Music Director (מנהל מוזיקלי) ו-Sound Effects Agents (סוכני אפקטים קוליים).
תהליך העבודה מתחיל בסוכן Comic Context Extractor (חילוץ הקשר של קומיקס) שמנתח כמה פרקים של קומיקס כדי ליצור תקציר מקיף, ז'אנר ומאפייני דמויות. לאחר מכן, החלוניות מחולצות עם גבולות מוגדרים. הסוכן Narrator מתאים את הדיאלוג מהתמלילים לחלוניות האלה, שמועשרות בהקשר של הדמות, ומוקראות על ידי Gemini Native Audio. במקביל, סוכן ה-Music Composer, בהשראת מוזיקה לסרטים, משתמש בגרסת טרום-ההשקה של Gemini 2.5 Pro כדי להבחין בין נושאים ורגשות לאורך הפרקים, ומתרגם אותם להנחיות מוזיקליות כדי ש-Lyria תיצור מוזיקת רקע. הסוכן Music Director ממפה את המוזיקה הזו לחלוניות ספציפיות, והסוכן Sound Effects ממפה חלוניות לתגי אפקטים קוליים רלוונטיים, שנשלפים ממסד נתונים.
בסיום תהליך העבודה נוצר קובץ JSON עם פרטים על קואורדינטות של פאנלים, קריינות, אפקטים קוליים ומוזיקה מסונכרנת, והוא נשלח לחלק הקדמי של האתר של Toonsutra.
אחד מההישגים המרכזיים הוא היכולת של Gemini ליצור אודיו קולנועי בשפות הודיות, החל מהינדית, ובכך לקדם את המשימה של Toonsutra להנגשת התוכן.
"היה כיף ומעניין להשתמש ביכולות המולטי-מודאליות והרב-לשוניות של Gemini. השימוש במודלים גדולים של שפה (LLM) של Google כדי להבין תמונות, דמויות, סקיצות ונושאים באופן סמנטי היה מנגנון מצוין לזיקוק של מדיה שמוזנת למערכת למהות שלה. היכולות המתקדמות של Lyria ליצירת מוזיקה והיכולות המובנות של Gemini ליצירת דיבור, במיוחד בשפות הודיות, שיפרו את חוויית הצפייה הסופית שהצלחנו לספק בשיתוף עם Toonsutra"
מ-Google I/O לזמינות כללית
התצוגה המקדימה ב-Google I/O הייתה ציון דרך מדהים, שהמחיש איך AI יכול לשפר באופן מהותי תוכן דיגיטלי. עבור Toonsutra, זה רק הפרק הראשון.
כמו שהצוות שלנו אומר לעיתים קרובות: "החזון שלנו ב-Toonsutra תמיד היה להפוך את הקומיקס למעניין ונגיש יותר לכולם, בכל מקום. השותפות הזו עם Google היא קפיצה משמעותית לקראת מימוש החזון הזה. היכולת ליצור חוויות קריאה עשירות ומבוססות-AI האלה היא מענה ישיר למשוב שקיבלנו מהקהילה שלנו, והיא מאיצה את תהליך החדשנות שלנו. אנחנו נרגשים מהתגובות שקיבלנו ב-I/O, ורוצים לשלב את התכונה הזו באפליקציית Toonsutra. אנחנו אפילו בוחנים אפשרות ליצור API שיאפשר ליוצרים אחרים להשתמש בה".
חברת Toonsutra מתמקדת עכשיו בשילוב הדרגתי של התכונות האלה באפליקציה הראשית שלה, תוך הקשבה קפדנית למשוב מהקהילה. הם מאמינים שהם לא רק משפרים את הפלטפורמה שלהם, אלא גם עוזרים ליצור תוכנית חדשה לתוכן שמשופר על ידי AI.
מוכנים להתחיל לבנות? כדאי לעיין במסמכי התיעוד של Gemini API ולהתחיל להשתמש ב-Google AI Studio כבר היום.
חברת Toonsutra משתתפת בתוכנית AI Futures Fund של Google, שמשקיעה בסטארטאפים שאפתניים ומסייעת להם לפתח את הדור הבא של טכנולוגיות ה-AI.