3 בנובמבר 2025
פיתוח מערכת לניתוח מסמכים פיננסיים ברמת דיוק גבוהה באמצעות Gemini 2.5 Pro
Pascal AI היא מערכת הפעלה מבוססת-AI שנועדה לקרנות השקעה, ופועלת בקנה מידה מוסדי כדי לעבד מיליוני דפים של מסמכי הגשה, תזכירים ומודלים. המטרה שלהם היא להפוך את הנתונים הפנימיים והחיצוניים של חברה ליתרון מבוסס-AI, כדי לעזור לאנליסטים ולמנהלי מידע לקבל החלטות מהירות יותר שמבוססות על נתונים.
כדי לבנות את גרף הידע שמפעיל את תהליכי העבודה מבוססי-הסוכן, Pascal AI נזקקה למערכת לניתוח מסמכים שיכולה להמיר מסמכים פיננסיים מורכבים ומגוונים לטקסט מובנה ברמת דיוק גבוהה במיוחד.
האתגר של ניתוח נתונים פיננסיים מורכבים
מסמכים פיננסיים מציבים אתגרים ייחודיים ועקשניים בניתוח תוכניתי. לפני השילוב של Gemini API, צוות Pascal AI בדק כלי OCR שונים ומודלים גדולים של שפה, ונתקל במכשולים טכניים חוזרים:
- נתונים חזותיים מורכבים: חילוץ נתונים מדויקים מתרשימים עם כמה צירים ומגרפים של מגמות הוא לא פשוט. במודלים אחרים, לעיתים קרובות נוצרים ערכים הזויים שלא מופיעים בפריטים החזותיים המקוריים, וזה יוצר בעיות אמינות בלתי קבילות.
- מבני טבלה מורכבים: דוחות כספיים כוללים לעיתים קרובות תאים ממוזגים ומשתרעים על פני מספר דפים, גם אופקית וגם אנכית. לרוב, ספריות חילוץ רגילות לא הצליחו לשמור על המבנה הזה, ולכן איבדו הקשרים חשובים כמו יחידות מטבע או תקופות זמן.
- איכות משתנה של מסמכים: מקורות הנתונים כוללים קבצים דיגיטליים מקוריים וגם קובצי PDF סרוקים ברזולוציה נמוכה, ולכן קשה להשתמש בלוגיקה נוקשה לניתוח נתונים.
ל-Pascal AI נדרשה שכבת ניתוח שיכולה להתמודד עם המורכבות הזו בלי הזיות.
רמת דיוק גבוהה פי 2 עם Gemini 2.5 Pro
כדי להתמודד עם האתגרים האלה, חברת Pascal AI שילבה את Gemini 2.5 Pro באמצעות LangChain כליבה של מערכת הבינה העסקית שלה לניתוח מסמכים.
לדברי קנאב אנאנד (Kanav Anand), ראש תחום ה-AI ב-Pascal AI, יכולות ההסקה הרב-מודאליות של המודל שיפרו משמעותית את רמת הדיוק. בניגוד לפתרונות קודמים, Gemini 2.5 Pro מצמצם את ההזיות ומשנה גרפים ותרשימים מורכבים לטבלאות markdown מובנות בצורה מדויקת, תוך שמירה על ההקשר הפיננסי החיוני.
כדי למדוד את ההצלחה, Pascal AI משתמש במערך הערכה פנימי ועוקב אחרי שיעור השגיאות של מרחק העריכה כדי לקבוע עד כמה הפלט המנותח קרוב לטקסט המקורי. Gemini 2.5 Pro השיג שיעור שגיאות נמוך של 4% במרחק עריכה, והביצועים שלו היו מדויקים פי 2 בהשוואה למודל הבא הכי טוב שנבדק. בנוסף, המודל הגיע לדיוק של 100% ברמת הרכיב, וזיהה נכון רכיבים מבניים כמו טבלאות, פסקאות וכותרות.
פישוט לוגיקת הניתוח באמצעות הנדסת הנחיות
בנוסף לשיפור הדיוק, Gemini API שיפר את מהירות הפיתוח. הצוות פותר בעיות מורכבות של ניתוח מסמכים בעיקר באמצעות הנדסת הנחיות ולא באמצעות לוגיקה מותאמת אישית שעלולה להיות שבירה. כך הצוות יכול לבצע איטרציות במהירות כדי לתמוך בסוגים חדשים של מסמכים כשהם הופכים לזמינים.
בעתיד, צוות Pascal AI מתכוון להמשיך להתקדם לעבר דיוק של כמעט 100% בניתוח, באמצעות ניסוי בשיטות מתקדמות, כולל תזמור מודלים ושיפור מודלים לדיווח פיננסי ספציפי לתחום.
כדי להתחיל לפתח באמצעות מודלים של Gemini, אפשר לקרוא את מאמרי העזרה של ה-API.