3. NOVEMBER 2025
Ein hochpräzises System für die Verarbeitung von Finanzdokumenten mit Gemini 2.5 Pro entwickeln
Pascal AI ist ein KI-natives Betriebssystem, das für Investmentfonds entwickelt wurde und auf institutioneller Ebene Millionen von Seiten mit Einreichungen, Memos und Modellen verarbeitet. Das Unternehmen hat sich zum Ziel gesetzt, die internen und externen Daten eines Unternehmens in einen KI-basierten Vorteil zu verwandeln, damit Analysten und CIOs schneller datengestützte Entscheidungen treffen können.
Um den Wissensgraphen zu erstellen, der die Agenten-Workflows unterstützt, benötigte Pascal AI ein Dokument-Intelligence-System, das in der Lage ist, verschiedene komplexe Finanzdokumente mit außergewöhnlicher Genauigkeit in strukturierten Text umzuwandeln.
Herausforderungen beim Parsen komplexer Finanzdaten
Finanzdokumente stellen besondere, hartnäckige Herausforderungen für die programmatische Analyse dar. Vor der Integration der Gemini API testete das Pascal AI-Team verschiedene OCR-Tools und Large Language Models, wobei immer wieder technische Hürden auftraten:
- Komplexe visuelle Daten:Das Extrahieren genauer Daten aus Diagrammen mit mehreren Achsen und Trenddiagrammen ist nicht einfach. Bei anderen Modellen wurden häufig Werte halluziniert, die in den Originalbildern nicht vorhanden waren, was zu inakzeptablen Zuverlässigkeitsproblemen führte.
- Komplexe Tabellenstrukturen:In Finanzberichten werden häufig zusammengeführte Zellen verwendet, die sich sowohl horizontal als auch vertikal über mehrere Seiten erstrecken. Bei Standardbibliotheken für die Extraktion ging diese Struktur oft verloren, wodurch wichtiger Kontext wie Währungseinheiten oder Zeiträume verloren ging.
- Unterschiedliche Dokumentqualität:Die Datenquellen reichen von digitalen Einreichungen bis hin zu gescannten PDFs mit niedriger Auflösung, was die starre Parsing-Logik anfällig macht.
Pascal AI benötigte eine Parsing-Ebene, die diese Komplexität ohne Halluzinationen bewältigen konnte.
Mit Gemini 2.5 Pro doppelt so genau
Um diese Herausforderungen zu meistern, hat Pascal AI Gemini 2.5 Pro über LangChain als Kern seines Document Intelligence-Stacks integriert.
Laut Kanav Anand, AI Lead bei Pascal AI, hat die multimodale Argumentation des Modells die Genauigkeit deutlich gesteigert. Im Gegensatz zu früheren Lösungen minimiert Gemini 2.5 Pro Halluzinationen und wandelt komplexe Grafiken und Diagramme präzise in strukturierte Markdown-Tabellen um, wobei wichtiger finanzieller Kontext erhalten bleibt.
Um den Erfolg zu messen, verwendet Pascal AI ein internes Test-Dataset und verfolgt die Fehlerrate für die Bearbeitungsdistanz, um zu ermitteln, wie nah die geparste Ausgabe am Originaltext liegt. Gemini 2.5 Pro erreichte eine niedrige Fehlerrate von 4% bei der Bearbeitungsdistanz und war damit doppelt so genau wie das nächstbeste getestete Modell. Außerdem erreichte das Modell eine elementweise Genauigkeit von 100% und identifizierte strukturelle Komponenten wie Tabellen, Absätze und Überschriften korrekt.
Parsing-Logik mit Prompt Engineering vereinfachen
Neben der reinen Genauigkeit hat die Gemini API die Entwicklungsgeschwindigkeit verbessert. Da das Team komplexe Probleme im Bereich der Dokumentanalyse hauptsächlich durch Prompt-Engineering und nicht durch benutzerdefinierte Logik löst, kann es schnell iterieren, um neue Dokumenttypen zu unterstützen, sobald diese verfügbar sind.
In Zukunft soll die Parsing-Genauigkeit von Pascal AI durch den Einsatz fortschrittlicher Methoden wie der Modellorchestrierung und des Feinabstimmens für domänenspezifische Finanzberichte auf nahezu 100% gesteigert werden.
Wenn Sie mit der Entwicklung mit Gemini-Modellen beginnen möchten, lesen Sie unsere API-Dokumentation.