分享

2025 年 11 月 3 日

使用 Gemini 2.5 Pro 构建高准确度的财务文档智能系统

Mithun Madhusudan

创始人

Vishal Dharmadhikari

产品解决方案工程师

Pascal AI 精选案例主图

Pascal AI 是一款 AI 原生操作系统,专为投资基金而设计,以机构级规模运行,可处理数百万页的申报文件、备忘录和模型。他们的使命是将公司的内部和外部数据转化为 AI 赋能的优势,帮助分析师和 CIO 做出更快、更明智的决策。

为了构建支持其智能体工作流的知识图谱,Pascal AI 需要一个文档智能系统,该系统能够以极高的准确度将各种复杂的财务文档转换为结构化文本。

解析复杂金融数据的挑战

财务文档在程序化解析方面存在着独特而棘手的挑战。在集成 Gemini API 之前,Pascal AI 团队测试了各种 OCR 工具和大语言模型,但遇到了持续的技术障碍:

  • 复杂的可视化数据:从多轴图表和趋势图中提取准确的数据并非易事。其他模型经常会产生原始视觉内容中不存在的幻觉值,从而导致可靠性问题,这是无法接受的。
  • 复杂的表格结构:财务报表通常包含合并的单元格,并且在水平和垂直方向上跨越多个页面。标准提取库通常无法保留此结构,从而丢失货币单位或时间段等关键上下文。
  • 文档质量参差不齐:数据源包括原生数字文件和低分辨率扫描 PDF,这使得刚性解析逻辑变得脆弱。


Pascal AI 需要一个能够处理这种复杂性且不会产生幻觉的解析层。

Gemini 2.5 Pro 可将准确率提高 2 倍

为了克服这些挑战,Pascal AI 通过 LangChain 集成了 Gemini 2.5 Pro,作为其文档智能堆栈的核心。

Pascal AI 的 AI 负责人 Kanav Anand 表示,该模型的多模态推理能力显著提高了准确率。与之前的解决方案不同,Gemini 2.5 Pro 可最大限度地减少幻觉,并能准确地将复杂的图表转换为结构化的 Markdown 表格,从而保留重要的财务背景信息。

为了衡量成功,Pascal AI 利用内部评估集,跟踪编辑距离错误率,以确定解析后的输出与原始文本的接近程度。Gemini 2.5 Pro 的编辑距离错误率低至 4% ,准确度比测试中表现次佳的模型高出 2 倍。此外,该模型实现了 100% 的元素级准确率,可正确识别表格、段落和标题等结构性组件。

通过提示工程简化解析逻辑

除了原始准确性之外,Gemini API 还提高了开发速度。通过主要依靠提示工程而非脆弱的自定义逻辑来解决复杂的文档智能问题,该团队可以快速迭代,以支持新文档类型。

展望未来,Pascal AI 旨在通过试验高级方法(包括模型编排和针对特定领域的财务报告进行微调)将解析准确率提高到接近 100%。

如需开始使用 Gemini 模型进行构建,请参阅我们的 API 文档