分享

2025 年 5 月 16 日

Harvey:通过 BigLaw Bench 验证 Gemini 2.5 Pro 预览版的高级法律推理能力

Niko Grupen

应用型 AI 主管

Vishal Dharmadhikari

AI 开发者关系团队

Toonsutra 展示主图

法律行业需要能够精准细致地处理海量复杂信息的 AI 解决方案。传统的 AI 基准往往无法充分反映法律实践的实际需求,因此很难确定哪些模型真正能够胜任高价值的法律工作。Harvey 是一家致力于通过 AI 转变法律工作流程的动态初创公司,该公司开发了 BigLaw Bench,这是一个用于评估大语言模型 (LLM) 在模拟实际法律工作任务中的表现的综合框架,从而解决了这一问题。在最近的严格评估中,Gemini 2.5 Pro 预览版表现出色,展现出在关键法律领域提高效率的巨大潜力。

Gemini 2.5 Pro 预览版在 BigLaw Bench 上表现出色

Harvey 最近利用 BigLaw Bench 框架进行的评估清楚表明,Gemini 2.5 Pro 预览版在核心法律推理任务方面表现出卓越的熟练程度,尤其是在需要对长篇法律输入或输出进行推理的任务方面。正如 Harvey 通过各自的 API 测试包括 Gemini 2.5 Pro 预览版在内的模型后公开分享的结果所示,Gemini 2.5 Pro 预览版在 BigLaw Bench 上取得了 85.02% 的领先得分,优于此综合评估中评估的其他模型。

替代文本:标题为“

这项领先的功能对于各种高价值的法律活动至关重要。BigLaw Bench 中的关键评估任务展示了 Gemini 2.5 Pro 预览版的优势:

  • 交易尽职调查:Gemini 2.5 Pro 预览版在从多份冗长的服务协议中提取和总结关键条款(例如转让、赔偿、终止条款)方面表现出了强大的能力。这表明,我们很有可能简化耗时的人工文档审核流程。
  • 交易结构化:该模型能够熟练地生成复杂金融方案(例如,PIPE、包销股权发行、债券发行)。该模型在以清晰易懂的方式呈现这些信息方面表现出了潜力,即使是那些没有深厚财务专业知识的人也能理解,并且该模型还能建议潜在的立即行动项。
  • 诉讼文书起草:在与诉讼相关的任务评估中,Gemini 2.5 Pro 预览版展现出卓越的能力,能够根据大量简报文件生成详细的法律简报大纲。这项功能预示着未来 AI 将在法律论证的初步开发和组织阶段发挥重要作用。
  • 文档审核与分析:通过审核各种不同的试验文档(通话记录、电子邮件、备忘录)进行的评估表明,Gemini 2.5 Pro 预览版在创建连贯的事件时间顺序摘要方面表现出色。此外,该模型还显示出识别记录中严重不一致和含糊不清之处的潜力,这是透彻法律分析的关键方面。


在这些评估中,Gemini 2.5 Pro 预览版在处理包含数百页材料的输入时展现了强大的推理能力,这在法律工作中是一种常见的情况。此外,它还能够使用这些材料生成更长篇幅、更全面的输出内容,从而提供更深入的数据洞见和分析。这些核心功能突显了 Gemini 2.5 Pro 预览版在复杂法律工作中的潜力,它能够对大量文档进行推理,从而支持尽职调查、审核和起草等应用场景。

“Harvey 致力于为法律专业人士提供最先进的工具,”Harvey 应用 AI 负责人 Niko Grupen 表示。“我们通过 BigLaw Bench 对 Gemini 2.5 Pro 预览版进行了评估,发现它在整合复杂的法律信息方面表现出色。这一洞见为我们未来的产品开发愿景提供了动力,我们希望利用这些优势来释放前所未有的效率,并让律师能够专注于更高级别的战略性工作。”

Harvey 致力于进行严谨的评估,并对 Gemini 2.5 Pro 预览版等尖端 AI 模型进行富有洞察力的分析,这表明 AI 在法律领域具有变革性潜力。他们的研究成果为未来的创新奠定了基础,有望改变法律专业人士处理最艰巨任务的方式。

如需了解 Gemini 2.5 Pro 预览版的先进推理和合成功能如何为您的应用赋能,请访问 Gemini API 文档或在 Google AI Studio 中开始使用。

Harvey 是 Google 的 AI 未来基金的参与者,该基金投资于有远见的初创公司,并与这些公司合作,共同打造 AI 的未来。