分享

2025 年 5 月 16 日

Harvey:透過 BigLaw Bench 驗證 Gemini 2.5 Pro 搶先版的進階法律推論能力

Niko Grupen

應用 AI 部門主管

Vishal Dharmadhikari

AI 開發人員關係維繫

Toonsutra 展示主頁橫幅

法律產業需要 AI 解決方案,以精準細膩的方式處理大量複雜資訊。傳統的 AI 基準通常無法充分反映法律實務的實際需求,因此難以找出真正能勝任高價值法律工作的模型。Harvey 是一家致力於透過 AI 轉型法律工作流程的動態新創公司,他們開發了 BigLaw Bench,這是一套全面的架構,可評估大型語言模型 (LLM) 在模擬實際法律工作的任務中的表現,藉此解決上述問題。在最近的嚴格評估中,Gemini 2.5 Pro 預先發布版表現出色,展現出在重要法律領域提高效率的卓越潛力。

Gemini 2.5 Pro 預先發布版在 BigLaw 基準測試中領先

Harvey 最近運用 BigLaw Bench 架構進行的評估清楚指出,Gemini 2.5 Pro 搶先版在核心法律推理工作方面展現了卓越能力,尤其是在需要對長篇法律輸入內容或輸出內容進行推理的工作中。如 Harvey 公開分享的結果所示,透過各自的 API 測試包括 Gemini 2.5 Pro 預先發布版在內的模型後,Gemini 2.5 Pro 預先發布版在 BigLaw Bench 獲得 85.02% 的最高分數,優於這項全面評估中測試的其他模型。

替代文字:長條圖,標題為「

這項領先業界的功能對於各種高價值法律活動至關重要。BigLaw Bench 的主要評估工作展現了 Gemini 2.5 Pro 預先發布版的優勢:

  • 交易盡職調查:Gemini 2.5 Pro 搶先版展現了強大的能力,可從多份冗長服務協議中擷取並摘要重要條款 (例如轉讓、賠償、終止條款)。這表示手動審查文件這類耗時的程序,有大幅簡化的潛力。
  • 交易結構:模型擅長生成複雜金融選項的全面比較分析 (例如PIPE、承銷股權發行、債券發行)。這個模型在清楚易懂地呈現資訊方面表現出色,即使是沒有深入財務專業知識的人也能理解,並建議可立即採取的行動。
  • 訴訟文件草擬:在訴訟相關工作評估中,Gemini 2.5 Pro Preview 展現出卓越能力,可根據大量簡報文件生成詳細的法律摘要大綱。這項功能預示著 AI 在法律論證的開發和組織初期階段,將能發揮重大作用。
  • 文件審查與分析:在評估過程中,我們審查了各種試用文件 (通話記錄、電子郵件、備忘錄),結果顯示 Gemini 2.5 Pro 搶先版在製作連貫的事件時間軸摘要方面表現出色。此外,模型還展現出識別記錄中重大不一致和模糊不清之處的潛力,這是徹底法律分析的關鍵層面。


在這些評估中,Gemini 2.5 Pro Preview 展現了強大的推理能力,可處理包含數百頁資料的輸入內容,這是法律工作中的常見情況。此外,這項技術還能運用這些資料生成更長且更全面的輸出內容,進一步提供深入分析和解讀。這些核心功能凸顯了 Gemini 2.5 Pro Preview 的潛力,可處理需要對大量文件進行推理的複雜法律工作,支援盡職調查、審查和草擬等用途。

「Harvey 致力於為法律專業人士提供最先進的工具。」Harvey 應用 AI 部門主管 Niko Grupen 表示。「我們透過 BigLaw Bench 評估 Gemini 2.5 Pro 搶先版,發現這款模型整合複雜法律資訊的能力十分出色。這項洞察資料為我們未來的產品開發願景提供動力,我們希望運用這些優勢,實現前所未有的效率,並協助律師專注於更高層次的策略性工作。」

Harvey 致力於嚴格評估,並深入分析 Gemini 2.5 Pro 搶先版等尖端 AI 模型,展現 AI 在法律領域的轉型潛力。他們的發現為未來的創新奠定基礎,有望重塑法律專業人士處理最艱鉅工作的方式。

如要瞭解 Gemini 2.5 Pro 搶先版的進階推理和綜合能力如何為您的應用程式提供支援,請參閱 Gemini API 說明文件,或在 Google AI Studio 中開始使用。

Harvey 是 Google AI Futures Fund 的參與者,該基金會投資並與有抱負的新創公司合作,共同打造 AI 的未來。