Harvey: Validating Gemini 2.5 Pro Preview’s Advanced Legal Reasoning with BigLaw Bench
Niko Grupen
Head of Applied AI
Vishal Dharmadhikari
AI DevRel
Harvey: Validating Gemini 2.5 Pro Preview’s Advanced Legal Reasoning with BigLaw Bench
In der Rechtsbranche sind KI-Lösungen gefragt, die eine immense Menge komplexer Informationen präzise und differenziert verarbeiten können. Herkömmliche KI-Benchmarks werden den Anforderungen der Rechtspraxis oft nicht gerecht. Daher ist es schwierig, Modelle zu identifizieren, die wirklich in der Lage sind, hochwertige juristische Arbeit zu leisten. Harvey, ein dynamisches Startup, das sich der Transformation von rechtlichen Workflows durch KI verschrieben hat, hat dieses Problem angegangen, indem es BigLaw Bench entwickelt hat, sein umfassendes Framework zur Bewertung der Leistung von Large Language Models (LLMs) bei Aufgaben, die tatsächliche rechtliche Arbeit widerspiegeln. In den letzten strengen Tests hat sich Gemini 2.5 Pro Preview als herausragend erwiesen und ein außergewöhnliches Potenzial zur Steigerung der Effizienz in wichtigen Rechtsbereichen gezeigt.
Gemini 2.5 Pro-Vorabversion führt zu Benchmarking-Ergebnissen für BigLaw
Die jüngsten Bewertungen von Harvey mit dem BigLaw Bench-Framework haben deutlich gezeigt, dass Gemini 2.5 Pro Preview bemerkenswerte Fähigkeiten bei wichtigen Aufgaben im Bereich des rechtlichen Denkens aufweist, insbesondere bei Aufgaben, die logisches Schlussfolgern auf der Grundlage von langen rechtlichen Eingaben oder Ausgaben erfordern. Wie aus den öffentlich geteilten Ergebnissen von Harvey hervorgeht, die durch das Testen von Modellen wie Gemini 2.5 Pro Preview über die entsprechenden APIs erzielt wurden, erreichte Gemini 2.5 Pro Preview mit 85,02% die höchste Punktzahl bei BigLaw Bench und übertraf damit andere Modelle, die in dieser umfassenden Bewertung untersucht wurden.
Diese führende Funktion ist für eine Vielzahl von hochwertigen rechtlichen Aktivitäten von entscheidender Bedeutung. Die wichtigsten Bewertungsaufgaben in BigLaw Bench haben die Stärken von Gemini 2.5 Pro (Vorabversion) gezeigt:
Transaktionsbezogene Due Diligence: Gemini 2.5 Pro Preview hat gezeigt, dass das Modell in der Lage ist, kritische Bestimmungen (z.B. Abtretungs-, Freistellungs- und Kündigungsklauseln) aus mehreren langen Dienstleistungsvereinbarungen zu extrahieren und zusammenzufassen. Das deutet auf ein erhebliches Potenzial hin, den zeitaufwendigen Prozess der manuellen Dokumentenprüfung zu optimieren.
Transaktionsstrukturierung: Das Modell hat umfassende, gut strukturierte Vergleichsanalysen komplexer finanzieller Optionen (z.B. PIPE, Underwritten Equity Offerings, Bond Offerings). Das Modell hat gezeigt, dass es diese Informationen klar und verständlich darstellen kann, auch für Personen ohne fundierte Finanzkenntnisse, und dass es potenzielle sofortige Maßnahmen vorschlagen kann.
Verfassen von Schriftsätzen: Bei Aufgaben im Zusammenhang mit Rechtsstreitigkeiten zeigte Gemini 2.5 Pro (Vorabversion) eine bemerkenswerte Fähigkeit, detaillierte Gliederungen für Schriftsätze auf der Grundlage umfangreicher Briefing-Dokumente zu erstellen. Diese Funktion weist auf eine Zukunft hin, in der KI die ersten Phasen der Entwicklung und Organisation von rechtlichen Argumenten erheblich unterstützen kann.
Dokumentprüfung und ‑analyse: Bei Tests, bei denen verschiedene Testdokumente (Anruflisten, E‑Mails, Vermerke) geprüft wurden, zeigte sich die Stärke von Gemini 2.5 Pro Preview bei der Erstellung kohärenter chronologischer Zusammenfassungen von Ereignissen. Außerdem zeigte das Modell Potenzial, kritische Inkonsistenzen und Unklarheiten in der Aufzeichnung zu erkennen, was ein wichtiger Aspekt einer gründlichen rechtlichen Analyse ist.
Bei diesen Tests hat Gemini 2.5 Pro Preview eine starke Fähigkeit zum logischen Schlussfolgern bei Eingaben gezeigt, die aus Hunderten von Seiten mit Material bestehen. Dies ist ein häufiges Szenario bei juristischen Arbeiten. Außerdem konnte das Modell diese Materialien verwenden, um längere und umfassende Ausgaben zu generieren, was tiefere Einblicke und Analysen ermöglichte. Diese Kernfunktionen verdeutlichen das Potenzial von Gemini 2.5 Pro Preview für komplexe juristische Aufgaben, die logisches Schlussfolgern anhand großer Dokumentmengen erfordern, um Anwendungsfälle für Due Diligence, Überprüfung und Verfassen zu unterstützen.
Ein neuer Standard für KI im Rechtswesen
„Wir bei Harvey möchten juristischen Fachleuten die fortschrittlichsten Tools zur Verfügung stellen“, sagt Niko Grupen, Head of Applied AI bei Harvey. „Unsere Bewertung von Gemini 2.5 Pro Preview mit BigLaw Bench hat die bemerkenswerte Fähigkeit des Modells gezeigt, komplexe rechtliche Informationen zu synthetisieren. Diese Erkenntnis ist die Grundlage für unsere Vision für die zukünftige Produktentwicklung. Wir möchten diese Stärken nutzen, um eine beispiellose Effizienz zu erreichen und Anwälte in die Lage zu versetzen, sich auf strategische Aufgaben zu konzentrieren.“
Die Zukunft der juristischen Arbeit
Harvey legt großen Wert auf eine strenge Bewertung und bietet eine aufschlussreiche Analyse von hochmodernen KI-Modellen wie Gemini 2.5 Pro (Vorabversion). Das zeigt das transformative Potenzial von KI im Rechtsbereich. Ihre Ergebnisse ebnen den Weg für zukünftige Innovationen, die die Herangehensweise von Rechtsexperten an ihre anspruchsvollsten Aufgaben verändern werden.
Wenn Sie erfahren möchten, wie die erweiterten Funktionen für logisches Denken und Synthese von Gemini 2.5 Pro Preview Ihre eigenen Anwendungen unterstützen können, lesen Sie die Gemini API-Dokumentation oder legen Sie in Google AI Studio los.
Harvey ist Teilnehmer des AI Futures Fund von Google, der in ambitionierte Start-ups investiert und mit ihnen zusammenarbeitet, um die Zukunft der KI zu gestalten.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Benötigte Informationen nicht gefunden","missingTheInformationINeed","thumb-down"],["Zu umständlich/zu viele Schritte","tooComplicatedTooManySteps","thumb-down"],["Nicht mehr aktuell","outOfDate","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Problem mit Beispielen/Code","samplesCodeIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],[],[],[],null,["[](/showcase) \nShare\nMay 16, 2025 \n\nHarvey: Validating Gemini 2.5 Pro Preview's Advanced Legal Reasoning with BigLaw Bench \nNiko Grupen\n\nHead of Applied AI \nVishal Dharmadhikari\n\nAI DevRel \n\nHarvey: Validating Gemini 2.5 Pro Preview's Advanced Legal Reasoning with BigLaw Bench \n\nThe legal industry demands AI solutions that can navigate an immense volume of complex information with precision and nuance. Traditional AI benchmarks often fall short of capturing the real-world demands of legal practice, making it challenging to identify models truly capable of high-value legal work. Harvey, a dynamic startup dedicated to transforming legal workflows through AI, confronted this by developing BigLaw Bench, their comprehensive framework for assessing Large Language Model (LLM) performance on tasks mirroring actual legal work. In their recent rigorous evaluations, Gemini 2.5 Pro Preview emerged as a standout performer, demonstrating exceptional potential to improve efficiency in key legal domains.\n\nGemini 2.5 Pro Preview Leads on BigLaw Bench \n\nHarvey's recent evaluations leveraging the BigLaw Bench framework have clearly indicated that Gemini 2.5 Pro Preview demonstrates remarkable proficiency across core legal reasoning tasks and, in particular, tasks requiring reasoning over long-form legal inputs or outputs. As shown in Harvey's publicly shared results, obtained by testing models including Gemini 2.5 Pro Preview via their respective APIs, Gemini 2.5 Pro Previewachieved the leading score of 85.02% on BigLaw Bench, outperforming other models evaluated in this comprehensive assessment.\n\nThis leading capability is crucial for a wide range of high-value legal activities. Key evaluation tasks within BigLaw Bench showcased Gemini 2.5 Pro Preview's strengths:\n\n\n\u003cbr /\u003e\n\n\n- **Transactional due diligence**: Gemini 2.5 Pro Preview showed a strong capacity to extract and summarize critical provisions (e.g., assignment, indemnification, termination clauses) from multiple lengthy service agreements. This suggests a significant potential to streamline the time-intensive process of manual document review.\n- **Transaction structuring**: The model adeptly generated comprehensive, well-structured comparative analyses of intricate financial options (e.g., PIPE, underwritten equity offerings, bond offerings). The model showed promise in presenting this information in a clear and accessible manner, even for those without deep financial expertise, and in suggesting potential immediate action items.\n- **Litigation drafting**: When assessed on tasks related to litigation, Gemini 2.5 Pro Preview exhibited a notable ability to generate detailed outlines for legal briefs based on substantial volumes of briefing documents. This capability points towards a future where AI can significantly aid in the initial stages of legal argument development and organization.\n- **Document review \\& analysis**: Evaluations involving the review of disparate trial documents (call logs, emails, memoranda) revealed Gemini 2.5 Pro Preview's strength in creating coherent chronological summaries of events. Furthermore, the model showed potential in identifying critical inconsistencies and ambiguities within the record, a crucial aspect of thorough legal analysis.\n\n\u003cbr /\u003e\n\n\u003cbr /\u003e\n\nAcross these evaluations, Gemini 2.5 Pro Preview showcased strong reasoning across inputs consisting of hundreds of pages of materials, a common scenario in legal work. In addition, it was capable of using these materials to generate longer-form and comprehensive outputs, allowing for deeper insights and analyses. These core capabilities highlight the potential for leveraging Gemini 2.5 Pro Preview across complex legal work requiring reasoning over large sets of documents to support diligence, review, and drafting use cases.\n\n\u003cbr /\u003e\n\nA New Standard for Legal AI \n\n\"At Harvey, we're committed to equipping legal professionals with the most advanced tools,\" states Niko Grupen, Head of Applied AI at Harvey. \"Our evaluation of Gemini 2.5 Pro Preview through BigLaw Bench has revealed its remarkable ability to synthesize complex legal information. This insight fuels our vision for future product development, where we aim to leverage these strengths to unlock unprecedented efficiency and empower lawyers to focus on higher-level strategic work.\"\n\nUnlocking the Future of Legal Work \n\nHarvey's commitment to rigorous evaluation and their insightful analysis of cutting-edge AI models like Gemini 2.5 Pro Preview are demonstrating the transformative potential of AI in the legal field. Their findings pave the way for future innovations that promise to reshape how legal professionals approach their most demanding tasks.\n\n\n\u003cbr /\u003e\n\n\nTo explore how Gemini 2.5 Pro Preview's advanced reasoning and synthesis capabilities can power your own applications, visit the [Gemini API documentation](https://ai.google.dev/gemini-api/docs) or get started in [Google AI Studio](https://ai.dev).\n\n\n\u003cbr /\u003e\n\n\nHarvey is a participant in [Google's AI Futures Fund](https://labs.google/aifuturesfund) that invests in and collaborates with ambitious startups building what's next in AI. \n\nRelated case studies \n[Synthesia\nSynthesia uses Veo 2 to create studio quality AI avatar experiences.](/showcase/synthesia) [Toonsutra 2\nToonsutra uses Gemini 2.5 Pro Preview to power an immersive comic reading experience with adaptive AI narration, dynamic soundscapes, and enhanced interactivity.](/showcase/toonsutra-2) [Volley\nVolley uses Gemini 2.5 Pro to accelerate its game development process, building immersive voice-AI dungeon adventures with visuals from Gemini 2.0 Flash and Veo 2.](/showcase/volley-2)"]]