Harvey: Xác thực khả năng suy luận pháp lý nâng cao của Gemini 2.5 Pro Preview bằng BigLaw Bench

Niko Grupen

Trưởng bộ phận Trí tuệ nhân tạo ứng dụng

Vishal Dharmadhikari

AI DevRel

Harvey: Xác thực khả năng suy luận pháp lý nâng cao của Gemini 2.5 Pro Preview bằng BigLaw Bench

Ngành luật yêu cầu các giải pháp AI có thể xử lý một lượng lớn thông tin phức tạp một cách chính xác và tinh tế. Các điểm chuẩn AI truyền thống thường không đáp ứng được nhu cầu thực tế của hoạt động pháp lý, khiến việc xác định những mô hình thực sự có khả năng thực hiện công việc pháp lý có giá trị cao trở nên khó khăn. Harvey, một công ty khởi nghiệp năng động chuyên chuyển đổi quy trình làm việc pháp lý thông qua AI, đã giải quyết vấn đề này bằng cách phát triển BigLaw Bench, một khung toàn diện để đánh giá hiệu suất của Mô hình ngôn ngữ lớn (LLM) trong các nhiệm vụ phản ánh công việc pháp lý thực tế. Trong các đánh giá nghiêm ngặt gần đây, Gemini 2.5 Pro Preview đã cho thấy hiệu suất vượt trội, thể hiện tiềm năng đặc biệt trong việc cải thiện hiệu quả ở các lĩnh vực pháp lý chính.

Bản xem trước Gemini 2.5 Pro dẫn đầu trong BigLaw Bench

Các đánh giá gần đây của Harvey dựa trên khung BigLaw Bench cho thấy rõ rằng Gemini 2.5 Pro Preview thể hiện khả năng vượt trội trong các công việc suy luận pháp lý cốt lõi, đặc biệt là những công việc đòi hỏi khả năng suy luận đối với dữ liệu đầu vào hoặc đầu ra pháp lý dạng dài. Như kết quả được Harvey chia sẻ công khai, thu được bằng cách kiểm thử các mô hình, bao gồm cả Gemini 2.5 Pro Preview thông qua các API tương ứng, Gemini 2.5 Pro Preview đạt được điểm số cao nhất là 85,02% trên BigLaw Bench, vượt trội hơn các mô hình khác được đánh giá trong bài đánh giá toàn diện này.

Văn bản thay thế: Biểu đồ thanh có tiêu đề

Khả năng hàng đầu này có vai trò quan trọng đối với nhiều hoạt động pháp lý có giá trị cao. Các nhiệm vụ đánh giá chính trong BigLaw Bench cho thấy những điểm mạnh của Gemini 2.5 Pro Preview:

Thẩm định giao dịch: Gemini 2.5 Pro Preview cho thấy khả năng mạnh mẽ trong việc trích xuất và tóm tắt các điều khoản quan trọng (ví dụ: điều khoản chuyển nhượng, bồi thường, chấm dứt) từ nhiều thoả thuận dịch vụ dài. Điều này cho thấy tiềm năng đáng kể trong việc tinh giản quy trình tốn nhiều thời gian xem xét tài liệu theo cách thủ công.
Cấu trúc giao dịch: Mô hình này đã tạo ra các phân tích so sánh toàn diện, có cấu trúc rõ ràng về các lựa chọn tài chính phức tạp (ví dụ: PIPE, ưu đãi về vốn chủ sở hữu được bảo lãnh phát hành, ưu đãi về trái phiếu). Mô hình này cho thấy tiềm năng trong việc trình bày thông tin này một cách rõ ràng và dễ hiểu, ngay cả đối với những người không có chuyên môn sâu về tài chính, đồng thời đề xuất các việc cần làm ngay.
Soạn thảo nội dung kiện tụng: Khi được đánh giá về các nhiệm vụ liên quan đến kiện tụng, Gemini 2.5 Pro Preview thể hiện khả năng đáng chú ý trong việc tạo dàn ý chi tiết cho báo cáo tranh tụng pháp lý dựa trên khối lượng lớn tài liệu tóm tắt. Khả năng này cho thấy một tương lai mà AI có thể hỗ trợ đáng kể trong giai đoạn đầu phát triển và sắp xếp lập luận pháp lý.
Xem xét và phân tích tài liệu: Các hoạt động đánh giá liên quan đến việc xem xét nhiều tài liệu thử nghiệm (nhật ký cuộc gọi, email, bản ghi nhớ) cho thấy điểm mạnh của Gemini 2.5 Pro Preview là tạo ra bản tóm tắt nhất quán theo trình tự thời gian của các sự kiện. Hơn nữa, mô hình này cho thấy tiềm năng trong việc xác định những điểm không nhất quán và mơ hồ quan trọng trong hồ sơ, đây là một khía cạnh quan trọng của việc phân tích pháp lý kỹ lưỡng.

Trong các đánh giá này, Gemini 2.5 Pro Preview thể hiện khả năng suy luận mạnh mẽ đối với những dữ liệu đầu vào bao gồm hàng trăm trang tài liệu, một trường hợp phổ biến trong công việc pháp lý. Ngoài ra, mô hình này có thể sử dụng những tài liệu này để tạo ra kết quả toàn diện và dài hơn, giúp bạn thu thập thông tin chi tiết và phân tích chuyên sâu hơn. Những khả năng cốt lõi này cho thấy tiềm năng khai thác Gemini 2.5 Pro Preview trong các công việc pháp lý phức tạp đòi hỏi khả năng suy luận trên nhiều bộ tài liệu để hỗ trợ các trường hợp sử dụng thẩm định, xem xét và soạn thảo.

Một tiêu chuẩn mới cho AI pháp lý

Niko Grupen, Trưởng nhóm AI ứng dụng tại Harvey cho biết: "Tại Harvey, chúng tôi cam kết trang bị cho các chuyên viên pháp lý những công cụ tiên tiến nhất". "Việc đánh giá Gemini 2.5 Pro Preview thông qua BigLaw Bench cho thấy khả năng tổng hợp thông tin pháp lý phức tạp của mô hình này là rất đáng chú ý. Thông tin chi tiết này thúc đẩy tầm nhìn của chúng tôi về việc phát triển sản phẩm trong tương lai, trong đó chúng tôi hướng đến việc tận dụng những điểm mạnh này để đạt được hiệu quả chưa từng có và giúp các luật sư tập trung vào công việc mang tính chiến lược ở cấp cao hơn."

Khai phá tương lai của công việc pháp lý

Cam kết của Harvey đối với việc đánh giá nghiêm ngặt và phân tích sâu sắc các mô hình AI tiên tiến như Gemini 2.5 Pro Preview đang cho thấy tiềm năng mang tính đột phá của AI trong lĩnh vực pháp lý. Phát hiện của họ mở đường cho những đổi mới trong tương lai, hứa hẹn sẽ định hình lại cách các chuyên gia pháp lý tiếp cận những nhiệm vụ đòi hỏi khắt khe nhất.

Để khám phá cách khả năng suy luận và tổng hợp nâng cao của Gemini 2.5 Pro Preview có thể hỗ trợ các ứng dụng của riêng bạn, hãy truy cập vào tài liệu về Gemini API hoặc bắt đầu sử dụng Google AI Studio.

Harvey là một thành viên của quỹ AI Futures Fund của Google. Quỹ này đầu tư và hợp tác với những công ty khởi nghiệp đầy tham vọng đang xây dựng những sản phẩm thế hệ mới trong kỷ nguyên AI.

Harvey: Xác thực khả năng suy luận pháp lý nâng cao của Gemini 2.5 Pro Preview bằng BigLaw Bench

Harvey: Xác thực khả năng suy luận pháp lý nâng cao của Gemini 2.5 Pro Preview bằng BigLaw Bench

Bản xem trước Gemini 2.5 Pro dẫn đầu trong BigLaw Bench

Một tiêu chuẩn mới cho AI pháp lý

Khai phá tương lai của công việc pháp lý

Nghiên cứu điển hình có liên quan