Gemini 1.5 Flash đạt tiêu chuẩn với cửa sổ ngữ cảnh chứa 1 triệu token và Gemini 1.5 Pro có cửa sổ ngữ cảnh chứa 2 triệu token. Trong lịch sử, quy mô lớn các mô hình ngôn ngữ (LLM) bị hạn chế đáng kể bởi số lượng văn bản (hoặc mã) có thể được truyền đến mô hình cùng một lúc. Gemini dài 1,5 cửa sổ ngữ cảnh với khả năng truy xuất gần như hoàn hảo (>99%), khai phá nhiều trường hợp sử dụng và mô hình nhà phát triển mới.
Mã bạn đã sử dụng cho các trường hợp như văn bản tạo hoặc đa phương thức thông tin đầu vào sẽ hoạt động tốt với ngữ cảnh dài.
Trong suốt hướng dẫn này, bạn sẽ tìm hiểu sơ bộ thông tin cơ bản về cửa sổ ngữ cảnh, cách nên suy nghĩ về ngữ cảnh dài, các trường hợp sử dụng khác nhau trong thế giới thực ngữ cảnh dài và cách tối ưu hoá việc sử dụng ngữ cảnh dài.
Cửa sổ ngữ cảnh là gì?
Cách cơ bản để bạn sử dụng các mô hình Gemini 1.5 là truyền thông tin (bối cảnh) vào mô hình, từ đó tạo ra một phản hồi. Tương tự cho cửa sổ ngữ cảnh là bộ nhớ ngắn hạn. Có rất ít thông tin có thể được lưu trữ trong bộ nhớ ngắn hạn của ai đó và điều này cũng đúng với các mô hình tạo sinh.
Bạn có thể đọc thêm về cách hoạt động thuần tuý của các mô hình trong các mô hình tạo sinh của chúng tôi hướng dẫn.
Bắt đầu sử dụng bối cảnh dài
Hầu hết các mô hình tạo sinh được tạo ra trong vài năm qua đều chỉ có khả năng xử lý 8.000 mã thông báo cùng một lúc. Các mô hình mới hơn đã thúc đẩy điều này hơn nữa bằng cách chấp nhận 32.000 token hoặc 128.000 token. Gemini 1.5 là mô hình đầu tiên có khả năng chấp nhận 1 triệu mã thông báo, và giờ đây là 2 triệu mã thông báo với Gemini 1.5 Chuyên nghiệp.
Trên thực tế, 1 triệu mã thông báo sẽ có dạng như sau:
- 50.000 dòng mã (với 80 ký tự tiêu chuẩn mỗi dòng)
- Tất cả tin nhắn văn bản bạn đã gửi trong 5 năm qua
- 8 tiểu thuyết tiếng Anh có thời lượng trung bình
- Bản chép lời của hơn 200 tập podcast có thời lượng trung bình
Mặc dù các mô hình có thể tiếp cận nhiều ngữ cảnh hơn, nhưng phần lớn suy nghĩ thông thường về việc sử dụng các mô hình ngôn ngữ lớn giả định rằng hạn chế đối với mô hình này, kể từ năm 2024, không còn đúng nữa.
Một số chiến lược phổ biến để xử lý hạn chế về cửa sổ ngữ cảnh nhỏ bao gồm:
- Tự ý bỏ tin nhắn / văn bản cũ từ cửa sổ ngữ cảnh dưới dạng văn bản mới vào
- Tóm tắt nội dung trước đó và thay thế bằng bản tóm tắt khi cửa sổ ngữ cảnh sắp đầy
- Dùng RAG với tính năng tìm kiếm theo ngữ nghĩa để di chuyển dữ liệu ra khỏi cửa sổ ngữ cảnh và vào một cơ sở dữ liệu vectơ
- Sử dụng bộ lọc thuật toán tất định hoặc bộ lọc tạo sinh để xoá một số văn bản nhất định / ký tự trong câu lệnh để lưu mã thông báo
Mặc dù nhiều chỉ số trong số này vẫn phù hợp trong một số trường hợp nhất định, vị trí mặc định là bắt đầu hiện chỉ đặt tất cả mã thông báo vào cửa sổ theo bối cảnh. Bởi vì Các mô hình Gemini 1.5 được thiết kế có mục đích sử dụng một cửa sổ ngữ cảnh dài, giúp nâng cao khả năng học trong ngữ cảnh. Ví dụ: chỉ với nội dung hướng dẫn tài liệu (ngữ pháp tham khảo 500 trang, từ điển và ≈ 400 tài liệu song song bổ sung tất cả được cung cấp theo ngữ cảnh, Gemini 1.5 Pro và Gemini 1.5 Flash đều không biết dịch từ tiếng Anh sang tiếng Kalamang, một ngôn ngữ của Papuan có ít hơn 200 người nói và nên hầu như không có sự hiện diện trực tuyến—với chất lượng tương tự như một người đã học từ cùng chất liệu.
Ví dụ này gạch dưới cách bạn có thể bắt đầu suy nghĩ về những việc mình có thể làm với ngữ cảnh dài và khả năng học tập theo ngữ cảnh của Gemini 1.5.
Các trường hợp sử dụng theo bối cảnh dài
Mặc dù trường hợp sử dụng tiêu chuẩn của hầu hết mô hình tạo sinh vẫn là nhập văn bản, nhưng Nhóm mô hình Gemini 1.5 mở ra một mô hình mới cho các trường hợp sử dụng đa phương thức. Các các mô hình có thể hiểu được văn bản, video, âm thanh và hình ảnh ngay từ đầu. Đó là kèm theo Gemini API lấy tệp đa phương thức loại cho thuận tiện cho bạn.
Văn bản dạng dài
Văn bản đã được chứng minh là lớp thông minh làm nền tảng cho phần lớn động lượng của các LLM. Như đã đề cập trước đó, phần lớn giới hạn thực tế của Các LLM là do không có cửa sổ ngữ cảnh đủ lớn để xác định công việc. Điều này dẫn đến việc nhanh chóng áp dụng kỹ thuật tạo tăng cường truy xuất (RAG) và các kỹ thuật khác cung cấp động mô hình những thông tin thông tin theo ngữ cảnh. Giờ đây, với cửa sổ ngữ cảnh lớn hơn và lớn hơn (hiện tại lên đến 2 triệu người dùng Gemini 1.5 Pro), thì sẽ có những kỹ thuật mới trở nên giúp mở ra các trường hợp sử dụng mới.
Sau đây là một số trường hợp sử dụng tiêu chuẩn và mới nổi đối với ngữ cảnh dài dựa trên văn bản:
- Tóm tắt các khối liệu văn bản lớn
- Các tuỳ chọn tóm tắt trước đây với các mô hình ngữ cảnh nhỏ hơn sẽ cần đến một cửa sổ trượt hoặc kỹ thuật khác để giữ trạng thái của các phần trước khi mã thông báo mới được truyền đến mô hình
- Hỏi và đáp
- Trước đây, điều này chỉ có thể thực hiện được với RAG với số lượng hạn chế bối cảnh và mô hình mức độ ghi nhớ thực tế thấp
- Quy trình làm việc của nhân viên hỗ trợ
- Văn bản là cơ sở để nhân viên hỗ trợ nắm bắt trạng thái của những việc họ làm và những việc cần làm; không có đủ thông tin về thế giới và mục tiêu của nhân viên hỗ trợ là sự giới hạn về độ tin cậy của nhân viên hỗ trợ
Học hỏi trong ngữ cảnh nhiều lần là một trong những các tính năng độc đáo nhất mà các mô hình ngữ cảnh dài mang lại. Nghiên cứu đã chỉ ra thực hiện "một lần chụp" thông thường hoặc "quay nhiều lần" mô hình ví dụ, trong đó một hoặc vài ví dụ về nhiệm vụ được cung cấp cho mô hình phân bổ và nhân rộng lên đến hàng trăm, hàng nghìn hay thậm chí hàng trăm nghìn ví dụ, có thể dẫn đến các chức năng mới của mô hình. Phương pháp chụp nhiều lần này cũng đã cho thấy hiệu quả tương tự như các mô hình đã được tinh chỉnh cho một tác vụ cụ thể. Dành cho các trường hợp sử dụng khi hiệu suất của mô hình Gemini chưa đủ để phát hành công khai bạn có thể thử phương pháp chụp nhiều lần. Như bạn có thể khám phá sau này trong trong phần tối ưu hoá ngữ cảnh dài, việc lưu vào bộ nhớ đệm theo ngữ cảnh giúp loại dữ liệu đầu vào này khối lượng công việc mã thông báo khả thi hơn nhiều về mặt kinh tế và thậm chí có độ trễ thấp hơn trong một số trường hợp.
Video dài
Tiện ích của nội dung video đã bị hạn chế từ lâu do thiếu khả năng hỗ trợ tiếp cận của chính phương tiện đó. Khó đọc lướt nội dung, chép lời thường không thành công để nắm bắt sắc thái của video và hầu hết các công cụ đều không xử lý hình ảnh, văn bản và âm thanh với nhau. Với Gemini 1.5, các tính năng văn bản theo ngữ cảnh dài sẽ dịch sang khả năng lập luận và trả lời các câu hỏi về thông tin đầu vào đa phương thức thông qua hiệu suất bền vững. Gemini 1.5 Flash, khi được thử nghiệm bằng kim trong một video haystack vấn đề với 1 triệu token, thu lại được hơn 99,8% video trong cửa sổ ngữ cảnh và 1.5 Pro đạt đến trạng thái hiệu suất nghệ thuật trên Điểm chuẩn Video-MME.
Sau đây là một số trường hợp sử dụng tiêu chuẩn và mới nổi cho video dài:
- Video hỏi và đáp
- Bộ nhớ video, như minh hoạ trong dự án Project Astra của Google
- Phụ đề video
- Hệ thống đề xuất video bằng cách làm phong phú siêu dữ liệu hiện có bằng những hiểu biết đa phương thức
- Tuỳ chỉnh video bằng cách xem xét tập hợp dữ liệu và video được liên kết sau đó xóa các phần của video không liên quan đến người xem
- Kiểm duyệt nội dung video
- Xử lý video theo thời gian thực
Khi xử lý video, bạn cần cân nhắc xem video có được xử lý thành mã thông báo. Điều này sẽ ảnh hưởng đến hạn mức thanh toán và hạn mức sử dụng. Bạn có thể tìm hiểu thêm về cách nhắc bằng tệp video trong hộp thoại Nhắc nhở hướng dẫn.
Âm thanh dạng dài
Mô hình Gemini 1.5 là mô hình ngôn ngữ lớn đa phương thức đầu tiên có thể hiểu được âm thanh. Trước đây, quy trình làm việc điển hình của nhà phát triển sẽ bao gồm việc xâu chuỗi nhiều mô hình miền cụ thể lại với nhau, chẳng hạn như mô hình chuyển lời nói thành văn bản và một mô hình chuyển văn bản thành văn bản để xử lý âm thanh. Chiến dịch này dẫn đến độ trễ tăng thêm do cần thực hiện nhiều yêu cầu trọn vòng và giảm hiệu suất thường là do các cấu trúc bị ngắt kết nối của việc thiết lập nhiều mô hình.
Trong các kết quả đánh giá audio-haystack tiêu chuẩn, Gemini 1.5 Pro có thể tìm thấy âm thanh ẩn trong 100% thử nghiệm và Gemini 1.5 Flash có thể tìm thấy âm thanh đó trong 98,7% của kiểm thử. Gemini 1.5 Flash chấp nhận âm thanh trong tối đa 9,5 giờ trong một lần nghe yêu cầu và Gemini 1.5 Pro có thể chấp nhận âm thanh trong tối đa 19 giờ nhờ 2 triệu token cửa sổ ngữ cảnh. Hơn nữa, trên tập hợp các đoạn âm thanh dài 15 phút thử nghiệm, Gemini 1.5 Pro lưu trữ tỷ lệ lỗi từ (WER) khoảng 5,5%, thấp hơn nhiều so với các mô hình chuyển lời nói thành văn bản mà không cần thêm phân đoạn đầu vào phức tạp và tiền xử lý.
Sau đây là một số trường hợp sử dụng tiêu chuẩn và mới xuất hiện đối với bối cảnh dạng âm thanh:
- Chép lời và dịch theo thời gian thực
- Câu hỏi và giải đáp thắc mắc về podcast / video
- Ghi âm và tóm tắt cuộc họp
- Trợ lý thoại
Bạn có thể tìm hiểu thêm về cách nhắc bằng tệp âm thanh trong phần Lời nhắc hướng dẫn.
Tối ưu hoá theo ngữ cảnh dài
Tính năng tối ưu hoá chính khi làm việc với bối cảnh dài và Gemini 1.5 mô hình sử dụng ngữ cảnh lưu vào bộ nhớ đệm. Ngoài quá trình trước đó không thể xử lý nhiều mã thông báo trong một yêu cầu, ràng buộc là chi phí. Nếu bạn "trò chuyện về dữ liệu của bạn" ứng dụng mà người dùng tải 10 tệp PDF, 1 video và một số tài liệu công việc lên, mà lẽ ra trước đây bạn phải tải lên tương thích với công cụ tạo tăng cường truy xuất (RAG) phức tạp hơn / để xử lý các yêu cầu này và trả một số tiền đáng kể cho đã được di chuyển vào cửa sổ ngữ cảnh. Giờ đây, bạn có thể lưu các tệp mà người dùng vào bộ nhớ đệm tải lên và trả tiền để lưu trữ chúng theo từng giờ. Chi phí đầu vào / đầu ra trên mỗi gửi yêu cầu bằng Gemini 1.5 Flash chẳng hạn nhỏ hơn ~4x so với chi phí đầu vào / đầu ra tiêu chuẩn, vì vậy nếu người dùng trò chuyện với đủ dữ liệu của họ, thì điều đó sẽ giúp bạn tiết kiệm rất nhiều chi phí nhà phát triển.
Giới hạn về ngữ cảnh dài
Trong nhiều phần của hướng dẫn này, chúng ta đã nói về cách mô hình Gemini 1.5 đạt được hiệu suất cao trên nhiều báo cáo truy xuất từng bước. Các để xem xét cách thiết lập cơ bản nhất, trong đó bạn chỉ có một kim đang tìm kiếm. Trong trường hợp bạn có thể có nhiều "kim tiêm" hoặc các phần cụ thể thông tin bạn đang tìm kiếm, mô hình sẽ không hoạt động với cùng một của bạn. Hiệu suất có thể thay đổi ở mức độ rộng tuỳ thuộc vào bối cảnh. Chiến dịch này là điều rất quan trọng do cần cân nhắc sự đánh đổi vốn có giữa việc nhận được thông tin chính xác được truy xuất và chi phí. Bạn có thể nhận được ~99% cho một truy vấn, nhưng bạn phải trả chi phí mã thông báo đầu vào mỗi khi gửi truy vấn đó. Vì vậy, với 100 thông tin cần truy xuất, nếu cần đạt hiệu suất 99%, bạn sẽ có thể cần gửi 100 yêu cầu. Đây là một ví dụ hay về vị trí ngữ cảnh việc lưu vào bộ nhớ đệm có thể giúp giảm đáng kể chi phí liên quan đến việc sử dụng các mô hình Gemini mà vẫn duy trì được hiệu suất cao.
Câu hỏi thường gặp
Tôi có bị mất hiệu suất của mô hình khi thêm các mã thông báo khác vào truy vấn không?
Nhìn chung, nếu không cần mã thông báo để được truyền vào mô hình, tốt nhất bạn nên hãy tránh truyền chúng. Tuy nhiên, nếu bạn có một phần lớn mã thông báo với một số và muốn đặt câu hỏi về thông tin đó, mô hình được có khả năng trích xuất thông tin đó cao (độ chính xác lên tới 99% trong nhiều trường hợp).
Gemini 1.5 Pro hoạt động như thế nào trong bài kiểm thử tiêu chuẩn theo từng trường hợp?
Gemini 1.5 Pro có khả năng thu hồi 100% lên đến 530.000 token và tỷ lệ thu hồi trên 99,7% lên đến 1 TRIỆU mã thông báo.
Làm cách nào để giảm chi phí bằng các truy vấn dài theo ngữ cảnh?
Nếu bạn có một nhóm mã thông báo/ngữ cảnh tương tự và muốn dùng lại nhiều mã thông báo/ngữ cảnh này thì việc lưu vào bộ nhớ đệm theo ngữ cảnh có thể giúp giảm chi phí liên quan đến việc đặt câu hỏi về thông tin đó.
Làm cách nào để có thể truy cập vào cửa sổ ngữ cảnh 2 triệu mã thông báo?
Giờ đây, tất cả nhà phát triển đều có quyền truy cập vào cửa sổ ngữ cảnh chứa 2 triệu mã thông báo nhờ Gemini 1.5 Pro.
Độ dài ngữ cảnh có ảnh hưởng đến độ trễ của mô hình không?
Có một độ trễ cố định trong bất kỳ yêu cầu nhất định nào, bất kể nhưng thường thì các truy vấn dài hơn sẽ có thời gian chờ cao hơn (thời gian đến mã).
Khả năng ngữ cảnh dài có khác nhau giữa Gemini 1.5 Flash và Gemini 1.5 Pro không?
Có, một vài con số đã được đề cập trong các phần khác nhau của hướng dẫn này, nhưng thường thì Gemini 1.5 Pro hoạt động hiệu quả hơn trong hầu hết các trường hợp sử dụng có bối cảnh dài.