Gemini là một dòng mô hình AI tạo sinh cho phép nhà phát triển tạo nội dung và giải quyết vấn đề. Các mô hình này được thiết kế và huấn luyện để xử lý cả văn bản và hình ảnh làm dữ liệu đầu vào. Hướng dẫn này cung cấp thông tin về từng biến thể mô hình để giúp bạn quyết định biến thể nào phù hợp nhất với trường hợp sử dụng của mình.
Tính an toàn và mục đích sử dụng
Các mô hình trí tuệ nhân tạo tạo sinh là những công cụ mạnh mẽ, nhưng không phải lúc nào cũng có những hạn chế riêng. Tính linh hoạt và khả năng áp dụng đôi khi có thể dẫn đến kết quả ngoài dự kiến, chẳng hạn như kết quả không chính xác, thiên lệch hoặc phản cảm. Quy trình xử lý hậu kỳ và đánh giá thủ công nghiêm ngặt là những yếu tố cần thiết để hạn chế rủi ro thiệt hại do những kết quả đó. Hãy xem hướng dẫn về an toàn để biết thêm các đề xuất về việc sử dụng an toàn.
Các mô hình do API Gemini cung cấp có thể được dùng cho nhiều ứng dụng dựa trên AI tạo sinh và xử lý ngôn ngữ tự nhiên (NLP). Bạn chỉ có thể sử dụng các hàm này thông qua API Gemini hoặc ứng dụng web Google AI Studio. Việc bạn sử dụng API Gemini cũng phải tuân theo Chính sách về các hành vi bị cấm khi sử dụng AI tạo sinh và Điều khoản dịch vụ của API Gemini.
Biến thể mô hình
API Gemini cung cấp nhiều mô hình được tối ưu hoá cho những trường hợp sử dụng cụ thể. Dưới đây là thông tin tổng quan ngắn gọn về các biến thể Gemini có sẵn:
Biến thể mô hình | (Các) giá trị đầu vào | Đầu ra | Được tối ưu hoá cho |
---|---|---|---|
Gemini 1.5 Pro (Xem trước) | Âm thanh, hình ảnh và văn bản | Văn bản | Tác vụ lập luận, bao gồm (nhưng không giới hạn ở) tạo mã và văn bản, chỉnh sửa văn bản, giải quyết vấn đề, trích xuất và tạo dữ liệu |
Gemini 1.5 Flash (Xem trước) | Âm thanh, hình ảnh và văn bản | Văn bản | Hiệu suất nhanh chóng và linh hoạt cho nhiều nhiệm vụ |
Gemini 1.0 Pro | Văn bản | Văn bản | Các nhiệm vụ về ngôn ngữ tự nhiên, trò chuyện bằng văn bản và mã nhiều lượt, cũng như tạo mã |
Tầm nhìn Gemini 1.0 Pro | Hình ảnh và văn bản | Văn bản | Tối ưu hoá hiệu suất cho các nhiệm vụ liên quan đến hình ảnh, chẳng hạn như tạo nội dung mô tả hình ảnh hoặc xác định đối tượng trong hình ảnh |
Nhúng văn bản | Văn bản | Nhúng văn bản | Tạo nhúng văn bản co giãn với tới 768 kích thước cho văn bản có tối đa 2.048 mã thông báo |
Nhúng | Văn bản | Nhúng văn bản | Tạo nhúng văn bản với 768 phương diện cho văn bản,tối đa 2.048 mã thông báo |
AQA (Chỉ số chất lượng không khí) | Văn bản | Văn bản | Thực hiện các nhiệm vụ liên quan đến câu hỏi được phân bổ thay cho văn bản được cung cấp |
Bảng sau đây mô tả các thuộc tính của mô hình Gemini phổ biến cho tất cả biến thể mô hình:
Thuộc tính | Nội dung mô tả |
---|---|
Dữ liệu huấn luyện | Điểm ngắt kiến thức của Gemini là đầu năm 2023. Kiến thức về các sự kiện sau thời gian đó bị hạn chế. |
Ngôn ngữ được hỗ trợ | Xem các ngôn ngữ được hỗ trợ |
Thông số của mô hình có thể định cấu hình |
|
Hãy xem phần tham số mô hình trong hướng dẫn về mô hình tạo sinh để biết thông tin về từng tham số này.
Gemini 1.5 Pro (Bản xem trước)
Gemini 1.5 Pro là một mô hình đa phương thức có kích thước trung bình được tối ưu hoá cho nhiều tác vụ lập luận như:
- Tạo mã
- Tạo văn bản
- Chỉnh sửa văn bản
- Giải quyết vấn đề
- Tạo đề xuất
- Trích xuất thông tin
- Trích xuất hoặc tạo dữ liệu
- Tạo nhân viên hỗ trợ AI
1.5 Pro có thể xử lý một lượng lớn dữ liệu cùng một lúc, bao gồm cả 1 giờ video, 9,5 giờ âm thanh, cơ sở mã với hơn 30.000 dòng mã hoặc hơn 700.000 từ.
Phiên bản 1.5 Pro có khả năng xử lý các tác vụ học tập một lần, một và vài lần.
Chi tiết mô hình
Tài sản | Nội dung mô tả |
---|---|
Mã kiểu máy | models/gemini-1.5-pro-latest |
Thông tin đầu vào | Âm thanh, hình ảnh và văn bản |
Đầu ra | Văn bản |
Các phương thức tạo được hỗ trợ |
generateContent
|
Giới hạn mã thông báo đầu vào[**] | 1.048.576 |
Giới hạn mã thông báo đầu ra[**] | 8.192 |
Số lượng hình ảnh tối đa trong mỗi câu lệnh | 3.600 |
Thời lượng video tối đa | 1 giờ |
Thời lượng âm thanh tối đa | Khoảng 9,5 giờ |
Số tệp âm thanh tối đa trong mỗi câu lệnh | 1 |
Độ an toàn của mô hình | Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết. |
Giới hạn số lượng yêu cầu[*] |
|
Hướng dẫn hệ thống | Có thể làm |
Chế độ JSON | Có thể làm |
Phiên bản mới nhất | gemini-1.5-pro-latest |
Phiên bản ổn định mới nhất | gemini-1.5-pro |
Thông tin cập nhật mới nhất | Tháng 4 năm 2024 |
Flash Gemini 1.5 (Xem trước)
Gemini 1.5 Flash là một mô hình đa phương thức nhanh và linh hoạt để mở rộng quy mô trên nhiều tác vụ.
Chi tiết mô hình
Tài sản | Nội dung mô tả |
---|---|
Mã kiểu máy | gemini-1.5-flash |
(Các) giá trị đầu vào | Âm thanh, hình ảnh và văn bản |
Đầu ra | Văn bản |
Các phương thức tạo được hỗ trợ |
generateContent
|
Giới hạn mã thông báo đầu vào[**] | 1.048.576 |
Giới hạn mã thông báo đầu ra[**] | 8.192 |
Số lượng hình ảnh tối đa trong mỗi câu lệnh | 3.600 |
Thời lượng video tối đa | 1 giờ |
Thời lượng âm thanh tối đa | Khoảng 9,5 giờ |
Số tệp âm thanh tối đa trong mỗi câu lệnh | 1 |
Độ an toàn của mô hình | Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết. |
Giới hạn số lượng yêu cầu[*] |
|
Hướng dẫn hệ thống | Có thể làm |
Chế độ JSON | Có thể làm |
Phiên bản mới nhất | gemini-1.5-flash-latest |
Phiên bản ổn định mới nhất | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro là một mô hình NLP giúp xử lý các nhiệm vụ như trò chuyện bằng văn bản và mã nhiều lượt cũng như tạo mã.
Phiên bản 1.0 Pro có khả năng xử lý các tác vụ học tập chỉ cần một lần hoặc một lần.
Chi tiết mô hình
Tài sản | Nội dung mô tả |
---|---|
Mã kiểu máy | models/gemini-pro |
Đầu vào | Văn bản |
Đầu ra | Văn bản |
Các phương thức tạo được hỗ trợ |
generate_content
generateContent
|
Giới hạn số lượng yêu cầu[*] |
|
Hướng dẫn hệ thống | Không được hỗ trợ |
Chế độ JSON | Không được hỗ trợ |
Phiên bản mới nhất | gemini-1.0-pro-latest |
Phiên bản ổn định mới nhất | gemini-1.0-pro |
Phiên bản ổn định | gemini-1.0-pro-001 |
Thông tin cập nhật mới nhất | Tháng 2 năm 2024 |
Tầm nhìn Gemini 1.0 Pro
Gemini 1.0 Pro Vision là một mô hình đa phương thức được tối ưu hoá hiệu suất, có thể thực hiện các công việc liên quan đến hình ảnh. Ví dụ: 1.0 Pro Vision có thể tạo nội dung mô tả hình ảnh, xác định đối tượng có trong hình ảnh, cung cấp thông tin về địa điểm hoặc đối tượng có trong hình ảnh, v.v.
1.0 Pro Vision có khả năng xử lý các tác vụ chỉ cần thực hiện một lần và một lần.
Chi tiết mô hình
Tài sản | Nội dung mô tả |
---|---|
Mã kiểu máy | models/gemini-pro-vision |
Thông tin đầu vào | Văn bản và hình ảnh |
Đầu ra | Văn bản |
Các phương thức tạo được hỗ trợ |
generate_content
generateContent
|
Giới hạn mã thông báo đầu vào[*] | 12.288 |
Giới hạn mã thông báo đầu ra[*] | 4.096 |
Kích thước hình ảnh tối đa | Không giới hạn |
Số lượng hình ảnh tối đa trong mỗi câu lệnh | 16 |
Thời lượng video tối đa | 2 phút |
Số lượng video tối đa trong mỗi câu lệnh | 1 |
Độ an toàn của mô hình | Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết. |
Giới hạn số lượng yêu cầu[*] | 60 yêu cầu mỗi phút |
Phiên bản mới nhất | gemini-1.0-pro-vision-latest |
Phiên bản ổn định mới nhất | gemini-1.0-pro-vision |
Thông tin cập nhật mới nhất | Tháng 12 năm 2023 |
Nhúng và nhúng văn bản
Nhúng văn bản
Bạn có thể dùng mô hình Nhúng văn bản để tạo cách nhúng văn bản cho văn bản đầu vào. Để biết thêm thông tin về mô hình Nhúng văn bản, hãy xem tài liệu về AI tạo sinh trên Vertex AI về tính năng nhúng văn bản.
Mô hình Nhúng văn bản được tối ưu hoá để tạo nội dung nhúng với 768 kích thước cho văn bản của tối đa 2.048 mã thông báo. Tính năng Nhúng văn bản cung cấp kích thước nhúng linh hoạt dưới 768. Bạn có thể sử dụng phương thức nhúng đàn hồi để tạo kích thước đầu ra nhỏ hơn và có thể tiết kiệm chi phí tính toán cũng như lưu trữ mà chỉ mất một chút hiệu suất.
Chi tiết mô hình
Tài sản | Nội dung mô tả |
---|---|
Mã kiểu máy |
models/text-embedding-004
(text-embedding-preview-0409 trong
Vertex AI)
|
Đầu vào | Văn bản |
Đầu ra | Nhúng văn bản |
Giới hạn mã thông báo đầu vào | 2.048 |
Kích thước kích thước đầu ra | 768 |
Các phương thức tạo được hỗ trợ |
embed_content
embedContent
|
Độ an toàn của mô hình | Không có chế độ cài đặt an toàn nào có thể điều chỉnh. |
Giới hạn số lượng yêu cầu[*] | 1.500 yêu cầu mỗi phút |
Thông tin cập nhật mới nhất | Tháng 4 năm 2024 |
Nhúng
Bạn có thể dùng mô hình Nhúng để tạo nội dung nhúng văn bản cho văn bản đầu vào.
Mô hình Nhúng được tối ưu hoá để tạo nội dung nhúng với 768 kích thước cho văn bản của tối đa 2.048 mã thông báo.
Nhúng chi tiết mô hình
Tài sản | Nội dung mô tả |
---|---|
Mã kiểu máy | models/embedding-001 |
Đầu vào | Văn bản |
Đầu ra | Nhúng văn bản |
Giới hạn mã thông báo đầu vào | 2.048 |
Kích thước kích thước đầu ra | 768 |
Các phương thức tạo được hỗ trợ |
embed_content
embedContent
|
Độ an toàn của mô hình | Không có chế độ cài đặt an toàn nào có thể điều chỉnh. |
Giới hạn số lượng yêu cầu[*] | 1.500 yêu cầu mỗi phút |
Thông tin cập nhật mới nhất | Tháng 12 năm 2023 |
AQA (Chỉ số chất lượng không khí)
Bạn có thể sử dụng mô hình AQA để thực hiện các nhiệm vụ liên quan đến Câu hỏi được phân bổ (AQA) trên một tài liệu, tập sao lục hoặc một tập hợp các đoạn văn. Mô hình AQA trả về câu trả lời cho các câu hỏi dựa trên các nguồn đã cho, cùng với việc ước tính xác suất có thể trả lời.
Chi tiết mô hình
Tài sản | Nội dung mô tả |
---|---|
Mã kiểu máy | models/aqa |
Đầu vào | Văn bản |
Đầu ra | Văn bản |
Các phương thức tạo được hỗ trợ |
GenerateAnswerRequest
generateAnswer
|
Ngôn ngữ được hỗ trợ | Tiếng Anh |
Giới hạn mã thông báo đầu vào[**] | 7.168 |
Giới hạn mã thông báo đầu ra[**] | 1.024 |
Độ an toàn của mô hình | Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết. |
Giới hạn số lượng yêu cầu[*] | 60 yêu cầu mỗi phút |
Thông tin cập nhật mới nhất | Tháng 12 năm 2023 |
Hãy xem ví dụ để khám phá khả năng của các biến thể mô hình này.
[*] Mã thông báo tương đương với khoảng 4 ký tự đối với các mô hình Gemini. 100 mã thông báo chứa khoảng 60-80 từ tiếng Anh.
[**] RPM: Số yêu cầu mỗi phút
TPM: Số mã thông báo mỗi phút
RPD: Số yêu cầu mỗi ngày
TPD: Số mã thông báo mỗi ngày
Do giới hạn về hạn mức, chúng tôi không đảm bảo giới hạn số lượng mã thông báo tối đa đã chỉ định.
Mẫu tên phiên bản của mô hình
Các mô hình Gemini có phiên bản xem trước hoặc ổn định. Trong mã của mình, bạn có thể sử dụng một trong các định dạng tên mô hình sau đây để chỉ định mô hình và phiên bản mà bạn muốn sử dụng.
Mới nhất: Trỏ đến phiên bản tiên tiến của mô hình cho một thế hệ và biến thể cụ thể. Mô hình cơ bản được cập nhật thường xuyên và có thể là phiên bản xem trước. Chỉ các ứng dụng thử nghiệm khám phá và nguyên mẫu mới được sử dụng bí danh này.
Để chỉ định phiên bản mới nhất, hãy sử dụng mẫu sau:
<model>-<generation>-<variation>-latest
. Ví dụ:gemini-1.0-pro-latest
.Ổn định mới nhất:Trỏ đến phiên bản ổn định gần đây nhất được phát hành cho biến thể và mô hình được chỉ định.
Để chỉ định phiên bản ổn định mới nhất, hãy sử dụng mẫu sau:
<model>-<generation>-<variation>
. Ví dụ:gemini-1.0-pro
.Ổn định: Trỏ đến một mô hình ổn định cụ thể. Mô hình ổn định sẽ không thay đổi. Hầu hết các ứng dụng chính thức nên sử dụng mô hình ổn định cụ thể.
Để chỉ định một phiên bản ổn định, hãy sử dụng mẫu sau:
<model>-<generation>-<variation>-<version>
. Ví dụ:gemini-1.0-pro-001
.