Hãy tham gia Cuộc thi dành cho nhà phát triển API Gemini! Tìm hiểu thêm

Trang này được dịch bởi Cloud Translation API.

Gemini

Gemini là một dòng mô hình AI tạo sinh cho phép nhà phát triển tạo nội dung và giải quyết vấn đề. Các mô hình này được thiết kế và huấn luyện để xử lý cả văn bản và hình ảnh làm dữ liệu đầu vào. Hướng dẫn này cung cấp thông tin về từng biến thể mô hình để giúp bạn quyết định biến thể nào phù hợp nhất với trường hợp sử dụng của mình.

Tính an toàn và mục đích sử dụng

Các mô hình trí tuệ nhân tạo tạo sinh là những công cụ mạnh mẽ, nhưng không phải lúc nào cũng có những hạn chế riêng. Tính linh hoạt và khả năng áp dụng đôi khi có thể dẫn đến kết quả ngoài dự kiến, chẳng hạn như kết quả không chính xác, thiên lệch hoặc phản cảm. Quy trình xử lý hậu kỳ và đánh giá thủ công nghiêm ngặt là những yếu tố cần thiết để hạn chế rủi ro thiệt hại do những kết quả đó. Hãy xem hướng dẫn về an toàn để biết thêm các đề xuất về việc sử dụng an toàn.

Các mô hình do API Gemini cung cấp có thể được dùng cho nhiều ứng dụng dựa trên AI tạo sinh và xử lý ngôn ngữ tự nhiên (NLP). Bạn chỉ có thể sử dụng các hàm này thông qua API Gemini hoặc ứng dụng web Google AI Studio. Việc bạn sử dụng API Gemini cũng phải tuân theo Chính sách về các hành vi bị cấm khi sử dụng AI tạo sinh và Điều khoản dịch vụ của API Gemini.

Biến thể mô hình

API Gemini cung cấp nhiều mô hình được tối ưu hoá cho những trường hợp sử dụng cụ thể. Dưới đây là thông tin tổng quan ngắn gọn về các biến thể Gemini có sẵn:

Biến thể mô hình	(Các) giá trị đầu vào	Đầu ra	Được tối ưu hoá cho
Gemini 1.5 Pro (Xem trước)	Âm thanh, hình ảnh và văn bản	Văn bản	Tác vụ lập luận, bao gồm (nhưng không giới hạn ở) tạo mã và văn bản, chỉnh sửa văn bản, giải quyết vấn đề, trích xuất và tạo dữ liệu
Gemini 1.5 Flash (Xem trước)	Âm thanh, hình ảnh và văn bản	Văn bản	Hiệu suất nhanh chóng và linh hoạt cho nhiều nhiệm vụ
Gemini 1.0 Pro	Văn bản	Văn bản	Các nhiệm vụ về ngôn ngữ tự nhiên, trò chuyện bằng văn bản và mã nhiều lượt, cũng như tạo mã
Tầm nhìn Gemini 1.0 Pro	Hình ảnh và văn bản	Văn bản	Tối ưu hoá hiệu suất cho các nhiệm vụ liên quan đến hình ảnh, chẳng hạn như tạo nội dung mô tả hình ảnh hoặc xác định đối tượng trong hình ảnh
Nhúng văn bản	Văn bản	Nhúng văn bản	Tạo nhúng văn bản co giãn với tới 768 kích thước cho văn bản có tối đa 2.048 mã thông báo
Nhúng	Văn bản	Nhúng văn bản	Tạo nhúng văn bản với 768 phương diện cho văn bản,tối đa 2.048 mã thông báo
AQA (Chỉ số chất lượng không khí)	Văn bản	Văn bản	Thực hiện các nhiệm vụ liên quan đến câu hỏi được phân bổ thay cho văn bản được cung cấp

Bảng sau đây mô tả các thuộc tính của mô hình Gemini phổ biến cho tất cả biến thể mô hình:

Thuộc tính	Nội dung mô tả
Dữ liệu huấn luyện	Điểm ngắt kiến thức của Gemini là đầu năm 2023. Kiến thức về các sự kiện sau thời gian đó bị hạn chế.
Ngôn ngữ được hỗ trợ	Xem các ngôn ngữ được hỗ trợ
Thông số của mô hình có thể định cấu hình	Bàn trên cùng K trên cùng Nhiệt độ Dừng trình tự Thời lượng đầu ra tối đa Số lượng ứng viên trả lời

Hãy xem phần tham số mô hình trong hướng dẫn về mô hình tạo sinh để biết thông tin về từng tham số này.

Gemini 1.5 Pro (Bản xem trước)

Gemini 1.5 Pro là một mô hình đa phương thức có kích thước trung bình được tối ưu hoá cho nhiều tác vụ lập luận như:

Tạo mã
Tạo văn bản
Chỉnh sửa văn bản
Giải quyết vấn đề
Tạo đề xuất
Trích xuất thông tin
Trích xuất hoặc tạo dữ liệu
Tạo nhân viên hỗ trợ AI

1.5 Pro có thể xử lý một lượng lớn dữ liệu cùng một lúc, bao gồm cả 1 giờ video, 9,5 giờ âm thanh, cơ sở mã với hơn 30.000 dòng mã hoặc hơn 700.000 từ.

Phiên bản 1.5 Pro có khả năng xử lý các tác vụ học tập một lần, một và vài lần.

Chi tiết mô hình

Tài sản	Nội dung mô tả
Mã kiểu máy	`models/gemini-1.5-pro-latest`
Thông tin đầu vào	Âm thanh, hình ảnh và văn bản
Đầu ra	Văn bản
Các phương thức tạo được hỗ trợ	`generateContent`
Giới hạn mã thông báo đầu vào^[**]	1.048.576
Giới hạn mã thông báo đầu ra^[**]	8.192
Số lượng hình ảnh tối đa trong mỗi câu lệnh	3.600
Thời lượng video tối đa	1 giờ
Thời lượng âm thanh tối đa	Khoảng 9,5 giờ
Số tệp âm thanh tối đa trong mỗi câu lệnh	1
Độ an toàn của mô hình	Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu^[*]	Miễn phí: 2 vòng/phút 32.000 TPM (Mô-đun nền tảng đáng tin cậy) 50 RPD 46.080.000 TPD Pay-as-you-go: 360 vòng/phút 10 triệu TPM 10.000 RPD 14.400.000.000 TPD Hai triệu bối cảnh: 1 vòng/phút 2 triệu TPM (Mô-đun nền tảng đáng tin cậy) 50 RPD
Hướng dẫn hệ thống	Có thể làm
Chế độ JSON	Có thể làm
Phiên bản mới nhất	`gemini-1.5-pro-latest`
Phiên bản ổn định mới nhất	`gemini-1.5-pro`
Thông tin cập nhật mới nhất	Tháng 4 năm 2024

Flash Gemini 1.5 (Xem trước)

Gemini 1.5 Flash là một mô hình đa phương thức nhanh và linh hoạt để mở rộng quy mô trên nhiều tác vụ.

Chi tiết mô hình

Tài sản	Nội dung mô tả
Mã kiểu máy	`gemini-1.5-flash`
(Các) giá trị đầu vào	Âm thanh, hình ảnh và văn bản
Đầu ra	Văn bản
Các phương thức tạo được hỗ trợ	`generateContent`
Giới hạn mã thông báo đầu vào^[**]	1.048.576
Giới hạn mã thông báo đầu ra^[**]	8.192
Số lượng hình ảnh tối đa trong mỗi câu lệnh	3.600
Thời lượng video tối đa	1 giờ
Thời lượng âm thanh tối đa	Khoảng 9,5 giờ
Số tệp âm thanh tối đa trong mỗi câu lệnh	1
Độ an toàn của mô hình	Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu^[*]	Miễn phí: 15 vòng/phút 1 triệu TPM 1.500 RPD Pay-as-you-go: 360 vòng/phút 10 triệu TPM 10.000 RPD
Hướng dẫn hệ thống	Có thể làm
Chế độ JSON	Có thể làm
Phiên bản mới nhất	`gemini-1.5-flash-latest`
Phiên bản ổn định mới nhất	`gemini-1.5-flash`

Gemini 1.0 Pro

Gemini 1.0 Pro là một mô hình NLP giúp xử lý các nhiệm vụ như trò chuyện bằng văn bản và mã nhiều lượt cũng như tạo mã.

Phiên bản 1.0 Pro có khả năng xử lý các tác vụ học tập chỉ cần một lần hoặc một lần.

Chi tiết mô hình

Tài sản	Nội dung mô tả
Mã kiểu máy	`models/gemini-pro`
Đầu vào	Văn bản
Đầu ra	Văn bản
Các phương thức tạo được hỗ trợ	Python: `generate_content` REST: `generateContent`
Giới hạn số lượng yêu cầu^[*]	Miễn phí: 15 vòng/phút 32.000 TPM (Mô-đun nền tảng đáng tin cậy) 1.500 RPD 46.080.000 TPD Pay-as-you-go: 360 vòng/phút 120.000 TPM 30.000 RPD 172.800.000 TPD
Hướng dẫn hệ thống	Không được hỗ trợ
Chế độ JSON	Không được hỗ trợ
Phiên bản mới nhất	`gemini-1.0-pro-latest`
Phiên bản ổn định mới nhất	`gemini-1.0-pro`
Phiên bản ổn định	`gemini-1.0-pro-001`
Thông tin cập nhật mới nhất	Tháng 2 năm 2024

Lưu ý: gemini-pro là biệt hiệu của gemini-1.0-pro.

Tầm nhìn Gemini 1.0 Pro

Gemini 1.0 Pro Vision là một mô hình đa phương thức được tối ưu hoá hiệu suất, có thể thực hiện các công việc liên quan đến hình ảnh. Ví dụ: 1.0 Pro Vision có thể tạo nội dung mô tả hình ảnh, xác định đối tượng có trong hình ảnh, cung cấp thông tin về địa điểm hoặc đối tượng có trong hình ảnh, v.v.

1.0 Pro Vision có khả năng xử lý các tác vụ chỉ cần thực hiện một lần và một lần.

Chi tiết mô hình

Tài sản	Nội dung mô tả
Mã kiểu máy	`models/gemini-pro-vision`
Thông tin đầu vào	Văn bản và hình ảnh
Đầu ra	Văn bản
Các phương thức tạo được hỗ trợ	Python: `generate_content` REST: `generateContent`
Giới hạn mã thông báo đầu vào^[*]	12.288
Giới hạn mã thông báo đầu ra^[*]	4.096
Kích thước hình ảnh tối đa	Không giới hạn
Số lượng hình ảnh tối đa trong mỗi câu lệnh	16
Thời lượng video tối đa	2 phút
Số lượng video tối đa trong mỗi câu lệnh	1
Độ an toàn của mô hình	Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu^[*]	60 yêu cầu mỗi phút
Phiên bản mới nhất	`gemini-1.0-pro-vision-latest`
Phiên bản ổn định mới nhất	`gemini-1.0-pro-vision`
Thông tin cập nhật mới nhất	Tháng 12 năm 2023

Nhúng và nhúng văn bản

Nhúng văn bản

Bạn có thể dùng mô hình Nhúng văn bản để tạo cách nhúng văn bản cho văn bản đầu vào. Để biết thêm thông tin về mô hình Nhúng văn bản, hãy xem tài liệu về AI tạo sinh trên Vertex AI về tính năng nhúng văn bản.

Mô hình Nhúng văn bản được tối ưu hoá để tạo nội dung nhúng với 768 kích thước cho văn bản của tối đa 2.048 mã thông báo. Tính năng Nhúng văn bản cung cấp kích thước nhúng linh hoạt dưới 768. Bạn có thể sử dụng phương thức nhúng đàn hồi để tạo kích thước đầu ra nhỏ hơn và có thể tiết kiệm chi phí tính toán cũng như lưu trữ mà chỉ mất một chút hiệu suất.

Chi tiết mô hình

Tài sản	Nội dung mô tả
Mã kiểu máy	`models/text-embedding-004` (`text-embedding-preview-0409` trong Vertex AI)
Đầu vào	Văn bản
Đầu ra	Nhúng văn bản
Giới hạn mã thông báo đầu vào	2.048
Kích thước kích thước đầu ra	768
Các phương thức tạo được hỗ trợ	Python: `embed_content` REST: `embedContent`
Độ an toàn của mô hình	Không có chế độ cài đặt an toàn nào có thể điều chỉnh.
Giới hạn số lượng yêu cầu^[*]	1.500 yêu cầu mỗi phút
Thông tin cập nhật mới nhất	Tháng 4 năm 2024

Nhúng

Bạn có thể dùng mô hình Nhúng để tạo nội dung nhúng văn bản cho văn bản đầu vào.

Mô hình Nhúng được tối ưu hoá để tạo nội dung nhúng với 768 kích thước cho văn bản của tối đa 2.048 mã thông báo.

Nhúng chi tiết mô hình

Tài sản	Nội dung mô tả
Mã kiểu máy	`models/embedding-001`
Đầu vào	Văn bản
Đầu ra	Nhúng văn bản
Giới hạn mã thông báo đầu vào	2.048
Kích thước kích thước đầu ra	768
Các phương thức tạo được hỗ trợ	Python: `embed_content` REST: `embedContent`
Độ an toàn của mô hình	Không có chế độ cài đặt an toàn nào có thể điều chỉnh.
Giới hạn số lượng yêu cầu^[*]	1.500 yêu cầu mỗi phút
Thông tin cập nhật mới nhất	Tháng 12 năm 2023

AQA (Chỉ số chất lượng không khí)

Bạn có thể sử dụng mô hình AQA để thực hiện các nhiệm vụ liên quan đến Câu hỏi được phân bổ (AQA) trên một tài liệu, tập sao lục hoặc một tập hợp các đoạn văn. Mô hình AQA trả về câu trả lời cho các câu hỏi dựa trên các nguồn đã cho, cùng với việc ước tính xác suất có thể trả lời.

Chi tiết mô hình

Tài sản	Nội dung mô tả
Mã kiểu máy	`models/aqa`
Đầu vào	Văn bản
Đầu ra	Văn bản
Các phương thức tạo được hỗ trợ	Python: `GenerateAnswerRequest` REST: `generateAnswer`
Ngôn ngữ được hỗ trợ	Tiếng Anh
Giới hạn mã thông báo đầu vào^[**]	7.168
Giới hạn mã thông báo đầu ra^[**]	1.024
Độ an toàn của mô hình	Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu^[*]	60 yêu cầu mỗi phút
Thông tin cập nhật mới nhất	Tháng 12 năm 2023

Hãy xem ví dụ để khám phá khả năng của các biến thể mô hình này.

[*] Mã thông báo tương đương với khoảng 4 ký tự đối với các mô hình Gemini. 100 mã thông báo chứa khoảng 60-80 từ tiếng Anh.

[**] RPM: Số yêu cầu mỗi phút
TPM: Số mã thông báo mỗi phút
RPD: Số yêu cầu mỗi ngày
TPD: Số mã thông báo mỗi ngày

Do giới hạn về hạn mức, chúng tôi không đảm bảo giới hạn số lượng mã thông báo tối đa đã chỉ định.

Mẫu tên phiên bản của mô hình

Các mô hình Gemini có phiên bản xem trước hoặc ổn định. Trong mã của mình, bạn có thể sử dụng một trong các định dạng tên mô hình sau đây để chỉ định mô hình và phiên bản mà bạn muốn sử dụng.

Mới nhất: Trỏ đến phiên bản tiên tiến của mô hình cho một thế hệ và biến thể cụ thể. Mô hình cơ bản được cập nhật thường xuyên và có thể là phiên bản xem trước. Chỉ các ứng dụng thử nghiệm khám phá và nguyên mẫu mới được sử dụng bí danh này.

Để chỉ định phiên bản mới nhất, hãy sử dụng mẫu sau: <model>-<generation>-<variation>-latest. Ví dụ: gemini-1.0-pro-latest.
Ổn định mới nhất:Trỏ đến phiên bản ổn định gần đây nhất được phát hành cho biến thể và mô hình được chỉ định.

Để chỉ định phiên bản ổn định mới nhất, hãy sử dụng mẫu sau: <model>-<generation>-<variation>. Ví dụ: gemini-1.0-pro.
Ổn định: Trỏ đến một mô hình ổn định cụ thể. Mô hình ổn định sẽ không thay đổi. Hầu hết các ứng dụng chính thức nên sử dụng mô hình ổn định cụ thể.

Để chỉ định một phiên bản ổn định, hãy sử dụng mẫu sau: <model>-<generation>-<variation>-<version>. Ví dụ: gemini-1.0-pro-001.