Gemini

Gemini là một dòng mô hình AI tạo sinh cho phép nhà phát triển tạo nội dung và giải quyết vấn đề. Các mô hình này được thiết kế và huấn luyện để xử lý cả văn bản và hình ảnh làm dữ liệu đầu vào. Hướng dẫn này cung cấp thông tin về từng biến thể mô hình để giúp bạn quyết định biến thể nào phù hợp nhất với trường hợp sử dụng của mình.

Tính an toàn và mục đích sử dụng

Các mô hình trí tuệ nhân tạo tạo sinh là những công cụ mạnh mẽ, nhưng không phải lúc nào cũng có những hạn chế riêng. Tính linh hoạt và khả năng áp dụng đôi khi có thể dẫn đến kết quả ngoài dự kiến, chẳng hạn như kết quả không chính xác, thiên lệch hoặc phản cảm. Quy trình xử lý hậu kỳ và đánh giá thủ công nghiêm ngặt là những yếu tố cần thiết để hạn chế rủi ro thiệt hại do những kết quả đó. Hãy xem hướng dẫn về an toàn để biết thêm các đề xuất về việc sử dụng an toàn.

Các mô hình do API Gemini cung cấp có thể được dùng cho nhiều ứng dụng dựa trên AI tạo sinh và xử lý ngôn ngữ tự nhiên (NLP). Bạn chỉ có thể sử dụng các hàm này thông qua API Gemini hoặc ứng dụng web Google AI Studio. Việc bạn sử dụng API Gemini cũng phải tuân theo Chính sách về các hành vi bị cấm khi sử dụng AI tạo sinhĐiều khoản dịch vụ của API Gemini.

Biến thể mô hình

API Gemini cung cấp nhiều mô hình được tối ưu hoá cho những trường hợp sử dụng cụ thể. Dưới đây là thông tin tổng quan ngắn gọn về các biến thể Gemini có sẵn:

Biến thể mô hình (Các) giá trị đầu vào Đầu ra Được tối ưu hoá cho
Gemini 1.5 Pro (Xem trước) Âm thanh, hình ảnh và văn bản Văn bản Tác vụ lập luận, bao gồm (nhưng không giới hạn ở) tạo mã và văn bản, chỉnh sửa văn bản, giải quyết vấn đề, trích xuất và tạo dữ liệu
Gemini 1.5 Flash (Xem trước) Âm thanh, hình ảnh và văn bản Văn bản Hiệu suất nhanh chóng và linh hoạt cho nhiều nhiệm vụ
Gemini 1.0 Pro Văn bản Văn bản Các nhiệm vụ về ngôn ngữ tự nhiên, trò chuyện bằng văn bản và mã nhiều lượt, cũng như tạo mã
Tầm nhìn Gemini 1.0 Pro Hình ảnh và văn bản Văn bản Tối ưu hoá hiệu suất cho các nhiệm vụ liên quan đến hình ảnh, chẳng hạn như tạo nội dung mô tả hình ảnh hoặc xác định đối tượng trong hình ảnh
Nhúng văn bản Văn bản Nhúng văn bản Tạo nhúng văn bản co giãn với tới 768 kích thước cho văn bản có tối đa 2.048 mã thông báo
Nhúng Văn bản Nhúng văn bản Tạo nhúng văn bản với 768 phương diện cho văn bản,tối đa 2.048 mã thông báo
AQA (Chỉ số chất lượng không khí) Văn bản Văn bản Thực hiện các nhiệm vụ liên quan đến câu hỏi được phân bổ thay cho văn bản được cung cấp

Bảng sau đây mô tả các thuộc tính của mô hình Gemini phổ biến cho tất cả biến thể mô hình:

Thuộc tính Nội dung mô tả
Dữ liệu huấn luyện Điểm ngắt kiến thức của Gemini là đầu năm 2023. Kiến thức về các sự kiện sau thời gian đó bị hạn chế.
Ngôn ngữ được hỗ trợ Xem các ngôn ngữ được hỗ trợ
Thông số của mô hình có thể định cấu hình
  • Bàn trên cùng
  • K trên cùng
  • Nhiệt độ
  • Dừng trình tự
  • Thời lượng đầu ra tối đa
  • Số lượng ứng viên trả lời

Hãy xem phần tham số mô hình trong hướng dẫn về mô hình tạo sinh để biết thông tin về từng tham số này.

Gemini 1.5 Pro (Bản xem trước)

Gemini 1.5 Pro là một mô hình đa phương thức có kích thước trung bình được tối ưu hoá cho nhiều tác vụ lập luận như:

  • Tạo mã
  • Tạo văn bản
  • Chỉnh sửa văn bản
  • Giải quyết vấn đề
  • Tạo đề xuất
  • Trích xuất thông tin
  • Trích xuất hoặc tạo dữ liệu
  • Tạo nhân viên hỗ trợ AI

1.5 Pro có thể xử lý một lượng lớn dữ liệu cùng một lúc, bao gồm cả 1 giờ video, 9,5 giờ âm thanh, cơ sở mã với hơn 30.000 dòng mã hoặc hơn 700.000 từ.

Phiên bản 1.5 Pro có khả năng xử lý các tác vụ học tập một lần, một và vài lần.

Chi tiết mô hình

Tài sản Nội dung mô tả
Mã kiểu máy models/gemini-1.5-pro-latest
Thông tin đầu vào Âm thanh, hình ảnh và văn bản
Đầu ra Văn bản
Các phương thức tạo được hỗ trợ generateContent
Giới hạn mã thông báo đầu vào[**] 1.048.576
Giới hạn mã thông báo đầu ra[**] 8.192
Số lượng hình ảnh tối đa trong mỗi câu lệnh 3.600
Thời lượng video tối đa 1 giờ
Thời lượng âm thanh tối đa Khoảng 9,5 giờ
Số tệp âm thanh tối đa trong mỗi câu lệnh 1
Độ an toàn của mô hình Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu[*]
Miễn phí:
  • 2 vòng/phút
  • 32.000 TPM (Mô-đun nền tảng đáng tin cậy)
  • 50 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 vòng/phút
  • 10 triệu TPM
  • 10.000 RPD
  • 14.400.000.000 TPD
Hai triệu bối cảnh:
  • 1 vòng/phút
  • 2 triệu TPM (Mô-đun nền tảng đáng tin cậy)
  • 50 RPD
Hướng dẫn hệ thống Có thể làm
Chế độ JSON Có thể làm
Phiên bản mới nhất gemini-1.5-pro-latest
Phiên bản ổn định mới nhất gemini-1.5-pro
Thông tin cập nhật mới nhất Tháng 4 năm 2024

Flash Gemini 1.5 (Xem trước)

Gemini 1.5 Flash là một mô hình đa phương thức nhanh và linh hoạt để mở rộng quy mô trên nhiều tác vụ.

Chi tiết mô hình

Tài sản Nội dung mô tả
Mã kiểu máy gemini-1.5-flash
(Các) giá trị đầu vào Âm thanh, hình ảnh và văn bản
Đầu ra Văn bản
Các phương thức tạo được hỗ trợ generateContent
Giới hạn mã thông báo đầu vào[**] 1.048.576
Giới hạn mã thông báo đầu ra[**] 8.192
Số lượng hình ảnh tối đa trong mỗi câu lệnh 3.600
Thời lượng video tối đa 1 giờ
Thời lượng âm thanh tối đa Khoảng 9,5 giờ
Số tệp âm thanh tối đa trong mỗi câu lệnh 1
Độ an toàn của mô hình Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu[*]
Miễn phí:
  • 15 vòng/phút
  • 1 triệu TPM
  • 1.500 RPD
Pay-as-you-go:
  • 360 vòng/phút
  • 10 triệu TPM
  • 10.000 RPD
Hướng dẫn hệ thống Có thể làm
Chế độ JSON Có thể làm
Phiên bản mới nhất gemini-1.5-flash-latest
Phiên bản ổn định mới nhất gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro là một mô hình NLP giúp xử lý các nhiệm vụ như trò chuyện bằng văn bản và mã nhiều lượt cũng như tạo mã.

Phiên bản 1.0 Pro có khả năng xử lý các tác vụ học tập chỉ cần một lần hoặc một lần.

Chi tiết mô hình

Tài sản Nội dung mô tả
Mã kiểu máy models/gemini-pro
Đầu vào Văn bản
Đầu ra Văn bản
Các phương thức tạo được hỗ trợ
Python: generate_content
REST: generateContent
Giới hạn số lượng yêu cầu[*]
Miễn phí:
  • 15 vòng/phút
  • 32.000 TPM (Mô-đun nền tảng đáng tin cậy)
  • 1.500 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 vòng/phút
  • 120.000 TPM
  • 30.000 RPD
  • 172.800.000 TPD
Hướng dẫn hệ thống Không được hỗ trợ
Chế độ JSON Không được hỗ trợ
Phiên bản mới nhất gemini-1.0-pro-latest
Phiên bản ổn định mới nhất gemini-1.0-pro
Phiên bản ổn định gemini-1.0-pro-001
Thông tin cập nhật mới nhất Tháng 2 năm 2024

Tầm nhìn Gemini 1.0 Pro

Gemini 1.0 Pro Vision là một mô hình đa phương thức được tối ưu hoá hiệu suất, có thể thực hiện các công việc liên quan đến hình ảnh. Ví dụ: 1.0 Pro Vision có thể tạo nội dung mô tả hình ảnh, xác định đối tượng có trong hình ảnh, cung cấp thông tin về địa điểm hoặc đối tượng có trong hình ảnh, v.v.

1.0 Pro Vision có khả năng xử lý các tác vụ chỉ cần thực hiện một lần và một lần.

Chi tiết mô hình

Tài sản Nội dung mô tả
Mã kiểu máy models/gemini-pro-vision
Thông tin đầu vào Văn bản và hình ảnh
Đầu ra Văn bản
Các phương thức tạo được hỗ trợ
Python: generate_content
REST: generateContent
Giới hạn mã thông báo đầu vào[*] 12.288
Giới hạn mã thông báo đầu ra[*] 4.096
Kích thước hình ảnh tối đa Không giới hạn
Số lượng hình ảnh tối đa trong mỗi câu lệnh 16
Thời lượng video tối đa 2 phút
Số lượng video tối đa trong mỗi câu lệnh 1
Độ an toàn của mô hình Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu[*] 60 yêu cầu mỗi phút
Phiên bản mới nhất gemini-1.0-pro-vision-latest
Phiên bản ổn định mới nhất gemini-1.0-pro-vision
Thông tin cập nhật mới nhất Tháng 12 năm 2023

Nhúng và nhúng văn bản

Nhúng văn bản

Bạn có thể dùng mô hình Nhúng văn bản để tạo cách nhúng văn bản cho văn bản đầu vào. Để biết thêm thông tin về mô hình Nhúng văn bản, hãy xem tài liệu về AI tạo sinh trên Vertex AI về tính năng nhúng văn bản.

Mô hình Nhúng văn bản được tối ưu hoá để tạo nội dung nhúng với 768 kích thước cho văn bản của tối đa 2.048 mã thông báo. Tính năng Nhúng văn bản cung cấp kích thước nhúng linh hoạt dưới 768. Bạn có thể sử dụng phương thức nhúng đàn hồi để tạo kích thước đầu ra nhỏ hơn và có thể tiết kiệm chi phí tính toán cũng như lưu trữ mà chỉ mất một chút hiệu suất.

Chi tiết mô hình
Tài sản Nội dung mô tả
Mã kiểu máy models/text-embedding-004 (text-embedding-preview-0409 trong Vertex AI)
Đầu vào Văn bản
Đầu ra Nhúng văn bản
Giới hạn mã thông báo đầu vào 2.048
Kích thước kích thước đầu ra 768
Các phương thức tạo được hỗ trợ
Python: embed_content
REST: embedContent
Độ an toàn của mô hình Không có chế độ cài đặt an toàn nào có thể điều chỉnh.
Giới hạn số lượng yêu cầu[*] 1.500 yêu cầu mỗi phút
Thông tin cập nhật mới nhất Tháng 4 năm 2024

Nhúng

Bạn có thể dùng mô hình Nhúng để tạo nội dung nhúng văn bản cho văn bản đầu vào.

Mô hình Nhúng được tối ưu hoá để tạo nội dung nhúng với 768 kích thước cho văn bản của tối đa 2.048 mã thông báo.

Nhúng chi tiết mô hình
Tài sản Nội dung mô tả
Mã kiểu máy models/embedding-001
Đầu vào Văn bản
Đầu ra Nhúng văn bản
Giới hạn mã thông báo đầu vào 2.048
Kích thước kích thước đầu ra 768
Các phương thức tạo được hỗ trợ
Python: embed_content
REST: embedContent
Độ an toàn của mô hình Không có chế độ cài đặt an toàn nào có thể điều chỉnh.
Giới hạn số lượng yêu cầu[*] 1.500 yêu cầu mỗi phút
Thông tin cập nhật mới nhất Tháng 12 năm 2023

AQA (Chỉ số chất lượng không khí)

Bạn có thể sử dụng mô hình AQA để thực hiện các nhiệm vụ liên quan đến Câu hỏi được phân bổ (AQA) trên một tài liệu, tập sao lục hoặc một tập hợp các đoạn văn. Mô hình AQA trả về câu trả lời cho các câu hỏi dựa trên các nguồn đã cho, cùng với việc ước tính xác suất có thể trả lời.

Chi tiết mô hình

Tài sản Nội dung mô tả
Mã kiểu máy models/aqa
Đầu vào Văn bản
Đầu ra Văn bản
Các phương thức tạo được hỗ trợ
Python: GenerateAnswerRequest
REST: generateAnswer
Ngôn ngữ được hỗ trợ Tiếng Anh
Giới hạn mã thông báo đầu vào[**] 7.168
Giới hạn mã thông báo đầu ra[**] 1.024
Độ an toàn của mô hình Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu[*] 60 yêu cầu mỗi phút
Thông tin cập nhật mới nhất Tháng 12 năm 2023

Hãy xem ví dụ để khám phá khả năng của các biến thể mô hình này.

[*] Mã thông báo tương đương với khoảng 4 ký tự đối với các mô hình Gemini. 100 mã thông báo chứa khoảng 60-80 từ tiếng Anh.

[**] RPM: Số yêu cầu mỗi phút
TPM: Số mã thông báo mỗi phút
RPD: Số yêu cầu mỗi ngày
TPD: Số mã thông báo mỗi ngày

Do giới hạn về hạn mức, chúng tôi không đảm bảo giới hạn số lượng mã thông báo tối đa đã chỉ định.

Mẫu tên phiên bản của mô hình

Các mô hình Gemini có phiên bản xem trước hoặc ổn định. Trong mã của mình, bạn có thể sử dụng một trong các định dạng tên mô hình sau đây để chỉ định mô hình và phiên bản mà bạn muốn sử dụng.

  • Mới nhất: Trỏ đến phiên bản tiên tiến của mô hình cho một thế hệ và biến thể cụ thể. Mô hình cơ bản được cập nhật thường xuyên và có thể là phiên bản xem trước. Chỉ các ứng dụng thử nghiệm khám phá và nguyên mẫu mới được sử dụng bí danh này.

    Để chỉ định phiên bản mới nhất, hãy sử dụng mẫu sau: <model>-<generation>-<variation>-latest. Ví dụ: gemini-1.0-pro-latest.

  • Ổn định mới nhất:Trỏ đến phiên bản ổn định gần đây nhất được phát hành cho biến thể và mô hình được chỉ định.

    Để chỉ định phiên bản ổn định mới nhất, hãy sử dụng mẫu sau: <model>-<generation>-<variation>. Ví dụ: gemini-1.0-pro.

  • Ổn định: Trỏ đến một mô hình ổn định cụ thể. Mô hình ổn định sẽ không thay đổi. Hầu hết các ứng dụng chính thức nên sử dụng mô hình ổn định cụ thể.

    Để chỉ định một phiên bản ổn định, hãy sử dụng mẫu sau: <model>-<generation>-<variation>-<version>. Ví dụ: gemini-1.0-pro-001.