Gemini

Gemini là một dòng mô hình AI tạo sinh cho phép nhà phát triển tạo nội dung và giải quyết vấn đề. Các mô hình này được thiết kế và huấn luyện để xử lý cả văn bản và hình ảnh dưới dạng dữ liệu đầu vào. Hướng dẫn này cung cấp thông tin về từng biến thể mô hình để giúp bạn quyết định biến thể nào phù hợp nhất với trường hợp sử dụng của mình.

Ngôn ngữ hỗ trợ

Các mô hình Gemini được huấn luyện để sử dụng những ngôn ngữ sau: Tiếng Ả Rập (ar/Tiếng Serbia} (Tiếng Serbia/Tiếng Serbia), tiếng Bulgaria (bg), tiếng Trung giản thể và tiếng phồn thể (zh), tiếng Croatia (hr), tiếng Séc (cs), tiếng Đan Mạch (da), tiếng Hà Lan (nl), tiếng Anh (en), tiếng Estonian (et), tiếng Phần Lan (fi), tiếng Pháp (fr), tiếng Đức (de), tiếng Hy Lạp (el), tiếng Hindibniwhihuiditjakolvltnoplptrorusrskslesswsvthtrukvi

Mô hình PaLM chỉ hoạt động tốt với tiếng Anh. Việc sử dụng các ngôn ngữ khác có thể mang lại kết quả không mong muốn.

Biến thể mô hình

Gemini API cung cấp nhiều mô hình được tối ưu hoá cho các trường hợp sử dụng cụ thể. Dưới đây là thông tin tổng quan ngắn gọn về các biến thể hiện có của Gemini:

Biến thể của mô hình (Các) dữ liệu đầu vào Đầu ra Được tối ưu hoá cho
Gemini 1.5 Pro (Bản xem trước) Âm thanh, hình ảnh, video và văn bản Văn bản Các nhiệm vụ lý luận bao gồm (nhưng không giới hạn ở) tạo mã và văn bản, chỉnh sửa văn bản, giải quyết vấn đề, trích xuất và tạo dữ liệu
Gemini 1.5 Flash (Xem trước) Âm thanh, hình ảnh, video và văn bản Văn bản Hiệu suất nhanh chóng và linh hoạt trong nhiều tác vụ đa dạng
Gemini 1.0 Pro Văn bản Văn bản Các nhiệm vụ bằng ngôn ngữ tự nhiên, trò chuyện bằng văn bản nhiều lượt, lập trình và tạo mã
Tầm nhìn của Gemini 1.0 Pro Hình ảnh, video và văn bản Văn bản Hiệu suất được tối ưu hoá cho các công việc liên quan đến hình ảnh, chẳng hạn như tạo nội dung mô tả hình ảnh hoặc xác định các đối tượng trong hình ảnh
Nhúng văn bản Văn bản Nhúng văn bản Tạo các mục nhúng văn bản đàn hồi với tối đa 768 kích thước cho văn bản có tối đa 2.048 mã thông báo
Nhúng Văn bản Nhúng văn bản Tạo các mục nhúng văn bản có 768 phương diện cho văn bản tối đa 2.048 mã thông báo
AQA (Chỉ số sức khoẻ theo chất lượng không khí) Văn bản Văn bản Thực hiện các nhiệm vụ liên quan đến câu trả lời câu hỏi được phân bổ so với văn bản đã cung cấp

Bảng sau đây mô tả những thuộc tính phổ biến của các mô hình Gemini đối với tất cả biến thể của mô hình:

Thuộc tính Nội dung mô tả
Dữ liệu huấn luyện Gemini sẽ bị hạn chế thông tin nhận thức từ đầu năm 2023. Kiến thức về các sự kiện sau khoảng thời gian đó bị giới hạn.
Ngôn ngữ được hỗ trợ Xem các ngôn ngữ được hỗ trợ
Tham số mô hình có thể định cấu hình
  • P trên cùng
  • K hàng đầu
  • Nhiệt độ
  • Dừng trình tự
  • Độ dài đầu ra tối đa
  • Số lượng câu trả lời đề xuất

Hãy xem mục thông số mô hình trong hướng dẫn về mô hình tạo sinh để biết thông tin về từng thông số trong số này.

Gemini 1.5 Pro (Bản xem trước)

Gemini 1.5 Pro là một mô hình đa phương thức có kích thước trung bình, được tối ưu hoá cho nhiều nhiệm vụ lập luận khác nhau, chẳng hạn như:

  • Tạo mã
  • Tạo văn bản
  • Chỉnh sửa văn bản
  • Giải quyết vấn đề
  • Tạo đề xuất
  • Trích xuất thông tin
  • Trích xuất hoặc tạo dữ liệu
  • Tạo tác nhân AI

1.5 Pro có thể xử lý một lượng lớn dữ liệu cùng một lúc, trong đó có 1 giờ video, 9,5 giờ âm thanh, cơ sở mã với hơn 30.000 dòng mã hoặc hơn 700.000 từ.

1.5 Pro có thể xử lý các nhiệm vụ học tập không xảy ra một lần, một vài lần và chỉ một vài lần.

Chi tiết mô hình

Tài sản Nội dung mô tả
Mã kiểu máy models/gemini-1.5-pro-latest
Thông tin đầu vào Âm thanh, hình ảnh, video và văn bản
Đầu ra Văn bản
Các phương thức tạo được hỗ trợ generateContent
Giới hạn mã thông báo đầu vào[**] 1.048.576
Giới hạn mã thông báo đầu ra[**] 8.192
Số hình ảnh tối đa cho mỗi câu lệnh 3.600
Thời lượng video tối đa 1 giờ
Thời lượng âm thanh tối đa Khoảng 9,5 giờ
Số tệp âm thanh tối đa cho mỗi câu lệnh 1
An toàn cho mô hình Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về các chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu[*]
Miễn phí:
  • 2 vòng/phút
  • 32.000 TPM (Mô-đun nền tảng đáng tin cậy)
  • 50 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 vòng/phút
  • 10 triệu TPM
  • 10.000 RPD
  • 14.400.000.000 TPD
Hai triệu bối cảnh:
  • 1 vòng/phút
  • 2 triệu TPM (Mô-đun nền tảng đáng tin cậy)
  • 50 RPD
Hướng dẫn hệ thống Có thể làm
Chế độ JSON Có thể làm
Phiên bản mới nhất gemini-1.5-pro-latest
Phiên bản ổn định mới nhất gemini-1.5-pro
Bản cập nhật mới nhất Tháng 4 năm 2024

Gemini 1.5 Flash (Xem trước)

Gemini 1.5 Flash là một mô hình đa phương thức nhanh và linh hoạt để mở rộng quy mô thực hiện nhiều nhiệm vụ.

Chi tiết mô hình

Tài sản Nội dung mô tả
Mã kiểu máy gemini-1.5-flash-latest
(Các) dữ liệu đầu vào Âm thanh, hình ảnh, video và văn bản
Đầu ra Văn bản
Các phương thức tạo được hỗ trợ generateContent
Giới hạn mã thông báo đầu vào[**] 1.048.576
Giới hạn mã thông báo đầu ra[**] 8.192
Số hình ảnh tối đa cho mỗi câu lệnh 3.600
Thời lượng video tối đa 1 giờ
Thời lượng âm thanh tối đa Khoảng 9,5 giờ
Số tệp âm thanh tối đa cho mỗi câu lệnh 1
An toàn cho mô hình Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về các chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu[*]
Miễn phí:
  • 15 vòng/phút
  • 1 triệu TPM
  • 1.500 RPD
Pay-as-you-go:
  • 360 vòng/phút
  • 10 triệu TPM
  • 10.000 RPD
Hướng dẫn hệ thống Có thể làm
Chế độ JSON Có thể làm
Phiên bản mới nhất gemini-1.5-flash-latest
Phiên bản ổn định mới nhất gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro là một mô hình NLP xử lý các công việc như trò chuyện bằng văn bản nhiều lượt, trò chuyện mã cũng như tạo mã.

1.0 Pro có thể xử lý các nhiệm vụ học tập không xảy ra một lần, một vài lần và chỉ một vài lần.

Chi tiết mô hình

Tài sản Nội dung mô tả
Mã kiểu máy models/gemini-pro
Đầu vào Văn bản
Đầu ra Văn bản
Các phương thức tạo được hỗ trợ
Python: generate_content
REST: generateContent
Giới hạn số lượng yêu cầu[*]
Miễn phí:
  • 15 vòng/phút
  • 32.000 TPM (Mô-đun nền tảng đáng tin cậy)
  • 1.500 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 vòng/phút
  • 120.000 TPM
  • 30.000 RPD
  • 172.800.000 TPD
Hướng dẫn hệ thống Không được hỗ trợ
Chế độ JSON Không được hỗ trợ
Phiên bản mới nhất gemini-1.0-pro-latest
Phiên bản ổn định mới nhất gemini-1.0-pro
Phiên bản ổn định gemini-1.0-pro-001
Bản cập nhật mới nhất Tháng 2 năm 2024

Tầm nhìn Gemini 1.0 Pro

Gemini 1.0 Pro Vision là một mô hình đa phương thức được tối ưu hoá hiệu suất, có thể thực hiện các công việc liên quan đến hình ảnh. Ví dụ: 1.0 Pro Vision có thể tạo nội dung mô tả hình ảnh, xác định các đối tượng có trong hình ảnh, cung cấp thông tin về địa điểm hoặc đối tượng có trong hình ảnh, v.v.

1.0 Pro Vision có thể xử lý các tác vụ chụp một lần, không bắn một lần và bắn vài lần.

Chi tiết mô hình

Tài sản Nội dung mô tả
Mã kiểu máy models/gemini-pro-vision
Thông tin đầu vào Văn bản, video và hình ảnh
Đầu ra Văn bản
Các phương thức tạo được hỗ trợ
Python: generate_content
REST: generateContent
Giới hạn mã thông báo đầu vào[*] 12.288
Giới hạn mã thông báo đầu ra[*] 4.096
Kích thước hình ảnh tối đa Không giới hạn
Số hình ảnh tối đa cho mỗi câu lệnh 16
Thời lượng video tối đa 2 phút
Số lượng video tối đa cho mỗi câu lệnh 1
An toàn cho mô hình Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về các chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu[*] 60 yêu cầu mỗi phút
Phiên bản mới nhất gemini-1.0-pro-vision-latest
Phiên bản ổn định mới nhất gemini-1.0-pro-vision
Bản cập nhật mới nhất Tháng 12 năm 2023

Nhúng và nhúng văn bản

Nhúng văn bản

Bạn có thể sử dụng mô hình Nhúng văn bản để tạo các mục nhúng văn bản cho văn bản đầu vào. Để biết thêm thông tin về mô hình Nhúng văn bản, vui lòng xem tài liệu về AI tạo sinh trên Vertex AI về tính năng nhúng văn bản.

Mô hình Nhúng văn bản được tối ưu hoá để tạo các mục nhúng có 768 chiều cho văn bản tối đa 2.048 mã thông báo. Tính năng Nhúng văn bản cung cấp các kích thước nhúng đàn hồi dưới 768 ký tự. Bạn có thể sử dụng các tính năng nhúng đàn hồi để tạo ra các kích thước đầu ra nhỏ hơn và có thể tiết kiệm chi phí tính toán cũng như lưu trữ mà hiệu suất giảm đi một chút.

Chi tiết mô hình
Tài sản Nội dung mô tả
Mã kiểu máy models/text-embedding-004 (text-embedding-preview-0409 trong Vertex AI)
Đầu vào Văn bản
Đầu ra Nhúng văn bản
Giới hạn mã thông báo đầu vào 2.048
Kích thước phương diện đầu ra 768
Các phương thức tạo được hỗ trợ
Python: embed_content
REST: embedContent
An toàn cho mô hình Không có chế độ cài đặt an toàn nào có thể điều chỉnh.
Giới hạn số lượng yêu cầu[*] 1.500 yêu cầu mỗi phút
Bản cập nhật mới nhất Tháng 4 năm 2024

Nhúng

Bạn có thể sử dụng mô hình Nhúng để tạo các mục nhúng văn bản cho văn bản đầu vào.

Mô hình Nhúng được tối ưu hoá để tạo các mục nhúng có 768 chiều cho văn bản tối đa 2.048 mã thông báo.

Chi tiết mô hình nhúng
Tài sản Nội dung mô tả
Mã kiểu máy models/embedding-001
Đầu vào Văn bản
Đầu ra Nhúng văn bản
Giới hạn mã thông báo đầu vào 2.048
Kích thước phương diện đầu ra 768
Các phương thức tạo được hỗ trợ
Python: embed_content
REST: embedContent
An toàn cho mô hình Không có chế độ cài đặt an toàn nào có thể điều chỉnh.
Giới hạn số lượng yêu cầu[*] 1.500 yêu cầu mỗi phút
Bản cập nhật mới nhất Tháng 12 năm 2023

AQA (Chỉ số sức khoẻ theo chất lượng không khí)

Bạn có thể sử dụng mô hình AQA để thực hiện các thao tác liên quan đến Trả lời câu hỏi được phân bổ (AQA) trên một tài liệu, tập sao lục hoặc một nhóm đoạn văn. Mô hình AQA trả về câu trả lời cho các câu hỏi dựa trên các nguồn đã cung cấp, cùng với việc ước tính xác suất có thể trả lời.

Chi tiết mô hình

Tài sản Nội dung mô tả
Mã kiểu máy models/aqa
Đầu vào Văn bản
Đầu ra Văn bản
Các phương thức tạo được hỗ trợ
Python: GenerateAnswerRequest
REST: generateAnswer
Ngôn ngữ được hỗ trợ Tiếng Anh
Giới hạn mã thông báo đầu vào[**] 7.168
Giới hạn mã thông báo đầu ra[**] 1.024
An toàn cho mô hình Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về các chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu[*] 60 yêu cầu mỗi phút
Bản cập nhật mới nhất Tháng 12 năm 2023

Hãy xem ví dụ để khám phá khả năng của các biến thể mô hình này.

[*] Một mã thông báo tương đương với khoảng 4 ký tự đối với mô hình Gemini. 100 mã thông báo tương đương với khoảng 60 – 80 từ tiếng Anh.

[**] RPM: Số yêu cầu mỗi phút
TPM: Số mã thông báo mỗi phút
RPD: Số yêu cầu mỗi ngày
TPD: Số mã thông báo mỗi ngày

Do giới hạn về dung lượng, chúng tôi không đảm bảo giới hạn số lần yêu cầu tối đa được chỉ định.

Mẫu tên phiên bản mô hình

Các mô hình Gemini có sẵn ở phiên bản bản xem trước hoặc phiên bản chính thức. Trong mã của mình, bạn có thể sử dụng một trong các định dạng tên mô hình sau để chỉ định mô hình và phiên bản bạn muốn sử dụng.

  • Mới nhất: Trỏ đến phiên bản tiên tiến của mô hình cho một thế hệ và biến thể cụ thể. Mô hình cơ bản được cập nhật thường xuyên và có thể là phiên bản xem trước. Chỉ các ứng dụng và nguyên mẫu thử nghiệm thăm dò mới nên sử dụng bí danh này.

    Để chỉ định phiên bản mới nhất, hãy sử dụng mẫu sau: <model>-<generation>-<variation>-latest. Ví dụ: gemini-1.0-pro-latest.

  • Bản ổn định mới nhất: Trỏ đến phiên bản ổn định mới nhất được phát hành cho quá trình tạo mô hình và biến thể đã chỉ định.

    Để chỉ định phiên bản ổn định mới nhất, hãy sử dụng mẫu sau: <model>-<generation>-<variation>. Ví dụ: gemini-1.0-pro.

  • Ổn định: Trỏ tới một mô hình ổn định cụ thể. Mô hình ổn định không thay đổi. Hầu hết ứng dụng chính thức nên sử dụng một mô hình ổn định cụ thể.

    Để chỉ định một phiên bản ổn định, hãy sử dụng mẫu sau: <model>-<generation>-<variation>-<version>. Ví dụ: gemini-1.0-pro-001.