Gemini

Gemini là một dòng mô hình AI tạo sinh cho phép nhà phát triển tạo nội dung và giải quyết vấn đề. Các mô hình này được thiết kế và huấn luyện để xử lý cả văn bản và hình ảnh làm dữ liệu đầu vào. Hướng dẫn này cung cấp thông tin về từng biến thể mô hình để giúp bạn quyết định biến thể nào phù hợp nhất với trường hợp sử dụng của mình.

Biến thể mô hình

API Gemini cung cấp nhiều mô hình được tối ưu hoá cho những trường hợp sử dụng cụ thể. Dưới đây là thông tin tổng quan ngắn gọn về các biến thể Gemini có sẵn:

Biến thể mô hình (Các) giá trị đầu vào Đầu ra Được tối ưu hoá cho
Gemini 1.5 Pro
gemini-1.5-pro
Âm thanh, hình ảnh, video và văn bản Văn bản Các tác vụ lập luận phức tạp như tạo mã và văn bản, chỉnh sửa văn bản, giải quyết vấn đề, trích xuất và tạo dữ liệu
Gemini 1.5 Flash
gemini-1.5-flash
Âm thanh, hình ảnh, video và văn bản Văn bản Hiệu suất nhanh chóng và linh hoạt cho nhiều nhiệm vụ
Gemini 1.0 Pro
gemini-1.0-pro
Văn bản Văn bản Các nhiệm vụ về ngôn ngữ tự nhiên, trò chuyện bằng văn bản và mã nhiều lượt, cũng như tạo mã
Gemini 1.0 Pro Vision
gemini-pro-vision
Hình ảnh, video và văn bản Văn bản Các công việc liên quan đến hình ảnh, chẳng hạn như tạo nội dung mô tả hình ảnh hoặc xác định đối tượng trong hình ảnh
Nhúng văn bản
text-embedding-004
Văn bản Nhúng văn bản Đo lường mức độ liên quan của chuỗi văn bản

Bảng sau đây mô tả các thuộc tính của mô hình Gemini phổ biến cho tất cả biến thể mô hình:

Thuộc tính Nội dung mô tả
Dữ liệu huấn luyện Hạn chót nhận kiến thức của Gemini là tháng 11 năm 2023. Kiến thức về các sự kiện sau thời gian đó bị hạn chế.
Ngôn ngữ được hỗ trợ Xem các ngôn ngữ được hỗ trợ
Thông số của mô hình có thể định cấu hình
  • Bàn trên cùng
  • K trên cùng
  • Nhiệt độ
  • Dừng trình tự
  • Thời lượng đầu ra tối đa
  • Số lượng ứng viên trả lời

Hãy xem phần tham số mô hình trong hướng dẫn về mô hình tạo sinh để biết thông tin về từng tham số này.

Gemini 1.5 Pro

Gemini 1.5 Pro là một mô hình đa phương thức có kích thước trung bình được tối ưu hoá cho nhiều tác vụ lập luận như:

  • Tạo mã
  • Tạo văn bản
  • Chỉnh sửa văn bản
  • Giải quyết vấn đề
  • Tạo đề xuất
  • Trích xuất thông tin
  • Trích xuất hoặc tạo dữ liệu
  • Tạo nhân viên hỗ trợ AI

1.5 Pro có thể xử lý một lượng lớn dữ liệu cùng một lúc, bao gồm cả 1 giờ video, 9,5 giờ âm thanh, cơ sở mã với hơn 30.000 dòng mã hoặc hơn 700.000 từ.

Phiên bản 1.5 Pro có khả năng xử lý các tác vụ học tập một lần, một và vài lần.

Chi tiết mô hình

Tài sản Nội dung mô tả
Mã kiểu máy models/gemini-1.5-pro-latest
Thông tin đầu vào Âm thanh, hình ảnh, video và văn bản
Đầu ra Văn bản
Các phương thức tạo được hỗ trợ generateContent
Giới hạn mã thông báo đầu vào[**] 1.048.576
Giới hạn mã thông báo đầu ra[**] 8.192
Số lượng hình ảnh tối đa trong mỗi câu lệnh 3.600
Thời lượng video tối đa 1 giờ
Thời lượng âm thanh tối đa Khoảng 9,5 giờ
Số tệp âm thanh tối đa trong mỗi câu lệnh 1
Độ an toàn của mô hình Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu[*]
Miễn phí:
  • 2 vòng/phút
  • 32.000 TPM (Mô-đun nền tảng đáng tin cậy)
  • 50 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 vòng/phút
  • 2 triệu TPM (Mô-đun nền tảng đáng tin cậy)
  • 10.000 RPD
  • 14.400.000.000 TPD
Hai triệu bối cảnh:
  • 1 vòng/phút
  • 2 triệu TPM (Mô-đun nền tảng đáng tin cậy)
  • 50 RPD
Hướng dẫn hệ thống Có thể làm
Chế độ JSON Có thể làm
Phiên bản mới nhất gemini-1.5-pro-latest
Phiên bản ổn định mới nhất gemini-1.5-pro
Phiên bản ổn định gemini-1.5-pro-001
Thông tin cập nhật mới nhất Tháng 5/2024

Đèn flash Gemini 1.5

Gemini 1.5 Flash là một mô hình đa phương thức nhanh và linh hoạt để mở rộng quy mô trên nhiều tác vụ.

Chi tiết mô hình

Tài sản Nội dung mô tả
Mã kiểu máy gemini-1.5-flash-latest
(Các) giá trị đầu vào Âm thanh, hình ảnh, video và văn bản
Đầu ra Văn bản
Các phương thức tạo được hỗ trợ generateContent
Giới hạn mã thông báo đầu vào[**] 1.048.576
Giới hạn mã thông báo đầu ra[**] 8.192
Số lượng hình ảnh tối đa trong mỗi câu lệnh 3.600
Thời lượng video tối đa 1 giờ
Thời lượng âm thanh tối đa Khoảng 9,5 giờ
Số tệp âm thanh tối đa trong mỗi câu lệnh 1
Độ an toàn của mô hình Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu[*]
Miễn phí:
  • 15 vòng/phút
  • 1 triệu TPM
  • 1.500 RPD
Pay-as-you-go:
  • 1.000 vòng/phút
  • 2 triệu TPM (Mô-đun nền tảng đáng tin cậy)
Hướng dẫn hệ thống Có thể làm
Chế độ JSON Có thể làm
Điều chỉnh mô hình Sắp có
Phiên bản mới nhất gemini-1.5-flash-latest
Phiên bản ổn định mới nhất gemini-1.5-flash
Phiên bản ổn định gemini-1.5-flash-001
Thông tin cập nhật mới nhất Tháng 5/2024

Gemini 1.0 Pro

Gemini 1.0 Pro là một mô hình NLP giúp xử lý các nhiệm vụ như trò chuyện bằng văn bản và mã nhiều lượt cũng như tạo mã.

Phiên bản 1.0 Pro có khả năng xử lý các tác vụ học tập chỉ cần một lần hoặc một lần.

Chi tiết mô hình

Tài sản Nội dung mô tả
Mã kiểu máy models/gemini-1.0-pro
Đầu vào Văn bản
Đầu ra Văn bản
Các phương thức tạo được hỗ trợ
Python: generate_content
REST: generateContent
Giới hạn số lượng yêu cầu[*]
Miễn phí:
  • 15 vòng/phút
  • 32.000 TPM (Mô-đun nền tảng đáng tin cậy)
  • 1.500 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 vòng/phút
  • 120.000 TPM
  • 30.000 RPD
  • 172.800.000 TPD
Hướng dẫn hệ thống Không được hỗ trợ
Chế độ JSON Không được hỗ trợ
Điều chỉnh mô hình Hỗ trợ: gemini-1.0-pro-001
Phiên bản mới nhất gemini-1.0-pro-latest
Phiên bản ổn định mới nhất gemini-1.0-pro
Phiên bản ổn định gemini-1.0-pro-001
Thông tin cập nhật mới nhất Tháng 2 năm 2024

Tầm nhìn Gemini 1.0 Pro

Gemini 1.0 Pro Vision là một mô hình đa phương thức được tối ưu hoá hiệu suất, có thể thực hiện các công việc liên quan đến hình ảnh. Ví dụ: 1.0 Pro Vision có thể tạo nội dung mô tả hình ảnh, xác định đối tượng có trong hình ảnh, cung cấp thông tin về địa điểm hoặc đối tượng có trong hình ảnh, v.v.

1.0 Pro Vision có khả năng xử lý các tác vụ chỉ cần thực hiện một lần và một lần.

Chi tiết mô hình

Tài sản Nội dung mô tả
Mã kiểu máy models/gemini-pro-vision
Thông tin đầu vào Văn bản, video và hình ảnh
Đầu ra Văn bản
Các phương thức tạo được hỗ trợ
Python: generate_content
REST: generateContent
Giới hạn mã thông báo đầu vào[*] 12.288
Giới hạn mã thông báo đầu ra[*] 4.096
Kích thước hình ảnh tối đa Không giới hạn
Số lượng hình ảnh tối đa trong mỗi câu lệnh 16
Thời lượng video tối đa 2 phút
Số lượng video tối đa trong mỗi câu lệnh 1
Độ an toàn của mô hình Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu[*] 60 yêu cầu mỗi phút
Phiên bản mới nhất gemini-1.0-pro-vision-latest
Phiên bản ổn định mới nhất gemini-1.0-pro-vision
Thông tin cập nhật mới nhất Tháng 12 năm 2023

Nhúng và nhúng văn bản

Nhúng văn bản

Bạn có thể dùng mô hình Nhúng văn bản để tạo cách nhúng văn bản cho văn bản đầu vào. Để biết thêm thông tin về mô hình Nhúng văn bản, hãy xem tài liệu về AI tạo sinh trên Vertex AI về tính năng nhúng văn bản.

Mô hình Nhúng văn bản được tối ưu hoá để tạo nội dung nhúng với 768 kích thước cho văn bản của tối đa 2.048 mã thông báo. Tính năng Nhúng văn bản cung cấp kích thước nhúng linh hoạt dưới 768. Bạn có thể sử dụng phương thức nhúng đàn hồi để tạo kích thước đầu ra nhỏ hơn và có thể tiết kiệm chi phí tính toán cũng như lưu trữ mà chỉ mất một chút hiệu suất.

Chi tiết mô hình
Tài sản Nội dung mô tả
Mã kiểu máy models/text-embedding-004 (text-embedding-preview-0409 trong Vertex AI)
Đầu vào Văn bản
Đầu ra Nhúng văn bản
Giới hạn mã thông báo đầu vào 2.048
Kích thước kích thước đầu ra 768
Các phương thức tạo được hỗ trợ
Python: embed_content
REST: embedContent
Độ an toàn của mô hình Không có chế độ cài đặt an toàn nào có thể điều chỉnh.
Giới hạn số lượng yêu cầu[*] 1.500 yêu cầu mỗi phút
Thông tin cập nhật mới nhất Tháng 4 năm 2024

Nhúng

Bạn có thể dùng mô hình Nhúng để tạo nội dung nhúng văn bản cho văn bản đầu vào.

Mô hình Nhúng được tối ưu hoá để tạo nội dung nhúng với 768 kích thước cho văn bản của tối đa 2.048 mã thông báo.

Nhúng chi tiết mô hình
Tài sản Nội dung mô tả
Mã kiểu máy models/embedding-001
Đầu vào Văn bản
Đầu ra Nhúng văn bản
Giới hạn mã thông báo đầu vào 2.048
Kích thước kích thước đầu ra 768
Các phương thức tạo được hỗ trợ
Python: embed_content
REST: embedContent
Độ an toàn của mô hình Không có chế độ cài đặt an toàn nào có thể điều chỉnh.
Giới hạn số lượng yêu cầu[*] 1.500 yêu cầu mỗi phút
Thông tin cập nhật mới nhất Tháng 12 năm 2023

AQA (Chỉ số chất lượng không khí)

Bạn có thể sử dụng mô hình AQA để thực hiện các nhiệm vụ liên quan đến Câu hỏi được phân bổ (AQA) trên một tài liệu, tập sao lục hoặc một tập hợp các đoạn văn. Mô hình AQA trả về câu trả lời cho các câu hỏi dựa trên các nguồn đã cho, cùng với việc ước tính xác suất có thể trả lời.

Chi tiết mô hình

Tài sản Nội dung mô tả
Mã kiểu máy models/aqa
Đầu vào Văn bản
Đầu ra Văn bản
Các phương thức tạo được hỗ trợ
Python: GenerateAnswerRequest
REST: generateAnswer
Ngôn ngữ được hỗ trợ Tiếng Anh
Giới hạn mã thông báo đầu vào[**] 7.168
Giới hạn mã thông báo đầu ra[**] 1.024
Độ an toàn của mô hình Các chế độ cài đặt an toàn được áp dụng tự động mà nhà phát triển có thể điều chỉnh. Hãy xem trang về chế độ cài đặt an toàn để biết thông tin chi tiết.
Giới hạn số lượng yêu cầu[*] 60 yêu cầu mỗi phút
Thông tin cập nhật mới nhất Tháng 12 năm 2023

Hãy xem ví dụ để khám phá khả năng của các biến thể mô hình này.

[*] Mã thông báo tương đương với khoảng 4 ký tự đối với các mô hình Gemini. 100 mã thông báo chứa khoảng 60-80 từ tiếng Anh.

[**] RPM: Số yêu cầu mỗi phút
TPM: Số mã thông báo mỗi phút
RPD: Số yêu cầu mỗi ngày
TPD: Số mã thông báo mỗi ngày

Do giới hạn về hạn mức, chúng tôi không đảm bảo giới hạn số lượng mã thông báo tối đa đã chỉ định.

Mẫu tên phiên bản của mô hình

Các mô hình Gemini có phiên bản xem trước hoặc ổn định. Trong mã của mình, bạn có thể sử dụng một trong các định dạng tên mô hình sau đây để chỉ định mô hình và phiên bản mà bạn muốn sử dụng.

  • Mới nhất: Trỏ đến phiên bản tiên tiến của mô hình cho một thế hệ và biến thể cụ thể. Mô hình cơ bản được cập nhật thường xuyên và có thể là phiên bản xem trước. Chỉ các ứng dụng thử nghiệm khám phá và nguyên mẫu mới được sử dụng bí danh này.

    Để chỉ định phiên bản mới nhất, hãy sử dụng mẫu sau: <model>-<generation>-<variation>-latest. Ví dụ: gemini-1.0-pro-latest.

  • Ổn định mới nhất:Trỏ đến phiên bản ổn định gần đây nhất được phát hành cho biến thể và mô hình được chỉ định.

    Để chỉ định phiên bản ổn định mới nhất, hãy sử dụng mẫu sau: <model>-<generation>-<variation>. Ví dụ: gemini-1.0-pro.

  • Ổn định: Trỏ đến một mô hình ổn định cụ thể. Mô hình ổn định sẽ không thay đổi. Hầu hết các ứng dụng chính thức nên sử dụng mô hình ổn định cụ thể.

    Để chỉ định một phiên bản ổn định, hãy sử dụng mẫu sau: <model>-<generation>-<variation>-<version>. Ví dụ: gemini-1.0-pro-001.

Ngôn ngữ hỗ trợ

Các mô hình Gemini được huấn luyện để hoạt động với các ngôn ngữ sau:

  • Tiếng Ả Rập (ar)
  • Tiếng Bengali (bn)
  • Tiếng Bulgaria (bg)
  • Tiếng Trung giản thể và phồn thể (zh)
  • Tiếng Croatia (hr)
  • Tiếng Séc (cs)
  • Tiếng Đan Mạch (da)
  • Tiếng Hà Lan (nl)
  • Tiếng Anh (en),
  • Tiếng Estonia (et)
  • Tiếng Phần Lan (fi)
  • Tiếng Pháp (fr)
  • Tiếng Đức (de)
  • Tiếng Hy Lạp (el)
  • Tiếng Do Thái (iw)
  • Tiếng Hindi (hi)
  • Tiếng Hungary (hu)
  • Tiếng Indonesia (id)
  • Tiếng Ý (it)
  • Tiếng Nhật (ja)
  • Tiếng Hàn (ko)
  • Tiếng Latvia (lv),
  • Tiếng Lithuania (lt)
  • Tiếng Na Uy (no)
  • Tiếng Ba Lan (pl)
  • Tiếng Bồ Đào Nha (pt)
  • Tiếng Romania (ro)
  • Tiếng Nga (ru)
  • Tiếng Serbia (sr)
  • Tiếng Slovak (sk)
  • Tiếng Slovenia (sl)
  • Tiếng Tây Ban Nha (es)
  • Tiếng Swahili (sw)
  • Tiếng Thuỵ Điển (sv)
  • Tiếng Thái (th)
  • Tiếng Thổ Nhĩ Kỳ (tr)
  • Tiếng Ukraina (uk)
  • Tiếng Việt (vi)