Gemini

ตัวแปรของรุ่น

Gemini API มีรูปแบบต่างๆ มากมายที่ได้รับการเพิ่มประสิทธิภาพสำหรับการใช้งานที่เฉพาะเจาะจง กรณี ต่อไปนี้เป็นภาพรวมคร่าวๆ ของตัวแปร Gemini ที่พร้อมใช้งาน

ตัวแปรรุ่น อินพุต เอาต์พุต เพิ่มประสิทธิภาพสำหรับ
Gemini 1.5 Pro
gemini-1.5-pro
เสียง รูปภาพ วิดีโอ และข้อความ ข้อความ งานการให้เหตุผลที่ซับซ้อน เช่น การสร้างโค้ดและข้อความ การแก้ไขข้อความ การแก้ปัญหา การดึงและการสร้างข้อมูล
Gemini 1.5 Flash
gemini-1.5-flash
เสียง รูปภาพ วิดีโอ และข้อความ ข้อความ ทำงานได้รวดเร็วและคล่องตัวสำหรับงานที่หลากหลาย
Gemini 1.0 Pro
gemini-1.0-pro
ข้อความ ข้อความ งานด้วยภาษาธรรมชาติ การแชทด้วยข้อความและโค้ดแบบหลายตัว และโค้ด รุ่น
(เลิกใช้งานแล้ว) Gemini 1.0 Pro Vision
gemini-pro-vision
รูปภาพ วิดีโอ และข้อความ ข้อความ งานที่เกี่ยวข้องกับภาพ เช่น การสร้างรูปภาพ คำอธิบายหรือระบุวัตถุในรูปภาพ
การฝังข้อความ
text-embedding-004
ข้อความ การฝังข้อความ การวัดความสัมพันธ์ของสตริงข้อความ
AQA
aqa
ข้อความ ข้อความ การให้คำตอบสำหรับคำถามที่อิงตามแหล่งที่มา

ตารางต่อไปนี้อธิบายแอตทริบิวต์ของโมเดล Gemini ซึ่ง พบได้ทั่วไปในตัวแปรโมเดลทั้งหมด

แอตทริบิวต์ คำอธิบาย
ข้อมูลการฝึก เกณฑ์ความรู้ของ Gemini คือเดือนพฤศจิกายน 2023 ความรู้เกี่ยวกับกิจกรรมหลังจากช่วงเวลาดังกล่าวนั้นมีจำกัด
ภาษาที่รองรับ ดูภาษาที่ใช้ได้
พารามิเตอร์โมเดลที่กำหนดค่าได้
  • ครึ่งแรกของอินนิ่ง
  • K สูงสุด
  • อุณหภูมิ
  • หยุดลำดับ
  • ความยาวเอาต์พุตสูงสุด
  • จำนวนตัวเลือกคำตอบ

ดูพารามิเตอร์โมเดล ของ คู่มือโมเดล Generative สำหรับข้อมูลเกี่ยวกับพารามิเตอร์แต่ละรายการเหล่านี้

แฟลช Gemini 1.5

Gemini 1.5 Flash คือโมเดลสื่อหลากรูปแบบที่รวดเร็วและอเนกประสงค์สำหรับการปรับขนาด งานที่หลากหลาย

ลองใช้ใน AI Studio

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสโมเดล models/gemini-1.5-flash
ประเภทข้อมูลที่รองรับ

อินพุต

เสียง รูปภาพ วิดีโอ และข้อความ

เอาต์พุต

ข้อความ

ขีดจำกัดของโทเค็น[*]

ขีดจำกัดโทเค็นอินพุต

1,048,576

ขีดจำกัดของโทเค็นเอาต์พุต

8,192 คน

ข้อกำหนดเฉพาะสำหรับภาพและเสียง

จำนวนรูปภาพสูงสุดต่อพรอมต์

3,600

ความยาววิดีโอสูงสุด

1 ชั่วโมง

ความยาวเสียงสูงสุด

ประมาณ 9.5 ชั่วโมง

ขีดจำกัดอัตราคำขอ[**]
ฟรี:
  • 15 RPM
  • 1 ล้าน TPM
  • 1,500 RPD
Pay-as-you-go:
  • 1,000 RPM
  • 2 ล้าน TPM
ความสามารถ

วิธีการของระบบ

สิ่งที่ทำได้

โหมด JSON

สิ่งที่ทำได้

สคีมา JSON

สิ่งที่ทำไม่ได้

การตั้งค่าความปลอดภัยที่ปรับได้

สิ่งที่ทำได้

การแคช

สิ่งที่ทำได้

การปรับแต่ง

สิ่งที่ทำไม่ได้

การเรียกใช้ฟังก์ชัน

สิ่งที่ทำได้

การกำหนดค่าการเรียกใช้ฟังก์ชัน

สิ่งที่ทำได้

การทำงานของโค้ด

สิ่งที่ทำได้

อัปเดตล่าสุด พฤษภาคม 2024

Gemini 1.5 Pro

Gemini 1.5 Pro เป็นโมเดลสื่อหลากรูปแบบขนาดกลางที่ได้รับการเพิ่มประสิทธิภาพสำหรับ งานด้านการให้เหตุผลที่หลากหลาย 1.5 Pro ประมวลผลข้อมูลจำนวนมากได้ ในครั้งเดียว รวมถึงวิดีโอ 2 ชั่วโมง เสียง 19 ชั่วโมง โค้ดเบสที่มี โค้ด 60,000 บรรทัดหรือข้อความ 2,000 หน้า

ลองใช้ใน AI Studio

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสโมเดล models/gemini-1.5-pro
ประเภทข้อมูลที่รองรับ

อินพุต

เสียง รูปภาพ วิดีโอ และข้อความ

เอาต์พุต

ข้อความ

ขีดจำกัดของโทเค็น[*]

ขีดจำกัดโทเค็นอินพุต

2,097,152 คน

ขีดจำกัดของโทเค็นเอาต์พุต

8,192 คน

ข้อกำหนดเฉพาะสำหรับภาพและเสียง

จำนวนรูปภาพสูงสุดต่อพรอมต์

7,200 คน

ความยาววิดีโอสูงสุด

2 ชั่วโมง

ความยาวเสียงสูงสุด

ประมาณ 19 ชั่วโมง

ขีดจำกัดอัตราคำขอ[**]
ฟรี:
  • 2 RPM
  • 32,000 TPM
  • 50 RPD
Pay-as-you-go:
  • 360 RPM
  • 2 ล้าน TPM
  • 10,000 RPD
ความสามารถ

วิธีการของระบบ

สิ่งที่ทำได้

โหมด JSON

สิ่งที่ทำได้

สคีมา JSON

สิ่งที่ทำได้

การตั้งค่าความปลอดภัยที่ปรับได้

สิ่งที่ทำได้

การแคช

สิ่งที่ทำได้

การปรับแต่ง

สิ่งที่ทำไม่ได้

การเรียกใช้ฟังก์ชัน

สิ่งที่ทำได้

การกำหนดค่าการเรียกใช้ฟังก์ชัน

สิ่งที่ทำได้

การทำงานของโค้ด

สิ่งที่ทำได้

อัปเดตล่าสุด พฤษภาคม 2024

Gemini 1.0 Pro

Gemini 1.0 Pro เป็นโมเดล NLP ที่จัดการงานต่างๆ เช่น การเปลี่ยนข้อความแบบมัลติเทิร์นและ การแชทรหัส และการสร้างโค้ด

ลองใช้ใน AI Studio

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสโมเดล models/gemini-1.0-pro
ประเภทข้อมูลที่รองรับ

อินพุต

ข้อความ

เอาต์พุต

ข้อความ

ขีดจำกัดอัตราคำขอ[**]
ฟรี:
  • 15 RPM
  • 32,000 TPM
  • 1,500 RPD
Pay-as-you-go:
  • 360 RPM
  • 120,000 TPM
  • 30,000 RPD
ความสามารถ

วิธีการของระบบ

สิ่งที่ทำไม่ได้

โหมด JSON

สิ่งที่ทำไม่ได้

สคีมา JSON

สิ่งที่ทำไม่ได้

การตั้งค่าความปลอดภัยที่ปรับได้

สิ่งที่ทำได้

การแคช

สิ่งที่ทำไม่ได้

การปรับแต่ง

สิ่งที่ทำได้

การเรียกใช้ฟังก์ชัน

สิ่งที่ทำได้

การกำหนดค่าการเรียกใช้ฟังก์ชัน

สิ่งที่ทำไม่ได้

การทำงานของโค้ด

สิ่งที่ทำไม่ได้

อัปเดตล่าสุด กุมภาพันธ์ 2024

(เลิกใช้งานแล้ว) Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision เป็นโมเดลสื่อหลากรูปแบบที่ได้รับการเพิ่มประสิทธิภาพ ทำงานที่เกี่ยวข้องกับภาพได้ เช่น 1.0 Pro Vision สามารถ สร้างคำอธิบายรูปภาพ ระบุวัตถุที่อยู่ในรูปภาพ ให้ ข้อมูลเกี่ยวกับสถานที่หรือวัตถุที่อยู่ในรูปภาพ และอื่นๆ

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสโมเดล models/gemini-pro-vision
ประเภทข้อมูลที่รองรับ

อินพุต

รูปภาพ วิดีโอ และข้อความ

เอาต์พุต

ข้อความ

ขีดจำกัดของโทเค็น[*]

ขีดจำกัดโทเค็นอินพุต

12,288 คน

ขีดจำกัดของโทเค็นเอาต์พุต

4,096 คน

ข้อกำหนดเฉพาะสำหรับภาพและเสียง

ความยาววิดีโอสูงสุด

2 นาที

ขีดจำกัดอัตราคำขอ[**] 60 คำขอต่อนาที
ความสามารถ

วิธีการของระบบ

สิ่งที่ทำไม่ได้

โหมด JSON

สิ่งที่ทำไม่ได้

สคีมา JSON

สิ่งที่ทำไม่ได้

การตั้งค่าความปลอดภัยที่ปรับได้

สิ่งที่ทำได้

การแคช

สิ่งที่ทำไม่ได้

การปรับแต่ง

สิ่งที่ทำไม่ได้

การเรียกใช้ฟังก์ชัน

สิ่งที่ทำได้

การกำหนดค่าการเรียกใช้ฟังก์ชัน

สิ่งที่ทำไม่ได้

การทำงานของโค้ด

สิ่งที่ทำไม่ได้

อัปเดตล่าสุด ธันวาคม 2023

การฝังและฝังข้อความ

การฝังข้อความ

คุณสามารถใช้รูปแบบการฝังข้อความเพื่อสร้าง การฝังข้อความสำหรับ ข้อความที่ป้อน สำหรับข้อมูลเพิ่มเติมเกี่ยวกับรูปแบบการฝังข้อความ โปรดไปที่ เอกสารประกอบเกี่ยวกับ Generative AI ใน Vertex AI เกี่ยวกับการฝังข้อความ

รูปแบบการฝังข้อความได้รับการเพิ่มประสิทธิภาพสำหรับการสร้างการฝังด้วย 768 สำหรับข้อความโทเค็นได้สูงสุด 2,048 รายการ การฝังข้อความมอบความยืดหยุ่น ขนาดที่ฝังที่ต่ำกว่า 768 คุณสามารถใช้การฝังแบบยืดหยุ่นเพื่อสร้าง ขนาดเอาต์พุตที่เล็กลงและช่วยให้ประหยัดต้นทุนในการประมวลผลและจัดเก็บได้ โดยสูญเสียประสิทธิภาพเพียงเล็กน้อย

รายละเอียดรุ่น
พร็อพเพอร์ตี้ คำอธิบาย
รหัสโมเดล

Gemini API

models/text-embedding-004

Vertex AI

text-embedding-preview-0409

ประเภทข้อมูลที่รองรับ

อินพุต

ข้อความ

เอาต์พุต

การฝังข้อความ

ขีดจำกัดของโทเค็น[*]

ขีดจำกัดโทเค็นอินพุต

2,048 คน

ขนาดมิติข้อมูลเอาต์พุต

768

ขีดจำกัดอัตราคำขอ[**] คำขอ 1,500 รายการต่อนาที
การตั้งค่าความปลอดภัยที่ปรับได้ สิ่งที่ทำไม่ได้
อัปเดตล่าสุด เมษายน 2024

การฝัง

คุณสามารถใช้โมเดลการฝังเพื่อสร้าง การฝังข้อความสำหรับ ข้อความที่ป้อน

โมเดลการฝังได้รับการเพิ่มประสิทธิภาพสำหรับการสร้างการฝังที่มีมิติข้อมูล 768 รายการ สำหรับข้อความที่มีโทเค็นไม่เกิน 2,048 รายการ

การฝังรายละเอียดโมเดล
พร็อพเพอร์ตี้ คำอธิบาย
รหัสโมเดล models/embedding-001
ประเภทข้อมูลที่รองรับ

อินพุต

ข้อความ

เอาต์พุต

การฝังข้อความ

ขีดจำกัดของโทเค็น[*]

ขีดจำกัดโทเค็นอินพุต

2,048 คน

ขนาดมิติข้อมูลเอาต์พุต

768

ขีดจำกัดอัตราคำขอ[**] คำขอ 1,500 รายการต่อนาที
การตั้งค่าความปลอดภัยที่ปรับได้ สิ่งที่ทำไม่ได้
อัปเดตล่าสุด ธันวาคม 2023

AQA

คุณสามารถใช้โมเดล AQA เพื่อดำเนินการ การตอบคำถามที่มีการระบุแหล่งที่มา (AQA) เกี่ยวกับงานที่เกี่ยวข้องกับเอกสาร คลังข้อมูล หรือชุดข้อความ AQA โมเดลจะแสดงคำตอบสำหรับคำถามที่อยู่ในแหล่งที่มาที่ระบุ พร้อมทั้งการประมาณความน่าจะเป็นที่ตอบได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสโมเดล models/aqa
ประเภทข้อมูลที่รองรับ

อินพุต

ข้อความ

เอาต์พุต

ข้อความ

ภาษาที่รองรับ อังกฤษ
ขีดจำกัดของโทเค็น[*]

ขีดจำกัดโทเค็นอินพุต

7,168 ครั้ง

ขีดจำกัดของโทเค็นเอาต์พุต

1,024 คน

ขีดจำกัดอัตราคำขอ[**] คำขอ 1,500 รายการต่อนาที
การตั้งค่าความปลอดภัยที่ปรับได้ สิ่งที่ทำได้
อัปเดตล่าสุด ธันวาคม 2023

ดูตัวอย่างเพื่อสำรวจความสามารถของโมเดลเหล่านี้ รูปแบบต่างๆ

[*] โทเค็นเทียบเท่ากับประมาณ 4 อักขระสำหรับโมเดล Gemini โทเค็น 100 รายการ มีคำภาษาอังกฤษประมาณ 60-80 คำ

[**] RPM: คำขอต่อนาที
TPM: โทเค็นต่อนาที
RPD: คำขอต่อวัน
TPD: โทเค็นต่อวัน

เนื่องจากข้อจำกัดด้านความจุ อัตราสูงสุดที่ระบุไม่ใช่ รับประกันการแสดงผล

รูปแบบชื่อเวอร์ชันโมเดล

โมเดล Gemini พร้อมให้ใช้งานในเวอร์ชันตัวอย่างหรือเวอร์ชันเสถียร ใน คุณสามารถใช้รูปแบบใดรูปแบบหนึ่งต่อไปนี้เพื่อระบุโมเดล และเวอร์ชันที่ต้องการใช้

  • ล่าสุด: ชี้ไปที่เวอร์ชันที่ทันสมัยของโมเดลสำหรับ การสร้างและรูปแบบที่หลากหลาย โมเดลที่สำคัญจะได้รับการอัปเดตอย่างสม่ำเสมอ และอาจ เป็นเวอร์ชันตัวอย่าง ควรให้แอปทดสอบและต้นแบบเฉพาะเท่านั้น ใช้ชื่อแทนนี้

    หากต้องการระบุเวอร์ชันล่าสุด ให้ใช้รูปแบบต่อไปนี้ <model>-<generation>-<variation>-latest. ตัวอย่างเช่น gemini-1.0-pro-latest.

  • เสถียรล่าสุด: ชี้ไปที่เวอร์ชันที่เสถียรล่าสุดที่เปิดตัวสำหรับ การสร้างและรูปแบบที่ระบุ

    หากต้องการระบุเวอร์ชันเสถียรล่าสุด ให้ใช้รูปแบบต่อไปนี้ <model>-<generation>-<variation>. เช่น gemini-1.0-pro

  • เวอร์ชันเสถียร: ชี้ไปที่โมเดลแบบคงที่ที่เฉพาะเจาะจง โมเดลเสถียรจะไม่มีการเปลี่ยนแปลง แอปเวอร์ชันที่ใช้งานจริงส่วนใหญ่ควรใช้โมเดลที่เสถียรรุ่นใดรุ่นหนึ่ง

    หากต้องการระบุเวอร์ชันที่เสถียร ให้ใช้รูปแบบต่อไปนี้: <model>-<generation>-<variation>-<version>. ตัวอย่างเช่น gemini-1.0-pro-001.

ภาษาที่พร้อมให้บริการ

โมเดล Gemini ได้รับการฝึกให้ทำงานกับภาษาต่อไปนี้

  • อาหรับ (ar)
  • เบงกาลี (bn)
  • บัลแกเรีย (bg)
  • จีนตัวย่อและตัวเต็ม (zh)
  • โครเอเชีย (hr)
  • เช็ก (cs)
  • เดนมาร์ก (da)
  • ดัตช์ (nl)
  • อังกฤษ (en)
  • เอสโตเนีย (et)
  • ฟินแลนด์ (fi)
  • ฝรั่งเศส (fr)
  • เยอรมัน (de)
  • กรีก (el)
  • ฮีบรู (iw)
  • ฮินดี (hi)
  • ฮังการี (hu)
  • อินโดนีเซีย (id)
  • อิตาลี (it)
  • ญี่ปุ่น (ja)
  • เกาหลี (ko)
  • ลัตเวีย (lv)
  • ลิทัวเนีย (lt)
  • นอร์เวย์ (no)
  • โปแลนด์ (pl)
  • โปรตุเกส (pt)
  • โรมาเนีย (ro)
  • รัสเซีย (ru)
  • เซอร์เบีย (sr)
  • สโลวัก (sk)
  • สโลวีเนีย (sl)
  • สเปน (es)
  • สวาฮีลี (sw)
  • สวีเดน (sv)
  • ไทย (th)
  • ตุรกี (tr)
  • ยูเครน (uk)
  • เวียดนาม (vi)