Gemini

Gemini คือชุดโมเดล Generative AI ที่ช่วยให้นักพัฒนาซอฟต์แวร์สร้างเนื้อหาและแก้ไขปัญหาได้ โมเดลเหล่านี้ได้รับการออกแบบและฝึกให้จัดการทั้งข้อความและรูปภาพเป็นอินพุต คู่มือนี้ให้ข้อมูลเกี่ยวกับรายละเอียดปลีกย่อยของรุ่นแต่ละรูปแบบเพื่อช่วยคุณตัดสินใจว่ารูปแบบใดเหมาะกับกรณีการใช้งานของคุณที่สุด

ภาษาที่พร้อมใช้งาน

(ภาษาอาหรับ/สวามิเนีย) (ar/3}) ภาษาเกาหลี (ar)/เบงกาลี (bn) {3/1} ภาษาเกาหลี (bn/ภาษาบัลแกเรีย/ภาษาบัลแกเรีย/ภาษาบัลแกเรียbn){30/ภาษาอาหรับ (bn/ภาษาบัลแกเรีย/ภาษาบัลแกเรีย/ภาษา){3/ภาษาไทย/ภาษาสวาเกีย (bn/ภาษาไทย) (ภาษาอาหรับ/สวามิเนีย (bn){3/ภาษา/ภาษาไทย/ภาษาสวาเนีย/ภาษาอินโดนีเซีย (zh){30/ภาษา/ภาษาโปรตุเกส (zh){12/ภาษาbghrcsdanlenetfifrdeeliwhihuiditjakolvltnoplptrorusrskslesswsvthtrukvi

โมเดล PaLM จะทำงานได้ดีกับภาษาอังกฤษเท่านั้น การใช้ภาษาอื่นอาจให้ผลลัพธ์ที่ไม่คาดคิด

รายละเอียดปลีกย่อยของรุ่น

Gemini API มีโมเดลต่างๆ ที่ได้รับการเพิ่มประสิทธิภาพสำหรับกรณีการใช้งานเฉพาะ ภาพรวมคร่าวๆ ของตัวแปร Gemini ที่มีให้เลือกมีดังนี้

ตัวแปรของรุ่น อินพุต เอาต์พุต เพิ่มประสิทธิภาพสำหรับ
Gemini 1.5 Pro
gemini-1.5-pro
เสียง รูปภาพ วิดีโอ และข้อความ ข้อความ งานการให้เหตุผลที่ซับซ้อน เช่น การสร้างโค้ดและข้อความ การแก้ไขข้อความ การแก้ปัญหา การดึงข้อมูลและการสร้าง
แฟลช Gemini 1.5
gemini-1.5-flash
เสียง รูปภาพ วิดีโอ และข้อความ ข้อความ ประสิทธิภาพที่รวดเร็วและอเนกประสงค์สำหรับงานที่หลากหลาย
Gemini 1.0 Pro
gemini-pro
ข้อความ ข้อความ งานภาษาธรรมชาติ การแชทด้วยข้อความและโค้ดแบบมัลติเทิร์น และการสร้างโค้ด
Gemini 1.0 Pro Vision
gemini-pro-vision
รูปภาพ วิดีโอ และข้อความ ข้อความ งานที่เกี่ยวข้องกับภาพ เช่น การสร้างคำอธิบายรูปภาพหรือการระบุวัตถุในรูปภาพ
การฝังข้อความ
text-embedding-004
ข้อความ การฝังข้อความ การวัดความเกี่ยวข้องของสตริงข้อความ

ตารางต่อไปนี้อธิบายแอตทริบิวต์ของโมเดล Gemini ซึ่ง เหมือนกับตัวแปรของโมเดลทั้งหมด

แอตทริบิวต์ คำอธิบาย
ข้อมูลการฝึก จุดตัดความรู้ของ Gemini คือช่วงต้นปี 2023 ความรู้เกี่ยวกับเหตุการณ์หลังจากเวลาดังกล่าวมีจำกัด
ภาษาที่รองรับ ดูภาษาที่ใช้ได้
พารามิเตอร์โมเดลที่กำหนดค่าได้
  • ตำแหน่งบนสุด
  • เพลงอันดับสูงสุด
  • อุณหภูมิ
  • หยุดลำดับ
  • ความยาวเอาต์พุตสูงสุด
  • จำนวนผู้ตอบแบบสอบถาม

ดูข้อมูลเกี่ยวกับพารามิเตอร์แต่ละรายการได้ในส่วนพารามิเตอร์โมเดลของคู่มือโมเดล Generative

Gemini 1.5 Pro

Gemini 1.5 Pro เป็นโมเดลมัลติโมดัลขนาดกลางที่เพิ่มประสิทธิภาพเพื่อการทำงานด้านการให้เหตุผลที่หลากหลาย เช่น

  • การสร้างโค้ด
  • การสร้างข้อความ
  • การแก้ไขข้อความ
  • การแก้ปัญหา
  • การสร้างคำแนะนำ
  • การดึงข้อมูล
  • การแยกหรือการสร้างข้อมูล
  • การสร้างตัวแทน AI

1.5 Pro ประมวลผลข้อมูลจำนวนมากพร้อมกันได้ ได้แก่ วิดีโอ 1 ชั่วโมง, เสียง 9.5 ชั่วโมง, ฐานของโค้ดที่มีโค้ดมากกว่า 30,000 บรรทัด หรือมากกว่า 700,000 คำ

1.5 Pro สามารถจัดการงานสำหรับการเรียนรู้แบบ 0, 1 และ 2-3 ช็อตได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/gemini-1.5-pro-latest
อินพุต เสียง รูปภาพ วิดีโอ และข้อความ
เอาต์พุต ข้อความ
วิธีการสร้างที่รองรับ generateContent
ขีดจำกัดโทเค็นอินพุต[**] 1,048,576
ขีดจำกัดโทเค็นเอาต์พุต[**] 8,192 คน
จำนวนรูปภาพสูงสุดต่อพรอมต์ 3,600
ความยาวสูงสุดของวิดีโอ 1 ชั่วโมง
ความยาวสูงสุดของเสียง ประมาณ 9.5 ชั่วโมง
จำนวนไฟล์เสียงสูงสุดต่อข้อความแจ้ง 1
ความปลอดภัยของโมเดล การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา[*]
ฟรี:
  • 2 รอบ
  • 32,000 TPM
  • 50 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 RPM
  • 10 ล้าน TPM
  • 10,000 RPD
  • 14,400,000,000 TPD
บริบทกว่า 2 ล้านรูปแบบ
  • 1 รอบ
  • 2 ล้าน TPM
  • 50 RPD
วิธีการสำหรับระบบ รองรับ
โหมด JSON รองรับ
เวอร์ชันล่าสุด gemini-1.5-pro-latest
เวอร์ชันล่าสุดที่เสถียร gemini-1.5-pro
เวอร์ชันเสถียร gemini-1.5-pro-001
อัปเดตล่าสุด พฤษภาคม 2024

แฟลช Gemini 1.5

Gemini 1.5 Flash คือโมเดลมัลติโมดัลที่รวดเร็วและอเนกประสงค์สำหรับการปรับขนาดงานต่างๆ ที่หลากหลาย

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น gemini-1.5-flash-latest
อินพุต เสียง รูปภาพ วิดีโอ และข้อความ
เอาต์พุต ข้อความ
วิธีการสร้างที่รองรับ generateContent
ขีดจำกัดโทเค็นอินพุต[**] 1,048,576
ขีดจำกัดโทเค็นเอาต์พุต[**] 8,192 คน
จำนวนรูปภาพสูงสุดต่อพรอมต์ 3,600
ความยาวสูงสุดของวิดีโอ 1 ชั่วโมง
ความยาวสูงสุดของเสียง ประมาณ 9.5 ชั่วโมง
จำนวนไฟล์เสียงสูงสุดต่อข้อความแจ้ง 1
ความปลอดภัยของโมเดล การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา[*]
ฟรี:
  • 15 ครั้งต่อนาที
  • 1 ล้าน TPM
  • 1,500 RPD
Pay-as-you-go:
  • 360 RPM
  • 10 ล้าน TPM
  • 10,000 RPD
วิธีการสำหรับระบบ รองรับ
โหมด JSON รองรับ
เวอร์ชันล่าสุด gemini-1.5-flash-latest
เวอร์ชันล่าสุดที่เสถียร gemini-1.5-flash
เวอร์ชันเสถียร gemini-1.5-flash-001
อัปเดตล่าสุด พฤษภาคม 2024

Gemini 1.0 Pro

Gemini 1.0 Pro เป็นโมเดล NLP ที่จัดการงานต่างๆ เช่น ข้อความแบบมัลติเทิร์นและ การแชทด้วยโค้ด และการสร้างโค้ด

1.0 Pro สามารถจัดการงานสำหรับการเรียนรู้แบบ 0, 1 และ 2-3 ช็อตได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/gemini-pro
อินพุต ข้อความ
เอาต์พุต ข้อความ
วิธีการสร้างที่รองรับ
Python: generate_content
REST: generateContent
ขีดจำกัดอัตรา[*]
ฟรี:
  • 15 ครั้งต่อนาที
  • 32,000 TPM
  • 1,500 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 RPM
  • 120,000 TPM
  • 30,000 RPD
  • 172,800,000 TPD
วิธีการสำหรับระบบ ไม่รองรับ
โหมด JSON ไม่รองรับ
เวอร์ชันล่าสุด gemini-1.0-pro-latest
เวอร์ชันล่าสุดที่เสถียร gemini-1.0-pro
เวอร์ชันเสถียร gemini-1.0-pro-001
อัปเดตล่าสุด February 2024

วิสัยทัศน์ Gemini 1.0 Pro

Gemini 1.0 Pro Vision เป็นโมเดลแบบหลายโมดัลที่มีการเพิ่มประสิทธิภาพสูงสุดและทำงานที่เกี่ยวข้องกับภาพได้ เช่น 1.0 Pro Vision สามารถสร้างคำอธิบายรูปภาพ ระบุวัตถุที่แสดงในรูปภาพ ให้ข้อมูลเกี่ยวกับสถานที่หรือวัตถุที่แสดงในรูปภาพ และอื่นๆ

1.0 Pro Vision สามารถจัดการงานแบบ Zero 1, 1 และ 2-3 ได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/gemini-pro-vision
อินพุต ข้อความ วิดีโอ และรูปภาพ
เอาต์พุต ข้อความ
วิธีการสร้างที่รองรับ
Python: generate_content
REST: generateContent
ขีดจํากัดโทเค็นอินพุต[*] 12,288 คน
ขีดจำกัดโทเค็นเอาต์พุต[*] 4,096 รายการ
ขนาดรูปภาพสูงสุด ไม่จำกัด
จำนวนรูปภาพสูงสุดต่อพรอมต์ 16
ความยาวสูงสุดของวิดีโอ 2 นาที
จำนวนวิดีโอสูงสุดต่อข้อความแจ้ง 1
ความปลอดภัยของโมเดล การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา[*] 60 คำขอต่อนาที
เวอร์ชันล่าสุด gemini-1.0-pro-vision-latest
เวอร์ชันล่าสุดที่เสถียร gemini-1.0-pro-vision
อัปเดตล่าสุด ธันวาคม 2023

การฝังและการฝังข้อความ

การฝังข้อความ

คุณใช้โมเดลการฝังข้อความเพื่อสร้างการฝังข้อความสำหรับอินพุตข้อความได้ ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลการฝังข้อความได้ในเอกสารประกอบของ Generative AI ใน Vertex AI เกี่ยวกับการฝังข้อความ

โมเดลการฝังข้อความได้รับการเพิ่มประสิทธิภาพสำหรับการสร้างการฝังด้วยมิติข้อมูล 768 รายการสำหรับข้อความที่มีโทเค็นสูงสุด 2,048 รายการ การฝังข้อความมีขนาดการฝังที่ยืดหยุ่นไม่เกิน 768 อักขระ คุณสามารถใช้การฝังแบบยืดหยุ่นเพื่อสร้างขนาดเอาต์พุตที่เล็กลง และอาจประหยัดค่าใช้จ่ายในการประมวลผลและจัดเก็บข้อมูลโดยสูญเสียประสิทธิภาพไปเล็กน้อย

รายละเอียดรุ่น
พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/text-embedding-004 (text-embedding-preview-0409 ใน Vertex AI)
อินพุต ข้อความ
เอาต์พุต การฝังข้อความ
ขีดจำกัดโทเค็นอินพุต 2,048 รายการ
ขนาดมิติข้อมูลเอาต์พุต 768
วิธีการสร้างที่รองรับ
Python: embed_content
REST: embedContent
ความปลอดภัยของโมเดล ไม่มีการตั้งค่าความปลอดภัยที่ปรับแต่งได้
ขีดจำกัดอัตรา[*] คำขอ 1,500 รายการต่อนาที
อัปเดตล่าสุด เมษายน 2024

การฝัง

คุณใช้โมเดลการฝังเพื่อสร้างการฝังข้อความสำหรับอินพุตข้อความได้

โมเดลการฝังได้รับการเพิ่มประสิทธิภาพให้เหมาะสำหรับการสร้างการฝังด้วยมิติข้อมูล 768 รายการสำหรับข้อความที่มีโทเค็นสูงสุด 2,048 รายการ

รายละเอียดการฝังโมเดล
พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/embedding-001
อินพุต ข้อความ
เอาต์พุต การฝังข้อความ
ขีดจำกัดโทเค็นอินพุต 2,048 รายการ
ขนาดมิติข้อมูลเอาต์พุต 768
วิธีการสร้างที่รองรับ
Python: embed_content
REST: embedContent
ความปลอดภัยของโมเดล ไม่มีการตั้งค่าความปลอดภัยที่ปรับแต่งได้
ขีดจำกัดอัตรา[*] คำขอ 1,500 รายการต่อนาที
อัปเดตล่าสุด ธันวาคม 2023

AQA

คุณสามารถใช้โมเดล AQA เพื่อทำงานที่เกี่ยวข้องกับการตอบคำถามที่มีการระบุแหล่งที่มา (AQA) ที่เกี่ยวข้องกับเอกสาร คลังข้อมูล หรือชุดข้อความ โมเดล AQA จะแสดงคำตอบของคำถามที่มีพื้นฐานมาจากแหล่งที่มาที่ให้ไว้ พร้อมกับการประมาณความน่าจะเป็นที่ตอบได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/aqa
อินพุต ข้อความ
เอาต์พุต ข้อความ
วิธีการสร้างที่รองรับ
Python: GenerateAnswerRequest
REST: generateAnswer
ภาษาที่รองรับ อังกฤษ
ขีดจำกัดโทเค็นอินพุต[**] 7,168
ขีดจำกัดโทเค็นเอาต์พุต[**] 1,024 คน
ความปลอดภัยของโมเดล การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา[*] 60 คำขอต่อนาที
อัปเดตล่าสุด ธันวาคม 2023

ดูตัวอย่างเพื่อสำรวจความสามารถของรูปแบบรูปแบบต่างๆ เหล่านี้

[*] โทเค็นจะมีจำนวนอักขระประมาณ 4 ตัวสำหรับโมเดล Gemini โทเค็น 100 รายการ มีคำภาษาอังกฤษประมาณ 60-80 คำ

[**] RPM: คำขอต่อนาที
TPM: โทเค็นต่อนาที
RPD: คำขอต่อวัน
TPD: โทเค็นต่อวัน

เนื่องจากขีดจำกัดของความจุ ระบบไม่รับประกันขีดจำกัดอัตราสูงสุดที่ระบุไว้

รูปแบบชื่อเวอร์ชันโมเดล

รุ่น Gemini มีให้ใช้งานทั้งในเวอร์ชันตัวอย่างหรือเวอร์ชันเสถียร ในโค้ด คุณสามารถใช้รูปแบบชื่อโมเดลแบบใดแบบหนึ่งต่อไปนี้เพื่อระบุโมเดลและเวอร์ชันที่ต้องการใช้

  • ล่าสุด: ชี้ไปยังโมเดลอันล้ำสมัยสำหรับรุ่นและรูปแบบที่ระบุ โมเดลที่สำคัญจะอัปเดตเป็นประจำและอาจเป็นเวอร์ชันตัวอย่าง มีเพียงแอปทดสอบและต้นแบบสำหรับการทดสอบในการสำรวจเท่านั้นที่จะใช้ชื่อแทนนี้ได้

    หากต้องการระบุเวอร์ชันล่าสุด ให้ใช้รูปแบบต่อไปนี้: <model>-<generation>-<variation>-latest ตัวอย่างเช่น gemini-1.0-pro-latest

  • เวอร์ชันเสถียรล่าสุด: ชี้ไปยังเวอร์ชันเสถียรล่าสุดที่เผยแพร่สำหรับรุ่นและรูปแบบที่ระบุ

    หากต้องการระบุเวอร์ชันเสถียรล่าสุด ให้ใช้รูปแบบต่อไปนี้: <model>-<generation>-<variation> เช่น gemini-1.0-pro

  • เสถียร: ชี้ไปที่โมเดลที่มีความเสถียรที่เจาะจง โมเดลที่เสถียรจะไม่เปลี่ยนแปลง แอปเวอร์ชันที่ใช้งานจริงส่วนใหญ่ควรใช้โมเดลที่เสถียรโดยเฉพาะ

    หากต้องการระบุเวอร์ชันเสถียร ให้ใช้รูปแบบต่อไปนี้: <model>-<generation>-<variation>-<version> ตัวอย่างเช่น gemini-1.0-pro-001