Gemini

Gemini คือกลุ่มโมเดล Generative AI ที่ช่วยให้นักพัฒนาซอฟต์แวร์สร้างเนื้อหาและแก้ปัญหาได้ โมเดลเหล่านี้ออกแบบและฝึกให้จัดการกับ ข้อความและรูปภาพเป็นอินพุต คู่มือนี้ให้ข้อมูลเกี่ยวกับตัวแปรแต่ละรุ่นเพื่อช่วยให้คุณตัดสินใจได้ว่าแบบใดเหมาะกับกรณีการใช้งานของคุณที่สุด

ภาษาที่พร้อมใช้งาน

โมเดลarbnbgzhhrcsdanlenetfifrdeeliwhihuiditjakolvltnoplptrorusrskslesswsvthtrukvi

โมเดล PaLM ทำงานได้ดีกับภาษาอังกฤษเท่านั้น การใช้ภาษาอื่นๆ อาจให้ผลลัพธ์ที่ไม่คาดคิด

ตัวแปรของรุ่น

Gemini API มีรูปแบบต่างๆ มากมายที่ได้รับการเพิ่มประสิทธิภาพสำหรับกรณีการใช้งานที่เจาะจง ต่อไปนี้เป็นภาพรวมคร่าวๆ ของตัวแปร Gemini ที่พร้อมใช้งาน

ตัวแปรรุ่น อินพุต เอาต์พุต เพิ่มประสิทธิภาพสำหรับ
Gemini 1.5 Pro (เวอร์ชันตัวอย่าง) เสียง รูปภาพ วิดีโอ และข้อความ ข้อความ งานการให้เหตุผล ซึ่งรวมถึง (แต่ไม่จำกัดเพียง) โค้ดและข้อความ การแก้ไขข้อความ การแก้ปัญหา การดึงข้อมูลและการสร้าง
Gemini 1.5 Flash (เวอร์ชันตัวอย่าง) เสียง รูปภาพ วิดีโอ และข้อความ ข้อความ ทำงานได้รวดเร็วและคล่องตัวสำหรับงานที่หลากหลาย
Gemini 1.0 Pro ข้อความ ข้อความ งานด้วยภาษาธรรมชาติ การแชทด้วยข้อความและโค้ดแบบผลัดกันเล่น รวมถึงการสร้างโค้ด
Gemini 1.0 Pro Vision รูปภาพ วิดีโอ และข้อความ ข้อความ ประสิทธิภาพการทำงานที่เพิ่มประสิทธิภาพเพื่องานที่เกี่ยวข้องกับภาพ เช่น การสร้างคำอธิบายรูปภาพหรือการระบุวัตถุในรูปภาพ
การฝังข้อความ ข้อความ การฝังข้อความ สร้างการฝังข้อความแบบยืดหยุ่นที่มีมิติข้อมูลสูงสุด 768 รายการสำหรับข้อความที่มีโทเค็นได้สูงสุด 2,048 รายการ
การฝัง ข้อความ การฝังข้อความ สร้างการฝังข้อความด้วยมิติข้อมูล 768 รายการสำหรับข้อความที่มีโทเค็นได้สูงสุด 2,048 รายการ
AQA ข้อความ ข้อความ ทำงานที่เกี่ยวข้องกับการตอบคำถามที่มีการระบุแหล่งที่มาแทนข้อความที่ให้ไว้

ตารางต่อไปนี้อธิบายแอตทริบิวต์ของโมเดล Gemini ซึ่งพบได้ทั่วไปในตัวแปรโมเดลทั้งหมด

แอตทริบิวต์ คำอธิบาย
ข้อมูลการฝึก เกณฑ์ความรู้ของ Gemini คือต้นปี 2023 ความรู้เกี่ยวกับกิจกรรมหลังจากช่วงเวลาดังกล่าวนั้นมีจำกัด
ภาษาที่รองรับ ดูภาษาที่ใช้ได้
พารามิเตอร์โมเดลที่กำหนดค่าได้
  • ครึ่งแรกของอินนิ่ง
  • K สูงสุด
  • อุณหภูมิ
  • หยุดลำดับ
  • ความยาวเอาต์พุตสูงสุด
  • จำนวนตัวเลือกคำตอบ

ดูข้อมูลเกี่ยวกับพารามิเตอร์แต่ละรายการเหล่านี้ในส่วนพารามิเตอร์โมเดลของคู่มือโมเดลการสร้าง

Gemini 1.5 Pro (เวอร์ชันตัวอย่าง)

Gemini 1.5 Pro เป็นโมเดลสื่อหลากรูปแบบขนาดกลางที่เพิ่มประสิทธิภาพสำหรับงานการให้เหตุผลที่หลากหลาย เช่น

  • การสร้างโค้ด
  • การสร้างข้อความ
  • การแก้ไขข้อความ
  • การแก้ปัญหา
  • การสร้างคำแนะนำ
  • การดึงข้อมูล
  • การสร้างหรือการดึงข้อมูล
  • การสร้าง Agent AI

1.5 Pro ประมวลผลข้อมูลจำนวนมากพร้อมกันได้ ซึ่งรวมถึงวิดีโอ 1 ชั่วโมง เสียง 9.5 ชั่วโมง โค้ดเบสที่มีโค้ดมากกว่า 30,000 บรรทัด หรือมีคำมากกว่า 700,000 คำ

1.5 Pro สามารถจัดการงานการเรียนรู้แบบ 0, 1 และ 2-3 ได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/gemini-1.5-pro-latest
อินพุต เสียง รูปภาพ วิดีโอ และข้อความ
เอาต์พุต ข้อความ
วิธีการสร้างที่รองรับ generateContent
ขีดจำกัดโทเค็นอินพุต[**] 1,048,576
ขีดจำกัดโทเค็นเอาต์พุต[**] 8,192 คน
จำนวนรูปภาพสูงสุดต่อพรอมต์ 3,600
ความยาวสูงสุดของวิดีโอ 1 ชั่วโมง
ความยาวสูงสุดของเสียง ประมาณ 9.5 ชั่วโมง
จำนวนไฟล์เสียงสูงสุดต่อพรอมต์ 1
ความปลอดภัยของโมเดล การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติ ซึ่งนักพัฒนาแอปสามารถปรับได้ ดูรายละเอียดใน หน้าเกี่ยวกับการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา[*]
ฟรี:
  • 2 RPM
  • 32,000 TPM
  • 50 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 RPM
  • 10 ล้าน TPM
  • 10,000 RPD
  • 14,400,000,000 TPD
บริบท 2 ล้านบริบท
  • 1 รอบต่อนาที
  • 2 ล้าน TPM
  • 50 RPD
คำแนะนำของระบบ รองรับ
โหมด JSON รองรับ
เวอร์ชันล่าสุด gemini-1.5-pro-latest
เวอร์ชันล่าสุดที่มีความเสถียร gemini-1.5-pro
อัปเดตล่าสุด เมษายน 2024

Gemini 1.5 Flash (เวอร์ชันตัวอย่าง)

Gemini 1.5 Flash เป็นโมเดลสื่อหลากรูปแบบที่รวดเร็วและอเนกประสงค์สำหรับการปรับขนาดในงานที่หลากหลาย

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น gemini-1.5-flash-latest
อินพุต เสียง รูปภาพ วิดีโอ และข้อความ
เอาต์พุต ข้อความ
วิธีการสร้างที่รองรับ generateContent
ขีดจำกัดโทเค็นอินพุต[**] 1,048,576
ขีดจำกัดโทเค็นเอาต์พุต[**] 8,192 คน
จำนวนรูปภาพสูงสุดต่อพรอมต์ 3,600
ความยาวสูงสุดของวิดีโอ 1 ชั่วโมง
ความยาวสูงสุดของเสียง ประมาณ 9.5 ชั่วโมง
จำนวนไฟล์เสียงสูงสุดต่อพรอมต์ 1
ความปลอดภัยของโมเดล การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติ ซึ่งนักพัฒนาแอปสามารถปรับได้ ดูรายละเอียดใน หน้าเกี่ยวกับการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา[*]
ฟรี:
  • 15 RPM
  • 1 ล้าน TPM
  • 1,500 RPD
Pay-as-you-go:
  • 360 RPM
  • 10 ล้าน TPM
  • 10,000 RPD
คำแนะนำของระบบ รองรับ
โหมด JSON รองรับ
เวอร์ชันล่าสุด gemini-1.5-flash-latest
เวอร์ชันล่าสุดที่มีความเสถียร gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro เป็นโมเดล NLP ที่จัดการงานต่างๆ เช่น การแชทด้วยข้อความและโค้ดแบบมัลติเทิร์นและการสร้างโค้ด

1.0 Pro สามารถจัดการงานด้านการเรียนรู้แบบ 0, 1 และ 2-3 ได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/gemini-pro
อินพุต ข้อความ
เอาต์พุต ข้อความ
วิธีการสร้างที่รองรับ
Python: generate_content
พัก: generateContent
ขีดจำกัดอัตรา[*]
ฟรี:
  • 15 RPM
  • 32,000 TPM
  • 1,500 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 RPM
  • 120,000 TPM
  • 30,000 RPD
  • 172,800,000 TPD
คำแนะนำของระบบ ไม่รองรับ
โหมด JSON ไม่รองรับ
เวอร์ชันล่าสุด gemini-1.0-pro-latest
เวอร์ชันล่าสุดที่มีความเสถียร gemini-1.0-pro
เวอร์ชันเสถียร gemini-1.0-pro-001
อัปเดตล่าสุด February 2024

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision เป็นโมเดลสื่อหลากรูปแบบที่เพิ่มประสิทธิภาพแล้วซึ่งทำงานที่เกี่ยวข้องกับภาพได้ เช่น 1.0 Pro Vision สามารถสร้างคำอธิบายรูปภาพ ระบุวัตถุที่ปรากฏในรูปภาพ ให้ข้อมูลเกี่ยวกับสถานที่หรือวัตถุที่ปรากฏในรูปภาพ และอื่นๆ

1.0 Pro Vision สามารถจัดการงานที่เป็นศูนย์ งานเดียว และน้อย

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/gemini-pro-vision
อินพุต ข้อความ วิดีโอ และรูปภาพ
เอาต์พุต ข้อความ
วิธีการสร้างที่รองรับ
Python: generate_content
พัก: generateContent
ขีดจำกัดโทเค็นอินพุต[*] 12,288 คน
ขีดจำกัดโทเค็นเอาต์พุต[*] 4,096 คน
ขนาดรูปภาพสูงสุด ไม่จำกัด
จำนวนรูปภาพสูงสุดต่อพรอมต์ 16
ความยาวสูงสุดของวิดีโอ 2 นาที
จำนวนวิดีโอสูงสุดต่อพรอมต์ 1
ความปลอดภัยของโมเดล การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติ ซึ่งนักพัฒนาแอปสามารถปรับได้ ดูรายละเอียดใน หน้าเกี่ยวกับการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา[*] 60 คำขอต่อนาที
เวอร์ชันล่าสุด gemini-1.0-pro-vision-latest
เวอร์ชันล่าสุดที่มีความเสถียร gemini-1.0-pro-vision
อัปเดตล่าสุด ธันวาคม 2023

การฝังและฝังข้อความ

การฝังข้อความ

คุณใช้โมเดลการฝังข้อความเพื่อสร้างการฝังข้อความสำหรับข้อความอินพุตได้ ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลการฝังข้อความได้ในเอกสารประกอบของ Generative AI ใน Vertex AI เกี่ยวกับการฝังข้อความ

โมเดลการฝังข้อความได้รับการเพิ่มประสิทธิภาพสำหรับการสร้างการฝังด้วยมิติข้อมูล 768 สำหรับข้อความที่มีโทเค็นสูงสุด 2,048 รายการ การฝังข้อความมีขนาดการฝังที่ยืดหยุ่นได้ไม่เกิน 768 คุณสามารถใช้การฝังแบบยืดหยุ่นเพื่อสร้างขนาดเอาต์พุตที่เล็กลงและอาจประหยัดค่าใช้จ่ายด้านการประมวลผลและการจัดเก็บโดยสูญเสียประสิทธิภาพเพียงเล็กน้อย

รายละเอียดรุ่น
พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/text-embedding-004 (text-embedding-preview-0409 ใน Vertex AI)
อินพุต ข้อความ
เอาต์พุต การฝังข้อความ
ขีดจำกัดโทเค็นอินพุต 2,048 คน
ขนาดมิติข้อมูลเอาต์พุต 768
วิธีการสร้างที่รองรับ
Python: embed_content
พัก: embedContent
ความปลอดภัยของโมเดล ไม่มีการตั้งค่าความปลอดภัยที่ปรับได้
ขีดจำกัดอัตรา[*] คำขอ 1,500 รายการต่อนาที
อัปเดตล่าสุด เมษายน 2024

การฝัง

คุณใช้โมเดลการฝังเพื่อสร้างการฝังข้อความสำหรับข้อความอินพุตได้

โมเดลการฝังได้รับการเพิ่มประสิทธิภาพสำหรับการสร้างการฝังด้วยมิติข้อมูล 768 แบบสำหรับข้อความที่มีโทเค็นสูงสุด 2,048 รายการ

การฝังรายละเอียดโมเดล
พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/embedding-001
อินพุต ข้อความ
เอาต์พุต การฝังข้อความ
ขีดจำกัดโทเค็นอินพุต 2,048 คน
ขนาดมิติข้อมูลเอาต์พุต 768
วิธีการสร้างที่รองรับ
Python: embed_content
พัก: embedContent
ความปลอดภัยของโมเดล ไม่มีการตั้งค่าความปลอดภัยที่ปรับได้
ขีดจำกัดอัตรา[*] คำขอ 1,500 รายการต่อนาที
อัปเดตล่าสุด ธันวาคม 2023

AQA

คุณใช้โมเดล AQA เพื่อทำงานที่เกี่ยวข้องกับการตอบคำถามที่มีการระบุแหล่งที่มา (AQA) ผ่านเอกสาร คลังข้อมูล หรือชุดข้อความได้ โมเดล AQA จะแสดงผลคำตอบของคําถามที่มาจากแหล่งที่มาที่ระบุ รวมถึงการประมาณความน่าจะเป็นที่ตอบได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/aqa
อินพุต ข้อความ
เอาต์พุต ข้อความ
วิธีการสร้างที่รองรับ
Python: GenerateAnswerRequest
พัก: generateAnswer
ภาษาที่รองรับ อังกฤษ
ขีดจำกัดโทเค็นอินพุต[**] 7,168 ครั้ง
ขีดจำกัดโทเค็นเอาต์พุต[**] 1,024 คน
ความปลอดภัยของโมเดล การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติ ซึ่งนักพัฒนาแอปสามารถปรับได้ ดูรายละเอียดใน หน้าเกี่ยวกับการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา[*] 60 คำขอต่อนาที
อัปเดตล่าสุด ธันวาคม 2023

ดูตัวอย่างเพื่อสำรวจความสามารถของตัวแปรโมเดลเหล่านี้

[*] โทเค็นเทียบเท่ากับประมาณ 4 อักขระสำหรับโมเดล Gemini โทเค็น 100 รายการมีคำภาษาอังกฤษประมาณ 60-80 คำ

[**] RPM: คำขอต่อนาที
TPM: โทเค็นต่อนาที
RPD: คำขอต่อวัน
TPD: โทเค็นต่อวัน

เนื่องจากข้อจำกัดด้านความจุ ระบบจึงไม่รับประกันขีดจำกัดอัตราสูงสุดที่ระบุ

รูปแบบชื่อเวอร์ชันโมเดล

โมเดล Gemini พร้อมให้ใช้งานในเวอร์ชันตัวอย่างหรือเวอร์ชันเสถียร ในโค้ด คุณจะใช้รูปแบบชื่อโมเดลแบบใดแบบหนึ่งต่อไปนี้เพื่อระบุโมเดลและเวอร์ชันที่ต้องการใช้ได้

  • ล่าสุด: ชี้ไปที่เวอร์ชันที่ทันสมัยของโมเดลสำหรับรุ่นและรูปแบบที่ระบุ โมเดลที่สำคัญจะอัปเดตเป็นประจำ และอาจเป็นเวอร์ชันตัวอย่าง เฉพาะแอปทดสอบและต้นแบบเท่านั้นที่ควรใช้ชื่อแทนนี้

    หากต้องการระบุเวอร์ชันล่าสุด ให้ใช้รูปแบบต่อไปนี้ <model>-<generation>-<variation>-latest ตัวอย่างเช่น gemini-1.0-pro-latest

  • เสถียรล่าสุด: ชี้ไปที่เวอร์ชันเสถียรล่าสุดที่เปิดตัวสำหรับรุ่นและรูปแบบที่ระบุ

    หากต้องการระบุเวอร์ชันเสถียรล่าสุด ให้ใช้รูปแบบต่อไปนี้: <model>-<generation>-<variation> เช่น gemini-1.0-pro

  • เวอร์ชันเสถียร: ชี้ไปที่โมเดลแบบคงที่ที่เฉพาะเจาะจง โมเดลเสถียรจะไม่มีการเปลี่ยนแปลง แอปเวอร์ชันที่ใช้งานจริงส่วนใหญ่ควรใช้โมเดลที่เสถียรรุ่นใดรุ่นหนึ่ง

    หากต้องการระบุเวอร์ชันที่เสถียร ให้ใช้รูปแบบต่อไปนี้: <model>-<generation>-<variation>-<version> ตัวอย่างเช่น gemini-1.0-pro-001