Gemini คือกลุ่มโมเดล Generative AI ที่ช่วยให้นักพัฒนาซอฟต์แวร์สร้างเนื้อหาและแก้ปัญหาได้ โมเดลเหล่านี้ออกแบบและฝึกให้จัดการกับ ข้อความและรูปภาพเป็นอินพุต คู่มือนี้ให้ข้อมูลเกี่ยวกับตัวแปรแต่ละรุ่นเพื่อช่วยให้คุณตัดสินใจได้ว่าแบบใดเหมาะกับกรณีการใช้งานของคุณที่สุด
ภาษาที่พร้อมใช้งาน
โมเดลar
bn
bg
zh
hr
cs
da
nl
en
et
fi
fr
de
el
iw
hi
hu
id
it
ja
ko
lv
lt
no
pl
pt
ro
ru
sr
sk
sl
es
sw
sv
th
tr
uk
vi
โมเดล PaLM ทำงานได้ดีกับภาษาอังกฤษเท่านั้น การใช้ภาษาอื่นๆ อาจให้ผลลัพธ์ที่ไม่คาดคิด
ตัวแปรของรุ่น
Gemini API มีรูปแบบต่างๆ มากมายที่ได้รับการเพิ่มประสิทธิภาพสำหรับกรณีการใช้งานที่เจาะจง ต่อไปนี้เป็นภาพรวมคร่าวๆ ของตัวแปร Gemini ที่พร้อมใช้งาน
ตัวแปรรุ่น | อินพุต | เอาต์พุต | เพิ่มประสิทธิภาพสำหรับ |
---|---|---|---|
Gemini 1.5 Pro (เวอร์ชันตัวอย่าง) | เสียง รูปภาพ วิดีโอ และข้อความ | ข้อความ | งานการให้เหตุผล ซึ่งรวมถึง (แต่ไม่จำกัดเพียง) โค้ดและข้อความ การแก้ไขข้อความ การแก้ปัญหา การดึงข้อมูลและการสร้าง |
Gemini 1.5 Flash (เวอร์ชันตัวอย่าง) | เสียง รูปภาพ วิดีโอ และข้อความ | ข้อความ | ทำงานได้รวดเร็วและคล่องตัวสำหรับงานที่หลากหลาย |
Gemini 1.0 Pro | ข้อความ | ข้อความ | งานด้วยภาษาธรรมชาติ การแชทด้วยข้อความและโค้ดแบบผลัดกันเล่น รวมถึงการสร้างโค้ด |
Gemini 1.0 Pro Vision | รูปภาพ วิดีโอ และข้อความ | ข้อความ | ประสิทธิภาพการทำงานที่เพิ่มประสิทธิภาพเพื่องานที่เกี่ยวข้องกับภาพ เช่น การสร้างคำอธิบายรูปภาพหรือการระบุวัตถุในรูปภาพ |
การฝังข้อความ | ข้อความ | การฝังข้อความ | สร้างการฝังข้อความแบบยืดหยุ่นที่มีมิติข้อมูลสูงสุด 768 รายการสำหรับข้อความที่มีโทเค็นได้สูงสุด 2,048 รายการ |
การฝัง | ข้อความ | การฝังข้อความ | สร้างการฝังข้อความด้วยมิติข้อมูล 768 รายการสำหรับข้อความที่มีโทเค็นได้สูงสุด 2,048 รายการ |
AQA | ข้อความ | ข้อความ | ทำงานที่เกี่ยวข้องกับการตอบคำถามที่มีการระบุแหล่งที่มาแทนข้อความที่ให้ไว้ |
ตารางต่อไปนี้อธิบายแอตทริบิวต์ของโมเดล Gemini ซึ่งพบได้ทั่วไปในตัวแปรโมเดลทั้งหมด
แอตทริบิวต์ | คำอธิบาย |
---|---|
ข้อมูลการฝึก | เกณฑ์ความรู้ของ Gemini คือต้นปี 2023 ความรู้เกี่ยวกับกิจกรรมหลังจากช่วงเวลาดังกล่าวนั้นมีจำกัด |
ภาษาที่รองรับ | ดูภาษาที่ใช้ได้ |
พารามิเตอร์โมเดลที่กำหนดค่าได้ |
|
ดูข้อมูลเกี่ยวกับพารามิเตอร์แต่ละรายการเหล่านี้ในส่วนพารามิเตอร์โมเดลของคู่มือโมเดลการสร้าง
Gemini 1.5 Pro (เวอร์ชันตัวอย่าง)
Gemini 1.5 Pro เป็นโมเดลสื่อหลากรูปแบบขนาดกลางที่เพิ่มประสิทธิภาพสำหรับงานการให้เหตุผลที่หลากหลาย เช่น
- การสร้างโค้ด
- การสร้างข้อความ
- การแก้ไขข้อความ
- การแก้ปัญหา
- การสร้างคำแนะนำ
- การดึงข้อมูล
- การสร้างหรือการดึงข้อมูล
- การสร้าง Agent AI
1.5 Pro ประมวลผลข้อมูลจำนวนมากพร้อมกันได้ ซึ่งรวมถึงวิดีโอ 1 ชั่วโมง เสียง 9.5 ชั่วโมง โค้ดเบสที่มีโค้ดมากกว่า 30,000 บรรทัด หรือมีคำมากกว่า 700,000 คำ
1.5 Pro สามารถจัดการงานการเรียนรู้แบบ 0, 1 และ 2-3 ได้
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | models/gemini-1.5-pro-latest |
อินพุต | เสียง รูปภาพ วิดีโอ และข้อความ |
เอาต์พุต | ข้อความ |
วิธีการสร้างที่รองรับ |
generateContent
|
ขีดจำกัดโทเค็นอินพุต[**] | 1,048,576 |
ขีดจำกัดโทเค็นเอาต์พุต[**] | 8,192 คน |
จำนวนรูปภาพสูงสุดต่อพรอมต์ | 3,600 |
ความยาวสูงสุดของวิดีโอ | 1 ชั่วโมง |
ความยาวสูงสุดของเสียง | ประมาณ 9.5 ชั่วโมง |
จำนวนไฟล์เสียงสูงสุดต่อพรอมต์ | 1 |
ความปลอดภัยของโมเดล | การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติ ซึ่งนักพัฒนาแอปสามารถปรับได้ ดูรายละเอียดใน หน้าเกี่ยวกับการตั้งค่าความปลอดภัย |
ขีดจำกัดอัตรา[*] |
|
คำแนะนำของระบบ | รองรับ |
โหมด JSON | รองรับ |
เวอร์ชันล่าสุด | gemini-1.5-pro-latest |
เวอร์ชันล่าสุดที่มีความเสถียร | gemini-1.5-pro |
อัปเดตล่าสุด | เมษายน 2024 |
Gemini 1.5 Flash (เวอร์ชันตัวอย่าง)
Gemini 1.5 Flash เป็นโมเดลสื่อหลากรูปแบบที่รวดเร็วและอเนกประสงค์สำหรับการปรับขนาดในงานที่หลากหลาย
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | gemini-1.5-flash-latest |
อินพุต | เสียง รูปภาพ วิดีโอ และข้อความ |
เอาต์พุต | ข้อความ |
วิธีการสร้างที่รองรับ |
generateContent
|
ขีดจำกัดโทเค็นอินพุต[**] | 1,048,576 |
ขีดจำกัดโทเค็นเอาต์พุต[**] | 8,192 คน |
จำนวนรูปภาพสูงสุดต่อพรอมต์ | 3,600 |
ความยาวสูงสุดของวิดีโอ | 1 ชั่วโมง |
ความยาวสูงสุดของเสียง | ประมาณ 9.5 ชั่วโมง |
จำนวนไฟล์เสียงสูงสุดต่อพรอมต์ | 1 |
ความปลอดภัยของโมเดล | การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติ ซึ่งนักพัฒนาแอปสามารถปรับได้ ดูรายละเอียดใน หน้าเกี่ยวกับการตั้งค่าความปลอดภัย |
ขีดจำกัดอัตรา[*] |
|
คำแนะนำของระบบ | รองรับ |
โหมด JSON | รองรับ |
เวอร์ชันล่าสุด | gemini-1.5-flash-latest |
เวอร์ชันล่าสุดที่มีความเสถียร | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro เป็นโมเดล NLP ที่จัดการงานต่างๆ เช่น การแชทด้วยข้อความและโค้ดแบบมัลติเทิร์นและการสร้างโค้ด
1.0 Pro สามารถจัดการงานด้านการเรียนรู้แบบ 0, 1 และ 2-3 ได้
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | models/gemini-pro |
อินพุต | ข้อความ |
เอาต์พุต | ข้อความ |
วิธีการสร้างที่รองรับ |
generate_content
generateContent
|
ขีดจำกัดอัตรา[*] |
|
คำแนะนำของระบบ | ไม่รองรับ |
โหมด JSON | ไม่รองรับ |
เวอร์ชันล่าสุด | gemini-1.0-pro-latest |
เวอร์ชันล่าสุดที่มีความเสถียร | gemini-1.0-pro |
เวอร์ชันเสถียร | gemini-1.0-pro-001 |
อัปเดตล่าสุด | February 2024 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision เป็นโมเดลสื่อหลากรูปแบบที่เพิ่มประสิทธิภาพแล้วซึ่งทำงานที่เกี่ยวข้องกับภาพได้ เช่น 1.0 Pro Vision สามารถสร้างคำอธิบายรูปภาพ ระบุวัตถุที่ปรากฏในรูปภาพ ให้ข้อมูลเกี่ยวกับสถานที่หรือวัตถุที่ปรากฏในรูปภาพ และอื่นๆ
1.0 Pro Vision สามารถจัดการงานที่เป็นศูนย์ งานเดียว และน้อย
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | models/gemini-pro-vision |
อินพุต | ข้อความ วิดีโอ และรูปภาพ |
เอาต์พุต | ข้อความ |
วิธีการสร้างที่รองรับ |
generate_content
generateContent
|
ขีดจำกัดโทเค็นอินพุต[*] | 12,288 คน |
ขีดจำกัดโทเค็นเอาต์พุต[*] | 4,096 คน |
ขนาดรูปภาพสูงสุด | ไม่จำกัด |
จำนวนรูปภาพสูงสุดต่อพรอมต์ | 16 |
ความยาวสูงสุดของวิดีโอ | 2 นาที |
จำนวนวิดีโอสูงสุดต่อพรอมต์ | 1 |
ความปลอดภัยของโมเดล | การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติ ซึ่งนักพัฒนาแอปสามารถปรับได้ ดูรายละเอียดใน หน้าเกี่ยวกับการตั้งค่าความปลอดภัย |
ขีดจำกัดอัตรา[*] | 60 คำขอต่อนาที |
เวอร์ชันล่าสุด | gemini-1.0-pro-vision-latest |
เวอร์ชันล่าสุดที่มีความเสถียร | gemini-1.0-pro-vision |
อัปเดตล่าสุด | ธันวาคม 2023 |
การฝังและฝังข้อความ
การฝังข้อความ
คุณใช้โมเดลการฝังข้อความเพื่อสร้างการฝังข้อความสำหรับข้อความอินพุตได้ ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลการฝังข้อความได้ในเอกสารประกอบของ Generative AI ใน Vertex AI เกี่ยวกับการฝังข้อความ
โมเดลการฝังข้อความได้รับการเพิ่มประสิทธิภาพสำหรับการสร้างการฝังด้วยมิติข้อมูล 768 สำหรับข้อความที่มีโทเค็นสูงสุด 2,048 รายการ การฝังข้อความมีขนาดการฝังที่ยืดหยุ่นได้ไม่เกิน 768 คุณสามารถใช้การฝังแบบยืดหยุ่นเพื่อสร้างขนาดเอาต์พุตที่เล็กลงและอาจประหยัดค่าใช้จ่ายด้านการประมวลผลและการจัดเก็บโดยสูญเสียประสิทธิภาพเพียงเล็กน้อย
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น |
models/text-embedding-004
(text-embedding-preview-0409 ใน
Vertex AI)
|
อินพุต | ข้อความ |
เอาต์พุต | การฝังข้อความ |
ขีดจำกัดโทเค็นอินพุต | 2,048 คน |
ขนาดมิติข้อมูลเอาต์พุต | 768 |
วิธีการสร้างที่รองรับ |
embed_content
embedContent
|
ความปลอดภัยของโมเดล | ไม่มีการตั้งค่าความปลอดภัยที่ปรับได้ |
ขีดจำกัดอัตรา[*] | คำขอ 1,500 รายการต่อนาที |
อัปเดตล่าสุด | เมษายน 2024 |
การฝัง
คุณใช้โมเดลการฝังเพื่อสร้างการฝังข้อความสำหรับข้อความอินพุตได้
โมเดลการฝังได้รับการเพิ่มประสิทธิภาพสำหรับการสร้างการฝังด้วยมิติข้อมูล 768 แบบสำหรับข้อความที่มีโทเค็นสูงสุด 2,048 รายการ
การฝังรายละเอียดโมเดล
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | models/embedding-001 |
อินพุต | ข้อความ |
เอาต์พุต | การฝังข้อความ |
ขีดจำกัดโทเค็นอินพุต | 2,048 คน |
ขนาดมิติข้อมูลเอาต์พุต | 768 |
วิธีการสร้างที่รองรับ |
embed_content
embedContent
|
ความปลอดภัยของโมเดล | ไม่มีการตั้งค่าความปลอดภัยที่ปรับได้ |
ขีดจำกัดอัตรา[*] | คำขอ 1,500 รายการต่อนาที |
อัปเดตล่าสุด | ธันวาคม 2023 |
AQA
คุณใช้โมเดล AQA เพื่อทำงานที่เกี่ยวข้องกับการตอบคำถามที่มีการระบุแหล่งที่มา (AQA) ผ่านเอกสาร คลังข้อมูล หรือชุดข้อความได้ โมเดล AQA จะแสดงผลคำตอบของคําถามที่มาจากแหล่งที่มาที่ระบุ รวมถึงการประมาณความน่าจะเป็นที่ตอบได้
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | models/aqa |
อินพุต | ข้อความ |
เอาต์พุต | ข้อความ |
วิธีการสร้างที่รองรับ |
GenerateAnswerRequest
generateAnswer
|
ภาษาที่รองรับ | อังกฤษ |
ขีดจำกัดโทเค็นอินพุต[**] | 7,168 ครั้ง |
ขีดจำกัดโทเค็นเอาต์พุต[**] | 1,024 คน |
ความปลอดภัยของโมเดล | การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติ ซึ่งนักพัฒนาแอปสามารถปรับได้ ดูรายละเอียดใน หน้าเกี่ยวกับการตั้งค่าความปลอดภัย |
ขีดจำกัดอัตรา[*] | 60 คำขอต่อนาที |
อัปเดตล่าสุด | ธันวาคม 2023 |
ดูตัวอย่างเพื่อสำรวจความสามารถของตัวแปรโมเดลเหล่านี้
[*] โทเค็นเทียบเท่ากับประมาณ 4 อักขระสำหรับโมเดล Gemini โทเค็น 100 รายการมีคำภาษาอังกฤษประมาณ 60-80 คำ
[**] RPM: คำขอต่อนาที
TPM: โทเค็นต่อนาที
RPD: คำขอต่อวัน
TPD: โทเค็นต่อวัน
เนื่องจากข้อจำกัดด้านความจุ ระบบจึงไม่รับประกันขีดจำกัดอัตราสูงสุดที่ระบุ
รูปแบบชื่อเวอร์ชันโมเดล
โมเดล Gemini พร้อมให้ใช้งานในเวอร์ชันตัวอย่างหรือเวอร์ชันเสถียร ในโค้ด คุณจะใช้รูปแบบชื่อโมเดลแบบใดแบบหนึ่งต่อไปนี้เพื่อระบุโมเดลและเวอร์ชันที่ต้องการใช้ได้
ล่าสุด: ชี้ไปที่เวอร์ชันที่ทันสมัยของโมเดลสำหรับรุ่นและรูปแบบที่ระบุ โมเดลที่สำคัญจะอัปเดตเป็นประจำ และอาจเป็นเวอร์ชันตัวอย่าง เฉพาะแอปทดสอบและต้นแบบเท่านั้นที่ควรใช้ชื่อแทนนี้
หากต้องการระบุเวอร์ชันล่าสุด ให้ใช้รูปแบบต่อไปนี้
<model>-<generation>-<variation>-latest
ตัวอย่างเช่นgemini-1.0-pro-latest
เสถียรล่าสุด: ชี้ไปที่เวอร์ชันเสถียรล่าสุดที่เปิดตัวสำหรับรุ่นและรูปแบบที่ระบุ
หากต้องการระบุเวอร์ชันเสถียรล่าสุด ให้ใช้รูปแบบต่อไปนี้:
<model>-<generation>-<variation>
เช่นgemini-1.0-pro
เวอร์ชันเสถียร: ชี้ไปที่โมเดลแบบคงที่ที่เฉพาะเจาะจง โมเดลเสถียรจะไม่มีการเปลี่ยนแปลง แอปเวอร์ชันที่ใช้งานจริงส่วนใหญ่ควรใช้โมเดลที่เสถียรรุ่นใดรุ่นหนึ่ง
หากต้องการระบุเวอร์ชันที่เสถียร ให้ใช้รูปแบบต่อไปนี้:
<model>-<generation>-<variation>-<version>
ตัวอย่างเช่นgemini-1.0-pro-001