Gemini คือชุดโมเดล Generative AI ที่ช่วยให้นักพัฒนาซอฟต์แวร์สร้างเนื้อหาและแก้ไขปัญหาได้ โมเดลเหล่านี้ได้รับการออกแบบและฝึกให้จัดการทั้งข้อความและรูปภาพเป็นอินพุต คู่มือนี้ให้ข้อมูลเกี่ยวกับรายละเอียดปลีกย่อยของรุ่นแต่ละรูปแบบเพื่อช่วยคุณตัดสินใจว่ารูปแบบใดเหมาะกับกรณีการใช้งานของคุณที่สุด
ความปลอดภัยและการใช้งานตามจุดประสงค์
โมเดลปัญญาประดิษฐ์แบบ Generative เป็นเครื่องมือที่มีประสิทธิภาพ แต่ก็ยังมีข้อจำกัด ความคล่องตัวและประโยชน์ใช้สอยของผู้ใช้บางครั้งอาจนำไปสู่ผลลัพธ์ที่ไม่คาดคิด เช่น เอาต์พุตที่ไม่ถูกต้อง ลำเอียง หรือไม่เหมาะสม กระบวนการหลังการประมวลผลและการประเมินโดยเจ้าหน้าที่อย่างเข้มงวดเป็นสิ่งจำเป็นเพื่อจำกัดความเสี่ยงที่จะเป็นอันตรายจากผลลัพธ์ดังกล่าว โปรดดูคำแนะนำด้านความปลอดภัยเพิ่มเติมสำหรับคำแนะนำเกี่ยวกับการใช้งานที่ปลอดภัย
โมเดลจาก Gemini API จะใช้ได้กับ Generative AI และแอปพลิเคชันการประมวลผลภาษาธรรมชาติ (NLP) ที่หลากหลาย การใช้งานฟังก์ชันเหล่านี้ใช้งานได้ผ่าน Gemini API หรือเว็บแอป Google AI Studio เท่านั้น การใช้ Gemini API ของคุณยังขึ้นอยู่กับนโยบายการใช้งานที่ไม่อนุญาตของ Generative AI และข้อกำหนดในการให้บริการของ Gemini API ด้วย
รายละเอียดปลีกย่อยของรุ่น
Gemini API มีโมเดลต่างๆ ที่ได้รับการเพิ่มประสิทธิภาพสำหรับกรณีการใช้งานเฉพาะ ภาพรวมคร่าวๆ ของตัวแปร Gemini ที่มีให้เลือกมีดังนี้
ตัวแปรของรุ่น | อินพุต | เอาต์พุต | เพิ่มประสิทธิภาพสำหรับ |
---|---|---|---|
Gemini 1.5 Pro (เวอร์ชันตัวอย่าง) | เสียง รูปภาพ และข้อความ | ข้อความ | งานการให้เหตุผล ซึ่งรวมถึง (แต่ไม่จำกัดเพียง) การสร้างโค้ดและข้อความ การแก้ไขข้อความ การแก้ปัญหา การดึงข้อมูลและการสร้าง |
Gemini 1.5 Flash (เวอร์ชันตัวอย่าง) | เสียง รูปภาพ และข้อความ | ข้อความ | ประสิทธิภาพที่รวดเร็วและอเนกประสงค์สำหรับงานที่หลากหลาย |
Gemini 1.0 Pro | ข้อความ | ข้อความ | งานภาษาธรรมชาติ การแชทด้วยข้อความและโค้ดแบบมัลติเทิร์น และการสร้างโค้ด |
วิสัยทัศน์ของ Gemini 1.0 Pro | รูปภาพและข้อความ | ข้อความ | ประสิทธิภาพที่เพิ่มประสิทธิภาพเพื่องานที่เกี่ยวข้องกับภาพ เช่น การสร้างคำอธิบายรูปภาพหรือการระบุวัตถุในรูปภาพ |
การฝังข้อความ | ข้อความ | การฝังข้อความ | สร้างการฝังข้อความแบบยืดหยุ่นด้วยขนาดได้สูงสุด 768 ขนาดสำหรับข้อความที่มีโทเค็นได้สูงสุด 2,048 รายการ |
การฝัง | ข้อความ | การฝังข้อความ | สร้างการฝังข้อความด้วยมิติข้อมูล 768 รายการสำหรับข้อความสูงสุด 2,048 โทเค็น |
AQA | ข้อความ | ข้อความ | ทำงานที่เกี่ยวข้องกับการตอบคำถามที่มีการระบุแหล่งที่มาเหนือข้อความที่ให้ไว้ |
ตารางต่อไปนี้อธิบายแอตทริบิวต์ของโมเดล Gemini ซึ่ง เหมือนกับตัวแปรของโมเดลทั้งหมด
แอตทริบิวต์ | คำอธิบาย |
---|---|
ข้อมูลการฝึก | จุดตัดความรู้ของ Gemini คือช่วงต้นปี 2023 ความรู้เกี่ยวกับเหตุการณ์หลังจากเวลาดังกล่าวมีจำกัด |
ภาษาที่รองรับ | ดูภาษาที่ใช้ได้ |
พารามิเตอร์โมเดลที่กำหนดค่าได้ |
|
ดูข้อมูลเกี่ยวกับพารามิเตอร์แต่ละรายการได้ในส่วนพารามิเตอร์โมเดลของคู่มือโมเดล Generative
Gemini 1.5 Pro (ตัวอย่าง)
Gemini 1.5 Pro เป็นโมเดลมัลติโมดัลขนาดกลางที่เพิ่มประสิทธิภาพเพื่อการทำงานด้านการให้เหตุผลที่หลากหลาย เช่น
- การสร้างโค้ด
- การสร้างข้อความ
- การแก้ไขข้อความ
- การแก้ปัญหา
- การสร้างคำแนะนำ
- การดึงข้อมูล
- การแยกหรือการสร้างข้อมูล
- การสร้างตัวแทน AI
1.5 Pro ประมวลผลข้อมูลจำนวนมากพร้อมกันได้ ได้แก่ วิดีโอ 1 ชั่วโมง, เสียง 9.5 ชั่วโมง, ฐานของโค้ดที่มีโค้ดมากกว่า 30,000 บรรทัด หรือมากกว่า 700,000 คำ
1.5 Pro สามารถจัดการงานสำหรับการเรียนรู้แบบ 0, 1 และ 2-3 ช็อตได้
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | models/gemini-1.5-pro-latest |
อินพุต | เสียง รูปภาพ และข้อความ |
เอาต์พุต | ข้อความ |
วิธีการสร้างที่รองรับ |
generateContent
|
ขีดจำกัดโทเค็นอินพุต[**] | 1,048,576 |
ขีดจำกัดโทเค็นเอาต์พุต[**] | 8,192 คน |
จำนวนรูปภาพสูงสุดต่อพรอมต์ | 3,600 |
ความยาวสูงสุดของวิดีโอ | 1 ชั่วโมง |
ความยาวสูงสุดของเสียง | ประมาณ 9.5 ชั่วโมง |
จำนวนไฟล์เสียงสูงสุดต่อข้อความแจ้ง | 1 |
ความปลอดภัยของโมเดล | การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย |
ขีดจำกัดอัตรา[*] |
|
วิธีการสำหรับระบบ | รองรับ |
โหมด JSON | รองรับ |
เวอร์ชันล่าสุด | gemini-1.5-pro-latest |
เวอร์ชันล่าสุดที่เสถียร | gemini-1.5-pro |
อัปเดตล่าสุด | เมษายน 2024 |
Gemini 1.5 Flash (ตัวอย่าง)
Gemini 1.5 Flash คือโมเดลมัลติโมดัลที่รวดเร็วและอเนกประสงค์สำหรับการปรับขนาดงานต่างๆ ที่หลากหลาย
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | gemini-1.5-flash |
อินพุต | เสียง รูปภาพ และข้อความ |
เอาต์พุต | ข้อความ |
วิธีการสร้างที่รองรับ |
generateContent
|
ขีดจำกัดโทเค็นอินพุต[**] | 1,048,576 |
ขีดจำกัดโทเค็นเอาต์พุต[**] | 8,192 คน |
จำนวนรูปภาพสูงสุดต่อพรอมต์ | 3,600 |
ความยาวสูงสุดของวิดีโอ | 1 ชั่วโมง |
ความยาวสูงสุดของเสียง | ประมาณ 9.5 ชั่วโมง |
จำนวนไฟล์เสียงสูงสุดต่อข้อความแจ้ง | 1 |
ความปลอดภัยของโมเดล | การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย |
ขีดจำกัดอัตรา[*] |
|
วิธีการสำหรับระบบ | รองรับ |
โหมด JSON | รองรับ |
เวอร์ชันล่าสุด | gemini-1.5-flash-latest |
เวอร์ชันล่าสุดที่เสถียร | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro เป็นโมเดล NLP ที่จัดการงานต่างๆ เช่น ข้อความแบบมัลติเทิร์นและ การแชทด้วยโค้ด และการสร้างโค้ด
1.0 Pro สามารถจัดการงานสำหรับการเรียนรู้แบบ 0, 1 และ 2-3 ช็อตได้
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | models/gemini-pro |
อินพุต | ข้อความ |
เอาต์พุต | ข้อความ |
วิธีการสร้างที่รองรับ |
generate_content
generateContent
|
ขีดจำกัดอัตรา[*] |
|
วิธีการสำหรับระบบ | ไม่รองรับ |
โหมด JSON | ไม่รองรับ |
เวอร์ชันล่าสุด | gemini-1.0-pro-latest |
เวอร์ชันล่าสุดที่เสถียร | gemini-1.0-pro |
เวอร์ชันเสถียร | gemini-1.0-pro-001 |
อัปเดตล่าสุด | February 2024 |
วิสัยทัศน์ Gemini 1.0 Pro
Gemini 1.0 Pro Vision เป็นโมเดลแบบหลายโมดัลที่มีการเพิ่มประสิทธิภาพสูงสุดและทำงานที่เกี่ยวข้องกับภาพได้ เช่น 1.0 Pro Vision สามารถสร้างคำอธิบายรูปภาพ ระบุวัตถุที่แสดงในรูปภาพ ให้ข้อมูลเกี่ยวกับสถานที่หรือวัตถุที่แสดงในรูปภาพ และอื่นๆ
1.0 Pro Vision สามารถจัดการงานแบบ Zero 1, 1 และ 2-3 ได้
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | models/gemini-pro-vision |
อินพุต | ข้อความและรูปภาพ |
เอาต์พุต | ข้อความ |
วิธีการสร้างที่รองรับ |
generate_content
generateContent
|
ขีดจํากัดโทเค็นอินพุต[*] | 12,288 คน |
ขีดจำกัดโทเค็นเอาต์พุต[*] | 4,096 รายการ |
ขนาดรูปภาพสูงสุด | ไม่จำกัด |
จำนวนรูปภาพสูงสุดต่อพรอมต์ | 16 |
ความยาวสูงสุดของวิดีโอ | 2 นาที |
จำนวนวิดีโอสูงสุดต่อข้อความแจ้ง | 1 |
ความปลอดภัยของโมเดล | การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย |
ขีดจำกัดอัตรา[*] | 60 คำขอต่อนาที |
เวอร์ชันล่าสุด | gemini-1.0-pro-vision-latest |
เวอร์ชันล่าสุดที่เสถียร | gemini-1.0-pro-vision |
อัปเดตล่าสุด | ธันวาคม 2023 |
การฝังและการฝังข้อความ
การฝังข้อความ
คุณใช้โมเดลการฝังข้อความเพื่อสร้างการฝังข้อความสำหรับอินพุตข้อความได้ ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลการฝังข้อความได้ในเอกสารประกอบของ Generative AI ใน Vertex AI เกี่ยวกับการฝังข้อความ
โมเดลการฝังข้อความได้รับการเพิ่มประสิทธิภาพสำหรับการสร้างการฝังด้วยมิติข้อมูล 768 รายการสำหรับข้อความที่มีโทเค็นสูงสุด 2,048 รายการ การฝังข้อความมีขนาดการฝังที่ยืดหยุ่นไม่เกิน 768 อักขระ คุณสามารถใช้การฝังแบบยืดหยุ่นเพื่อสร้างขนาดเอาต์พุตที่เล็กลง และอาจประหยัดค่าใช้จ่ายในการประมวลผลและจัดเก็บข้อมูลโดยสูญเสียประสิทธิภาพไปเล็กน้อย
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น |
models/text-embedding-004
(text-embedding-preview-0409 ใน Vertex AI)
|
อินพุต | ข้อความ |
เอาต์พุต | การฝังข้อความ |
ขีดจำกัดโทเค็นอินพุต | 2,048 รายการ |
ขนาดมิติข้อมูลเอาต์พุต | 768 |
วิธีการสร้างที่รองรับ |
embed_content
embedContent
|
ความปลอดภัยของโมเดล | ไม่มีการตั้งค่าความปลอดภัยที่ปรับแต่งได้ |
ขีดจำกัดอัตรา[*] | คำขอ 1,500 รายการต่อนาที |
อัปเดตล่าสุด | เมษายน 2024 |
การฝัง
คุณใช้โมเดลการฝังเพื่อสร้างการฝังข้อความสำหรับอินพุตข้อความได้
โมเดลการฝังได้รับการเพิ่มประสิทธิภาพให้เหมาะสำหรับการสร้างการฝังด้วยมิติข้อมูล 768 รายการสำหรับข้อความที่มีโทเค็นสูงสุด 2,048 รายการ
รายละเอียดการฝังโมเดล
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | models/embedding-001 |
อินพุต | ข้อความ |
เอาต์พุต | การฝังข้อความ |
ขีดจำกัดโทเค็นอินพุต | 2,048 รายการ |
ขนาดมิติข้อมูลเอาต์พุต | 768 |
วิธีการสร้างที่รองรับ |
embed_content
embedContent
|
ความปลอดภัยของโมเดล | ไม่มีการตั้งค่าความปลอดภัยที่ปรับแต่งได้ |
ขีดจำกัดอัตรา[*] | คำขอ 1,500 รายการต่อนาที |
อัปเดตล่าสุด | ธันวาคม 2023 |
AQA
คุณสามารถใช้โมเดล AQA เพื่อทำงานที่เกี่ยวข้องกับการตอบคำถามที่มีการระบุแหล่งที่มา (AQA) ที่เกี่ยวข้องกับเอกสาร คลังข้อมูล หรือชุดข้อความ โมเดล AQA จะแสดงคำตอบของคำถามที่มีพื้นฐานมาจากแหล่งที่มาที่ให้ไว้ พร้อมกับการประมาณความน่าจะเป็นที่ตอบได้
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | models/aqa |
อินพุต | ข้อความ |
เอาต์พุต | ข้อความ |
วิธีการสร้างที่รองรับ |
GenerateAnswerRequest
generateAnswer
|
ภาษาที่รองรับ | อังกฤษ |
ขีดจำกัดโทเค็นอินพุต[**] | 7,168 |
ขีดจำกัดโทเค็นเอาต์พุต[**] | 1,024 คน |
ความปลอดภัยของโมเดล | การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย |
ขีดจำกัดอัตรา[*] | 60 คำขอต่อนาที |
อัปเดตล่าสุด | ธันวาคม 2023 |
ดูตัวอย่างเพื่อสำรวจความสามารถของรูปแบบรูปแบบต่างๆ เหล่านี้
[*] โทเค็นจะมีจำนวนอักขระประมาณ 4 ตัวสำหรับโมเดล Gemini โทเค็น 100 รายการ มีคำภาษาอังกฤษประมาณ 60-80 คำ
[**] RPM: คำขอต่อนาที
TPM: โทเค็นต่อนาที
RPD: คำขอต่อวัน
TPD: โทเค็นต่อวัน
เนื่องจากขีดจำกัดของความจุ ระบบไม่รับประกันขีดจำกัดอัตราสูงสุดที่ระบุไว้
รูปแบบชื่อเวอร์ชันโมเดล
รุ่น Gemini มีให้ใช้งานทั้งในเวอร์ชันตัวอย่างหรือเวอร์ชันเสถียร ในโค้ด คุณสามารถใช้รูปแบบชื่อโมเดลแบบใดแบบหนึ่งต่อไปนี้เพื่อระบุโมเดลและเวอร์ชันที่ต้องการใช้
ล่าสุด: ชี้ไปยังโมเดลอันล้ำสมัยสำหรับรุ่นและรูปแบบที่ระบุ โมเดลที่สำคัญจะอัปเดตเป็นประจำและอาจเป็นเวอร์ชันตัวอย่าง มีเพียงแอปทดสอบและต้นแบบสำหรับการทดสอบในการสำรวจเท่านั้นที่จะใช้ชื่อแทนนี้ได้
หากต้องการระบุเวอร์ชันล่าสุด ให้ใช้รูปแบบต่อไปนี้:
<model>-<generation>-<variation>-latest
ตัวอย่างเช่นgemini-1.0-pro-latest
เวอร์ชันเสถียรล่าสุด: ชี้ไปยังเวอร์ชันเสถียรล่าสุดที่เผยแพร่สำหรับรุ่นและรูปแบบที่ระบุ
หากต้องการระบุเวอร์ชันเสถียรล่าสุด ให้ใช้รูปแบบต่อไปนี้:
<model>-<generation>-<variation>
เช่นgemini-1.0-pro
เสถียร: ชี้ไปที่โมเดลที่มีความเสถียรที่เจาะจง โมเดลที่เสถียรจะไม่เปลี่ยนแปลง แอปเวอร์ชันที่ใช้งานจริงส่วนใหญ่ควรใช้โมเดลที่เสถียรโดยเฉพาะ
หากต้องการระบุเวอร์ชันเสถียร ให้ใช้รูปแบบต่อไปนี้:
<model>-<generation>-<variation>-<version>
ตัวอย่างเช่นgemini-1.0-pro-001