Gemini

Gemini คือชุดโมเดล Generative AI ที่ช่วยให้นักพัฒนาซอฟต์แวร์สร้างเนื้อหาและแก้ไขปัญหาได้ โมเดลเหล่านี้ได้รับการออกแบบและฝึกให้จัดการทั้งข้อความและรูปภาพเป็นอินพุต คู่มือนี้ให้ข้อมูลเกี่ยวกับรายละเอียดปลีกย่อยของรุ่นแต่ละรูปแบบเพื่อช่วยคุณตัดสินใจว่ารูปแบบใดเหมาะกับกรณีการใช้งานของคุณที่สุด

ความปลอดภัยและการใช้งานตามจุดประสงค์

โมเดลปัญญาประดิษฐ์แบบ Generative เป็นเครื่องมือที่มีประสิทธิภาพ แต่ก็ยังมีข้อจำกัด ความคล่องตัวและประโยชน์ใช้สอยของผู้ใช้บางครั้งอาจนำไปสู่ผลลัพธ์ที่ไม่คาดคิด เช่น เอาต์พุตที่ไม่ถูกต้อง ลำเอียง หรือไม่เหมาะสม กระบวนการหลังการประมวลผลและการประเมินโดยเจ้าหน้าที่อย่างเข้มงวดเป็นสิ่งจำเป็นเพื่อจำกัดความเสี่ยงที่จะเป็นอันตรายจากผลลัพธ์ดังกล่าว โปรดดูคำแนะนำด้านความปลอดภัยเพิ่มเติมสำหรับคำแนะนำเกี่ยวกับการใช้งานที่ปลอดภัย

โมเดลจาก Gemini API จะใช้ได้กับ Generative AI และแอปพลิเคชันการประมวลผลภาษาธรรมชาติ (NLP) ที่หลากหลาย การใช้งานฟังก์ชันเหล่านี้ใช้งานได้ผ่าน Gemini API หรือเว็บแอป Google AI Studio เท่านั้น การใช้ Gemini API ของคุณยังขึ้นอยู่กับนโยบายการใช้งานที่ไม่อนุญาตของ Generative AI และข้อกำหนดในการให้บริการของ Gemini API ด้วย

รายละเอียดปลีกย่อยของรุ่น

Gemini API มีโมเดลต่างๆ ที่ได้รับการเพิ่มประสิทธิภาพสำหรับกรณีการใช้งานเฉพาะ ภาพรวมคร่าวๆ ของตัวแปร Gemini ที่มีให้เลือกมีดังนี้

ตัวแปรของรุ่น อินพุต เอาต์พุต เพิ่มประสิทธิภาพสำหรับ
Gemini 1.5 Pro (เวอร์ชันตัวอย่าง) เสียง รูปภาพ และข้อความ ข้อความ งานการให้เหตุผล ซึ่งรวมถึง (แต่ไม่จำกัดเพียง) การสร้างโค้ดและข้อความ การแก้ไขข้อความ การแก้ปัญหา การดึงข้อมูลและการสร้าง
Gemini 1.5 Flash (เวอร์ชันตัวอย่าง) เสียง รูปภาพ และข้อความ ข้อความ ประสิทธิภาพที่รวดเร็วและอเนกประสงค์สำหรับงานที่หลากหลาย
Gemini 1.0 Pro ข้อความ ข้อความ งานภาษาธรรมชาติ การแชทด้วยข้อความและโค้ดแบบมัลติเทิร์น และการสร้างโค้ด
วิสัยทัศน์ของ Gemini 1.0 Pro รูปภาพและข้อความ ข้อความ ประสิทธิภาพที่เพิ่มประสิทธิภาพเพื่องานที่เกี่ยวข้องกับภาพ เช่น การสร้างคำอธิบายรูปภาพหรือการระบุวัตถุในรูปภาพ
การฝังข้อความ ข้อความ การฝังข้อความ สร้างการฝังข้อความแบบยืดหยุ่นด้วยขนาดได้สูงสุด 768 ขนาดสำหรับข้อความที่มีโทเค็นได้สูงสุด 2,048 รายการ
การฝัง ข้อความ การฝังข้อความ สร้างการฝังข้อความด้วยมิติข้อมูล 768 รายการสำหรับข้อความสูงสุด 2,048 โทเค็น
AQA ข้อความ ข้อความ ทำงานที่เกี่ยวข้องกับการตอบคำถามที่มีการระบุแหล่งที่มาเหนือข้อความที่ให้ไว้

ตารางต่อไปนี้อธิบายแอตทริบิวต์ของโมเดล Gemini ซึ่ง เหมือนกับตัวแปรของโมเดลทั้งหมด

แอตทริบิวต์ คำอธิบาย
ข้อมูลการฝึก จุดตัดความรู้ของ Gemini คือช่วงต้นปี 2023 ความรู้เกี่ยวกับเหตุการณ์หลังจากเวลาดังกล่าวมีจำกัด
ภาษาที่รองรับ ดูภาษาที่ใช้ได้
พารามิเตอร์โมเดลที่กำหนดค่าได้
  • ตำแหน่งบนสุด
  • เพลงอันดับสูงสุด
  • อุณหภูมิ
  • หยุดลำดับ
  • ความยาวเอาต์พุตสูงสุด
  • จำนวนผู้ตอบแบบสอบถาม

ดูข้อมูลเกี่ยวกับพารามิเตอร์แต่ละรายการได้ในส่วนพารามิเตอร์โมเดลของคู่มือโมเดล Generative

Gemini 1.5 Pro (ตัวอย่าง)

Gemini 1.5 Pro เป็นโมเดลมัลติโมดัลขนาดกลางที่เพิ่มประสิทธิภาพเพื่อการทำงานด้านการให้เหตุผลที่หลากหลาย เช่น

  • การสร้างโค้ด
  • การสร้างข้อความ
  • การแก้ไขข้อความ
  • การแก้ปัญหา
  • การสร้างคำแนะนำ
  • การดึงข้อมูล
  • การแยกหรือการสร้างข้อมูล
  • การสร้างตัวแทน AI

1.5 Pro ประมวลผลข้อมูลจำนวนมากพร้อมกันได้ ได้แก่ วิดีโอ 1 ชั่วโมง, เสียง 9.5 ชั่วโมง, ฐานของโค้ดที่มีโค้ดมากกว่า 30,000 บรรทัด หรือมากกว่า 700,000 คำ

1.5 Pro สามารถจัดการงานสำหรับการเรียนรู้แบบ 0, 1 และ 2-3 ช็อตได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/gemini-1.5-pro-latest
อินพุต เสียง รูปภาพ และข้อความ
เอาต์พุต ข้อความ
วิธีการสร้างที่รองรับ generateContent
ขีดจำกัดโทเค็นอินพุต[**] 1,048,576
ขีดจำกัดโทเค็นเอาต์พุต[**] 8,192 คน
จำนวนรูปภาพสูงสุดต่อพรอมต์ 3,600
ความยาวสูงสุดของวิดีโอ 1 ชั่วโมง
ความยาวสูงสุดของเสียง ประมาณ 9.5 ชั่วโมง
จำนวนไฟล์เสียงสูงสุดต่อข้อความแจ้ง 1
ความปลอดภัยของโมเดล การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา[*]
ฟรี:
  • 2 รอบ
  • 32,000 TPM
  • 50 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 RPM
  • 10 ล้าน TPM
  • 10,000 RPD
  • 14,400,000,000 TPD
บริบทกว่า 2 ล้านรูปแบบ
  • 1 รอบ
  • 2 ล้าน TPM
  • 50 RPD
วิธีการสำหรับระบบ รองรับ
โหมด JSON รองรับ
เวอร์ชันล่าสุด gemini-1.5-pro-latest
เวอร์ชันล่าสุดที่เสถียร gemini-1.5-pro
อัปเดตล่าสุด เมษายน 2024

Gemini 1.5 Flash (ตัวอย่าง)

Gemini 1.5 Flash คือโมเดลมัลติโมดัลที่รวดเร็วและอเนกประสงค์สำหรับการปรับขนาดงานต่างๆ ที่หลากหลาย

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น gemini-1.5-flash
อินพุต เสียง รูปภาพ และข้อความ
เอาต์พุต ข้อความ
วิธีการสร้างที่รองรับ generateContent
ขีดจำกัดโทเค็นอินพุต[**] 1,048,576
ขีดจำกัดโทเค็นเอาต์พุต[**] 8,192 คน
จำนวนรูปภาพสูงสุดต่อพรอมต์ 3,600
ความยาวสูงสุดของวิดีโอ 1 ชั่วโมง
ความยาวสูงสุดของเสียง ประมาณ 9.5 ชั่วโมง
จำนวนไฟล์เสียงสูงสุดต่อข้อความแจ้ง 1
ความปลอดภัยของโมเดล การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา[*]
ฟรี:
  • 15 ครั้งต่อนาที
  • 1 ล้าน TPM
  • 1,500 RPD
Pay-as-you-go:
  • 360 RPM
  • 10 ล้าน TPM
  • 10,000 RPD
วิธีการสำหรับระบบ รองรับ
โหมด JSON รองรับ
เวอร์ชันล่าสุด gemini-1.5-flash-latest
เวอร์ชันล่าสุดที่เสถียร gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro เป็นโมเดล NLP ที่จัดการงานต่างๆ เช่น ข้อความแบบมัลติเทิร์นและ การแชทด้วยโค้ด และการสร้างโค้ด

1.0 Pro สามารถจัดการงานสำหรับการเรียนรู้แบบ 0, 1 และ 2-3 ช็อตได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/gemini-pro
อินพุต ข้อความ
เอาต์พุต ข้อความ
วิธีการสร้างที่รองรับ
Python: generate_content
REST: generateContent
ขีดจำกัดอัตรา[*]
ฟรี:
  • 15 ครั้งต่อนาที
  • 32,000 TPM
  • 1,500 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 RPM
  • 120,000 TPM
  • 30,000 RPD
  • 172,800,000 TPD
วิธีการสำหรับระบบ ไม่รองรับ
โหมด JSON ไม่รองรับ
เวอร์ชันล่าสุด gemini-1.0-pro-latest
เวอร์ชันล่าสุดที่เสถียร gemini-1.0-pro
เวอร์ชันเสถียร gemini-1.0-pro-001
อัปเดตล่าสุด February 2024

วิสัยทัศน์ Gemini 1.0 Pro

Gemini 1.0 Pro Vision เป็นโมเดลแบบหลายโมดัลที่มีการเพิ่มประสิทธิภาพสูงสุดและทำงานที่เกี่ยวข้องกับภาพได้ เช่น 1.0 Pro Vision สามารถสร้างคำอธิบายรูปภาพ ระบุวัตถุที่แสดงในรูปภาพ ให้ข้อมูลเกี่ยวกับสถานที่หรือวัตถุที่แสดงในรูปภาพ และอื่นๆ

1.0 Pro Vision สามารถจัดการงานแบบ Zero 1, 1 และ 2-3 ได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/gemini-pro-vision
อินพุต ข้อความและรูปภาพ
เอาต์พุต ข้อความ
วิธีการสร้างที่รองรับ
Python: generate_content
REST: generateContent
ขีดจํากัดโทเค็นอินพุต[*] 12,288 คน
ขีดจำกัดโทเค็นเอาต์พุต[*] 4,096 รายการ
ขนาดรูปภาพสูงสุด ไม่จำกัด
จำนวนรูปภาพสูงสุดต่อพรอมต์ 16
ความยาวสูงสุดของวิดีโอ 2 นาที
จำนวนวิดีโอสูงสุดต่อข้อความแจ้ง 1
ความปลอดภัยของโมเดล การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา[*] 60 คำขอต่อนาที
เวอร์ชันล่าสุด gemini-1.0-pro-vision-latest
เวอร์ชันล่าสุดที่เสถียร gemini-1.0-pro-vision
อัปเดตล่าสุด ธันวาคม 2023

การฝังและการฝังข้อความ

การฝังข้อความ

คุณใช้โมเดลการฝังข้อความเพื่อสร้างการฝังข้อความสำหรับอินพุตข้อความได้ ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลการฝังข้อความได้ในเอกสารประกอบของ Generative AI ใน Vertex AI เกี่ยวกับการฝังข้อความ

โมเดลการฝังข้อความได้รับการเพิ่มประสิทธิภาพสำหรับการสร้างการฝังด้วยมิติข้อมูล 768 รายการสำหรับข้อความที่มีโทเค็นสูงสุด 2,048 รายการ การฝังข้อความมีขนาดการฝังที่ยืดหยุ่นไม่เกิน 768 อักขระ คุณสามารถใช้การฝังแบบยืดหยุ่นเพื่อสร้างขนาดเอาต์พุตที่เล็กลง และอาจประหยัดค่าใช้จ่ายในการประมวลผลและจัดเก็บข้อมูลโดยสูญเสียประสิทธิภาพไปเล็กน้อย

รายละเอียดรุ่น
พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/text-embedding-004 (text-embedding-preview-0409 ใน Vertex AI)
อินพุต ข้อความ
เอาต์พุต การฝังข้อความ
ขีดจำกัดโทเค็นอินพุต 2,048 รายการ
ขนาดมิติข้อมูลเอาต์พุต 768
วิธีการสร้างที่รองรับ
Python: embed_content
REST: embedContent
ความปลอดภัยของโมเดล ไม่มีการตั้งค่าความปลอดภัยที่ปรับแต่งได้
ขีดจำกัดอัตรา[*] คำขอ 1,500 รายการต่อนาที
อัปเดตล่าสุด เมษายน 2024

การฝัง

คุณใช้โมเดลการฝังเพื่อสร้างการฝังข้อความสำหรับอินพุตข้อความได้

โมเดลการฝังได้รับการเพิ่มประสิทธิภาพให้เหมาะสำหรับการสร้างการฝังด้วยมิติข้อมูล 768 รายการสำหรับข้อความที่มีโทเค็นสูงสุด 2,048 รายการ

รายละเอียดการฝังโมเดล
พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/embedding-001
อินพุต ข้อความ
เอาต์พุต การฝังข้อความ
ขีดจำกัดโทเค็นอินพุต 2,048 รายการ
ขนาดมิติข้อมูลเอาต์พุต 768
วิธีการสร้างที่รองรับ
Python: embed_content
REST: embedContent
ความปลอดภัยของโมเดล ไม่มีการตั้งค่าความปลอดภัยที่ปรับแต่งได้
ขีดจำกัดอัตรา[*] คำขอ 1,500 รายการต่อนาที
อัปเดตล่าสุด ธันวาคม 2023

AQA

คุณสามารถใช้โมเดล AQA เพื่อทำงานที่เกี่ยวข้องกับการตอบคำถามที่มีการระบุแหล่งที่มา (AQA) ที่เกี่ยวข้องกับเอกสาร คลังข้อมูล หรือชุดข้อความ โมเดล AQA จะแสดงคำตอบของคำถามที่มีพื้นฐานมาจากแหล่งที่มาที่ให้ไว้ พร้อมกับการประมาณความน่าจะเป็นที่ตอบได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้ คำอธิบาย
รหัสรุ่น models/aqa
อินพุต ข้อความ
เอาต์พุต ข้อความ
วิธีการสร้างที่รองรับ
Python: GenerateAnswerRequest
REST: generateAnswer
ภาษาที่รองรับ อังกฤษ
ขีดจำกัดโทเค็นอินพุต[**] 7,168
ขีดจำกัดโทเค็นเอาต์พุต[**] 1,024 คน
ความปลอดภัยของโมเดล การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา[*] 60 คำขอต่อนาที
อัปเดตล่าสุด ธันวาคม 2023

ดูตัวอย่างเพื่อสำรวจความสามารถของรูปแบบรูปแบบต่างๆ เหล่านี้

[*] โทเค็นจะมีจำนวนอักขระประมาณ 4 ตัวสำหรับโมเดล Gemini โทเค็น 100 รายการ มีคำภาษาอังกฤษประมาณ 60-80 คำ

[**] RPM: คำขอต่อนาที
TPM: โทเค็นต่อนาที
RPD: คำขอต่อวัน
TPD: โทเค็นต่อวัน

เนื่องจากขีดจำกัดของความจุ ระบบไม่รับประกันขีดจำกัดอัตราสูงสุดที่ระบุไว้

รูปแบบชื่อเวอร์ชันโมเดล

รุ่น Gemini มีให้ใช้งานทั้งในเวอร์ชันตัวอย่างหรือเวอร์ชันเสถียร ในโค้ด คุณสามารถใช้รูปแบบชื่อโมเดลแบบใดแบบหนึ่งต่อไปนี้เพื่อระบุโมเดลและเวอร์ชันที่ต้องการใช้

  • ล่าสุด: ชี้ไปยังโมเดลอันล้ำสมัยสำหรับรุ่นและรูปแบบที่ระบุ โมเดลที่สำคัญจะอัปเดตเป็นประจำและอาจเป็นเวอร์ชันตัวอย่าง มีเพียงแอปทดสอบและต้นแบบสำหรับการทดสอบในการสำรวจเท่านั้นที่จะใช้ชื่อแทนนี้ได้

    หากต้องการระบุเวอร์ชันล่าสุด ให้ใช้รูปแบบต่อไปนี้: <model>-<generation>-<variation>-latest ตัวอย่างเช่น gemini-1.0-pro-latest

  • เวอร์ชันเสถียรล่าสุด: ชี้ไปยังเวอร์ชันเสถียรล่าสุดที่เผยแพร่สำหรับรุ่นและรูปแบบที่ระบุ

    หากต้องการระบุเวอร์ชันเสถียรล่าสุด ให้ใช้รูปแบบต่อไปนี้: <model>-<generation>-<variation> เช่น gemini-1.0-pro

  • เสถียร: ชี้ไปที่โมเดลที่มีความเสถียรที่เจาะจง โมเดลที่เสถียรจะไม่เปลี่ยนแปลง แอปเวอร์ชันที่ใช้งานจริงส่วนใหญ่ควรใช้โมเดลที่เสถียรโดยเฉพาะ

    หากต้องการระบุเวอร์ชันเสถียร ให้ใช้รูปแบบต่อไปนี้: <model>-<generation>-<variation>-<version> ตัวอย่างเช่น gemini-1.0-pro-001