Gemini API มีกลไกการเพิ่มประสิทธิภาพที่หลากหลายเพื่อช่วยให้คุณรักษาสมดุลระหว่างความเร็ว ต้นทุน และความน่าเชื่อถือตามความต้องการของภาระงานที่เฉพาะเจาะจง ไม่ว่าคุณจะสร้างบ็อตสนทนาแบบเรียลไทม์หรือเรียกใช้ไปป์ไลน์การประมวลผลข้อมูลแบบออฟไลน์ที่มีปริมาณมาก การเลือกกระบวนทัศน์ที่เหมาะสมจะช่วยลดต้นทุนหรือเพิ่มประสิทธิภาพได้อย่างมาก
| ฟีเจอร์ | มาตรฐาน | พับ | ลำดับความสำคัญ | กลุ่ม | กำลังแคช |
|---|---|---|---|---|---|
| การกำหนดราคา | ราคาเต็ม | ส่วนลด 50% | มากกว่ามาตรฐาน 75% ถึง 100% | ส่วนลด 50% | พื้นที่เก็บข้อมูลโทเค็นตามสัดส่วน |
| เวลาในการตอบสนอง | วินาทีถึงนาที | นาที (เป้าหมาย 1-15 นาที) | ต่ำ (วินาที) | สูงสุด 24 ชั่วโมง | เวลาที่ได้รับโทเค็นแรกเร็วขึ้น |
| ความน่าเชื่อถือ | สูง / สูงปานกลาง | ดีที่สุดเท่าที่ทำได้ (ลดภาระได้) | สูง (ไม่หลุดร่วง) | สูง (สำหรับอัตราการส่งข้อมูล) | ไม่มี |
| อินเทอร์เฟซ | พร้อมกัน | พร้อมกัน | พร้อมกัน | อะซิงโครนัส | สถานะที่บันทึกไว้ |
| Use Case ที่ดีที่สุด | เวิร์กโฟลว์การสมัครทั่วไป | เชนแบบลำดับที่ไม่เร่งด่วน | แอปที่พร้อมใช้งานและแอปที่ผู้ใช้มองเห็น | ชุดข้อมูลขนาดใหญ่ การประเมินแบบออฟไลน์ | การค้นหาที่เกิดซ้ำในไฟล์เดียวกัน |
ระดับบริการอนุมาน (ซิงโครนัส)
คุณสามารถสลับระหว่างการเข้าชมแบบซิงโครนัสที่เพิ่มประสิทธิภาพเวลาในการตอบสนองกับการเข้าชมแบบซิงโครนัสที่เพิ่มประสิทธิภาพต้นทุนได้
โดยส่งพารามิเตอร์ service_tier ในการเรียกการสร้างมาตรฐาน
การอนุมานมาตรฐาน (ค่าเริ่มต้น)
ระดับมาตรฐานเป็นตัวเลือกเริ่มต้นสำหรับการสร้างเนื้อหาตามลำดับ ซึ่งจะช่วยให้ใช้เวลาตอบสนองตามปกติโดยไม่ต้องเสียค่าธรรมเนียมเพิ่มเติมหรือรอคิวนาน
- เวลาในการตอบสนอง: วินาทีถึงนาที
- ราคา: ราคามาตรฐาน
- เหมาะสำหรับ: แอปพลิเคชันแบบโต้ตอบส่วนใหญ่ที่ใช้ในชีวิตประจำวัน
การอนุมานที่มีลำดับความสำคัญ (เพิ่มประสิทธิภาพเวลาในการตอบสนอง)
ลำดับความสำคัญจะกำหนดเส้นทางการประมวลผลคำขอของคุณไปยังคิวการประมวลผลที่มีความสำคัญสูง การเข้าชมนี้เป็นแบบไม่สามารถลดทอนได้ (ไม่ถูกแทนที่ด้วยระดับอื่นๆ) และมีความน่าเชื่อถือสูงสุด หากคุณเกินขีดจำกัดลำดับความสำคัญแบบไดนามิก ระบบจะลดระดับคำขอเป็นการประมวลผลแบบมาตรฐานอย่างเหมาะสมแทนที่จะล้มเหลวพร้อมข้อผิดพลาด
- เวลาในการตอบสนอง: ต่ำพิเศษ (มิลลิวินาทีถึงวินาที)
- ราคา: สูงกว่าราคามาตรฐาน 75% ถึง 100%
- เหมาะสำหรับ: แชทบอทสำหรับลูกค้าแบบเรียลไทม์ การตรวจหาการประพฤติมิชอบแบบเรียลไทม์ และ ผู้ช่วยแบบเรียลไทม์ที่สำคัญต่อธุรกิจ
การอนุมานแบบยืดหยุ่น (เพิ่มประสิทธิภาพด้านต้นทุน)
การอนุมานแบบยืดหยุ่นให้ส่วนลด 50% เมื่อเทียบกับอัตรามาตรฐานโดยใช้ ความสามารถในการประมวลผลแบบออฟพีคตามโอกาส ระบบจะประมวลผลคำขอแบบ ซิงโครนัส ซึ่งหมายความว่าคุณไม่จำเป็นต้องเขียนโค้ดใหม่เพื่อจัดการออบเจ็กต์แบบกลุ่ม เนื่องจากเป็นทราฟิกที่ "ลด" ได้ ระบบจึงอาจหยุดคำขอชั่วคราวหากระบบ พบว่ามีการเพิ่มขึ้นของทราฟิกมาตรฐาน
- เวลาในการตอบสนอง: ไม่รับประกัน เป้าหมายคือ 1-15 นาที
- ราคา: 50% ของราคามาตรฐาน (เรียกเก็บเงินต่อโทเค็น)
- เหมาะสำหรับ: เวิร์กโฟลว์ของเอเจนต์แบบหลายขั้นตอนที่การเรียกใช้ N+1 ขึ้นอยู่กับ เอาต์พุตของการเรียกใช้ N, การอัปเดต CRM ในเบื้องหลัง และการประเมินแบบออฟไลน์
Batch API (แบบกลุ่ม แบบไม่พร้อมกัน)
Batch API ออกแบบมาเพื่อประมวลผลคำขอจำนวนมากแบบไม่พร้อมกันที่ 50% ของต้นทุนมาตรฐาน คุณส่งคำขอเป็นพจนานุกรมในบรรทัด หรือใช้ไฟล์อินพุต JSONL (สูงสุด 2 GB) ก็ได้ โดยจะประมวลผลคำขอโดยใช้คิวที่มีปริมาณงานเบื้องหลังที่มีเวลาในการตอบกลับเป้าหมาย 24 ชั่วโมง
- เวลาในการตอบสนอง: สูง (สูงสุด 24 ชั่วโมง)
- ราคา: 50% ของราคามาตรฐาน
- เหมาะสำหรับ: การประมวลผลล่วงหน้าของชุดข้อมูลขนาดใหญ่ การเรียกใช้ชุดการทดสอบการถดถอยเป็นระยะ และการสร้างรูปภาพหรือการฝังจำนวนมาก
การแคชบริบท (ประหยัดอินพุต)
การแคชบริบทจะใช้เมื่อคำขอที่สั้นกว่าอ้างอิงบริบทเริ่มต้นที่สำคัญซ้ำๆ
- การแคชโดยนัย: เปิดใช้โดยอัตโนมัติใน Gemini 2.5 และโมเดลที่ใหม่กว่า ระบบจะส่งต่อการประหยัดต้นทุนหากคำขอของคุณตรงกับแคชที่มีอยู่โดยอิงตาม คำนำหน้าพรอมต์ทั่วไป
- การแคชอย่างชัดเจน: คุณสร้างออบเจ็กต์แคชด้วยตนเองโดยมี Time-To-Live (TTL) ที่เฉพาะเจาะจงได้ เมื่อสร้างแล้ว คุณจะอ้างอิงโทเค็นที่แคชไว้สำหรับคำขอในภายหลังเพื่อหลีกเลี่ยงการส่งเพย์โหลดคลังเดียวกันซ้ำๆ
- ราคา: เรียกเก็บเงินตามจำนวนโทเค็นแคชและระยะเวลาการจัดเก็บ (TTL)
- เหมาะสำหรับ: แชทบอทที่มีคำสั่งของระบบจำนวนมาก การวิเคราะห์ซ้ำๆ ของไฟล์วิดีโอขนาดยาว หรือการค้นหาชุดเอกสารขนาดใหญ่