การเพิ่มประสิทธิภาพและการอนุมาน Gemini API

Gemini API มีกลไกการเพิ่มประสิทธิภาพที่หลากหลายเพื่อช่วยให้คุณรักษาสมดุลระหว่างความเร็ว ต้นทุน และความน่าเชื่อถือตามความต้องการของภาระงานที่เฉพาะเจาะจง ไม่ว่าคุณจะสร้างบ็อตสนทนาแบบเรียลไทม์หรือเรียกใช้ไปป์ไลน์การประมวลผลข้อมูลแบบออฟไลน์ที่มีปริมาณมาก การเลือกกระบวนทัศน์ที่เหมาะสมจะช่วยลดต้นทุนหรือเพิ่มประสิทธิภาพได้อย่างมาก

ฟีเจอร์ มาตรฐาน พับ ลำดับความสำคัญ กลุ่ม กำลังแคช
การกำหนดราคา ราคาเต็ม ส่วนลด 50% มากกว่ามาตรฐาน 75% ถึง 100% ส่วนลด 50% พื้นที่เก็บข้อมูลโทเค็นตามสัดส่วน
เวลาในการตอบสนอง วินาทีถึงนาที นาที (เป้าหมาย 1-15 นาที) ต่ำ (วินาที) สูงสุด 24 ชั่วโมง เวลาที่ได้รับโทเค็นแรกเร็วขึ้น
ความน่าเชื่อถือ สูง / สูงปานกลาง ดีที่สุดเท่าที่ทำได้ (ลดภาระได้) สูง (ไม่หลุดร่วง) สูง (สำหรับอัตราการส่งข้อมูล) ไม่มี
อินเทอร์เฟซ พร้อมกัน พร้อมกัน พร้อมกัน อะซิงโครนัส สถานะที่บันทึกไว้
Use Case ที่ดีที่สุด เวิร์กโฟลว์การสมัครทั่วไป เชนแบบลำดับที่ไม่เร่งด่วน แอปที่พร้อมใช้งานและแอปที่ผู้ใช้มองเห็น ชุดข้อมูลขนาดใหญ่ การประเมินแบบออฟไลน์ การค้นหาที่เกิดซ้ำในไฟล์เดียวกัน

ระดับบริการอนุมาน (ซิงโครนัส)

คุณสามารถสลับระหว่างการเข้าชมแบบซิงโครนัสที่เพิ่มประสิทธิภาพเวลาในการตอบสนองกับการเข้าชมแบบซิงโครนัสที่เพิ่มประสิทธิภาพต้นทุนได้ โดยส่งพารามิเตอร์ service_tier ในการเรียกการสร้างมาตรฐาน

การอนุมานมาตรฐาน (ค่าเริ่มต้น)

ระดับมาตรฐานเป็นตัวเลือกเริ่มต้นสำหรับการสร้างเนื้อหาตามลำดับ ซึ่งจะช่วยให้ใช้เวลาตอบสนองตามปกติโดยไม่ต้องเสียค่าธรรมเนียมเพิ่มเติมหรือรอคิวนาน

  • เวลาในการตอบสนอง: วินาทีถึงนาที
  • ราคา: ราคามาตรฐาน
  • เหมาะสำหรับ: แอปพลิเคชันแบบโต้ตอบส่วนใหญ่ที่ใช้ในชีวิตประจำวัน

การอนุมานที่มีลำดับความสำคัญ (เพิ่มประสิทธิภาพเวลาในการตอบสนอง)

ลำดับความสำคัญจะกำหนดเส้นทางการประมวลผลคำขอของคุณไปยังคิวการประมวลผลที่มีความสำคัญสูง การเข้าชมนี้เป็นแบบไม่สามารถลดทอนได้ (ไม่ถูกแทนที่ด้วยระดับอื่นๆ) และมีความน่าเชื่อถือสูงสุด หากคุณเกินขีดจำกัดลำดับความสำคัญแบบไดนามิก ระบบจะลดระดับคำขอเป็นการประมวลผลแบบมาตรฐานอย่างเหมาะสมแทนที่จะล้มเหลวพร้อมข้อผิดพลาด

  • เวลาในการตอบสนอง: ต่ำพิเศษ (มิลลิวินาทีถึงวินาที)
  • ราคา: สูงกว่าราคามาตรฐาน 75% ถึง 100%
  • เหมาะสำหรับ: แชทบอทสำหรับลูกค้าแบบเรียลไทม์ การตรวจหาการประพฤติมิชอบแบบเรียลไทม์ และ ผู้ช่วยแบบเรียลไทม์ที่สำคัญต่อธุรกิจ

การอนุมานแบบยืดหยุ่น (เพิ่มประสิทธิภาพด้านต้นทุน)

การอนุมานแบบยืดหยุ่นให้ส่วนลด 50% เมื่อเทียบกับอัตรามาตรฐานโดยใช้ ความสามารถในการประมวลผลแบบออฟพีคตามโอกาส ระบบจะประมวลผลคำขอแบบ ซิงโครนัส ซึ่งหมายความว่าคุณไม่จำเป็นต้องเขียนโค้ดใหม่เพื่อจัดการออบเจ็กต์แบบกลุ่ม เนื่องจากเป็นทราฟิกที่ "ลด" ได้ ระบบจึงอาจหยุดคำขอชั่วคราวหากระบบ พบว่ามีการเพิ่มขึ้นของทราฟิกมาตรฐาน

  • เวลาในการตอบสนอง: ไม่รับประกัน เป้าหมายคือ 1-15 นาที
  • ราคา: 50% ของราคามาตรฐาน (เรียกเก็บเงินต่อโทเค็น)
  • เหมาะสำหรับ: เวิร์กโฟลว์ของเอเจนต์แบบหลายขั้นตอนที่การเรียกใช้ N+1 ขึ้นอยู่กับ เอาต์พุตของการเรียกใช้ N, การอัปเดต CRM ในเบื้องหลัง และการประเมินแบบออฟไลน์

Batch API (แบบกลุ่ม แบบไม่พร้อมกัน)

Batch API ออกแบบมาเพื่อประมวลผลคำขอจำนวนมากแบบไม่พร้อมกันที่ 50% ของต้นทุนมาตรฐาน คุณส่งคำขอเป็นพจนานุกรมในบรรทัด หรือใช้ไฟล์อินพุต JSONL (สูงสุด 2 GB) ก็ได้ โดยจะประมวลผลคำขอโดยใช้คิวที่มีปริมาณงานเบื้องหลังที่มีเวลาในการตอบกลับเป้าหมาย 24 ชั่วโมง

  • เวลาในการตอบสนอง: สูง (สูงสุด 24 ชั่วโมง)
  • ราคา: 50% ของราคามาตรฐาน
  • เหมาะสำหรับ: การประมวลผลล่วงหน้าของชุดข้อมูลขนาดใหญ่ การเรียกใช้ชุดการทดสอบการถดถอยเป็นระยะ และการสร้างรูปภาพหรือการฝังจำนวนมาก

การแคชบริบท (ประหยัดอินพุต)

การแคชบริบทจะใช้เมื่อคำขอที่สั้นกว่าอ้างอิงบริบทเริ่มต้นที่สำคัญซ้ำๆ

  • การแคชโดยนัย: เปิดใช้โดยอัตโนมัติใน Gemini 2.5 และโมเดลที่ใหม่กว่า ระบบจะส่งต่อการประหยัดต้นทุนหากคำขอของคุณตรงกับแคชที่มีอยู่โดยอิงตาม คำนำหน้าพรอมต์ทั่วไป
  • การแคชอย่างชัดเจน: คุณสร้างออบเจ็กต์แคชด้วยตนเองโดยมี Time-To-Live (TTL) ที่เฉพาะเจาะจงได้ เมื่อสร้างแล้ว คุณจะอ้างอิงโทเค็นที่แคชไว้สำหรับคำขอในภายหลังเพื่อหลีกเลี่ยงการส่งเพย์โหลดคลังเดียวกันซ้ำๆ
  • ราคา: เรียกเก็บเงินตามจำนวนโทเค็นแคชและระยะเวลาการจัดเก็บ (TTL)
  • เหมาะสำหรับ: แชทบอทที่มีคำสั่งของระบบจำนวนมาก การวิเคราะห์ซ้ำๆ ของไฟล์วิดีโอขนาดยาว หรือการค้นหาชุดเอกสารขนาดใหญ่