ตอนนี้ Interactions API พร้อมให้บริการแก่ผู้ใช้ทั่วไปแล้ว เราขอแนะนำให้ใช้ API นี้เพื่อเข้าถึงฟีเจอร์และโมเดลล่าสุดทั้งหมด

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

การเพิ่มประสิทธิภาพและการอนุมาน Gemini API

Gemini API มีกลไกการเพิ่มประสิทธิภาพที่หลากหลายเพื่อช่วยให้คุณรักษาสมดุลระหว่างความเร็ว ต้นทุน และความน่าเชื่อถือตามความต้องการของภาระงานที่เฉพาะเจาะจง ไม่ว่าคุณจะสร้างบ็อตสนทนาแบบเรียลไทม์หรือเรียกใช้ไปป์ไลน์การประมวลผลข้อมูลแบบออฟไลน์ที่มีปริมาณมาก การเลือกกระบวนทัศน์ที่เหมาะสมจะช่วยลดต้นทุนหรือเพิ่มประสิทธิภาพได้อย่างมาก

ฟีเจอร์	มาตรฐาน	พับ	ลำดับความสำคัญ	กลุ่ม	กำลังแคช
การกำหนดราคา	ราคาเต็ม	ส่วนลด 50%	มากกว่ามาตรฐาน 75% ถึง 100%	ส่วนลด 50%	ส่วนลด 90% + พื้นที่เก็บข้อมูลโทเค็นตามสัดส่วน
เวลาในการตอบสนอง	วินาทีถึงนาที	นาที (เป้าหมาย 1-15 นาที)	วินาที	สูงสุด 24 ชั่วโมง	เวลาที่ได้รับโทเค็นแรกเร็วขึ้น
ความน่าเชื่อถือ	สูง / สูงปานกลาง	ดีที่สุดเท่าที่ทำได้ (ลดภาระได้)	สูง (ไม่หลุดร่วง)	สูง (สำหรับปริมาณงาน)	ไม่มี
อินเทอร์เฟซ	พร้อมกัน	พร้อมกัน	พร้อมกัน	อะซิงโครนัส	สถานะที่บันทึกไว้
Use Case ที่ดีที่สุด	เวิร์กโฟลว์การสมัครทั่วไป	เชนแบบลำดับที่ไม่เร่งด่วน	แอปที่พร้อมใช้งานและแอปที่ผู้ใช้มองเห็น	ชุดข้อมูลขนาดใหญ่ การประเมินแบบออฟไลน์	การค้นหาที่เกิดซ้ำในไฟล์เดียวกัน

ระดับการให้บริการการอนุมาน (ซิงโครนัส)

คุณสามารถสลับระหว่างการรับส่งข้อมูลแบบซิงโครนัสที่เพิ่มประสิทธิภาพด้านความน่าเชื่อถือและการรับส่งข้อมูลแบบซิงโครนัสที่เพิ่มประสิทธิภาพด้านต้นทุน ได้โดยส่งพารามิเตอร์ service_tier ในการเรียกการสร้างมาตรฐาน

การอนุมานมาตรฐาน (ค่าเริ่มต้น)

ระดับมาตรฐานเป็นตัวเลือกเริ่มต้นสำหรับการสร้างเนื้อหาตามลำดับ โดยจะให้เวลาในการตอบกลับตามปกติโดยไม่ต้องเสียค่าธรรมเนียมเพิ่มเติมหรือรอคิวนาน

ความน่าเชื่อถือ: ความสำคัญระดับมาตรฐาน
ราคา: ราคามาตรฐาน
เหมาะสำหรับ: แอปพลิเคชันแบบโต้ตอบส่วนใหญ่ที่ใช้ในชีวิตประจำวัน

การอนุมานที่มีลำดับความสำคัญ (เพิ่มประสิทธิภาพเวลาในการตอบสนอง)

ลำดับความสำคัญจะกำหนดเส้นทางการประมวลผลคำขอของคุณไปยังคิวการประมวลผลที่มีความสำคัญสูง การเข้าชมนี้เป็นแบบไม่สามารถลดทอนได้ (ไม่ถูกแทนที่ด้วยระดับอื่นๆ) และมีความน่าเชื่อถือสูงสุด หากคุณเกินขีดจำกัดลำดับความสำคัญแบบไดนามิก ระบบจะลดระดับคำขอเป็นการประมวลผลแบบมาตรฐานอย่างเหมาะสมแทนที่จะล้มเหลวพร้อมข้อผิดพลาด

ความน่าเชื่อถือ: ความสำคัญสูงสุด
ราคา: สูงกว่าราคามาตรฐาน 75% ถึง 100%
เหมาะสำหรับ: แชทบอทสำหรับลูกค้า การตรวจจับการฉ้อโกงแบบเรียลไทม์ และ ผู้ช่วยแบบเรียลไทม์ที่สำคัญต่อธุรกิจ

การอนุมานแบบยืดหยุ่น (เพิ่มประสิทธิภาพด้านต้นทุน)

การอนุมานแบบยืดหยุ่นให้ส่วนลด 50% เมื่อเทียบกับอัตรามาตรฐานโดยใช้ ความสามารถในการประมวลผลแบบออฟพีคตามโอกาส ระบบจะประมวลผลคำขอแบบ ซิงโครนัส ซึ่งหมายความว่าคุณไม่จำเป็นต้องเขียนโค้ดใหม่เพื่อจัดการออบเจ็กต์แบบกลุ่ม เนื่องจากเป็นทราฟิกที่ "ลด" ได้ ระบบจึงอาจหยุดคำขอชั่วคราวหากระบบ พบว่ามีการเพิ่มขึ้นของทราฟิกมาตรฐาน

ความน่าเชื่อถือ: ความสำคัญที่สามารถลดได้แบบไม่รับประกัน
ราคา: 50% ของราคามาตรฐาน (เรียกเก็บเงินต่อโทเค็น)
เหมาะสำหรับ: เวิร์กโฟลว์ของเอเจนต์แบบหลายขั้นตอนที่การเรียกใช้ N+1 ขึ้นอยู่กับ เอาต์พุตของการเรียกใช้ N, การอัปเดต CRM ในเบื้องหลัง และการประเมินแบบออฟไลน์

Batch API (แบบกลุ่ม แบบไม่พร้อมกัน)

Batch API ออกแบบมาเพื่อประมวลผลคำขอจำนวนมากแบบไม่พร้อมกันที่ 50% ของต้นทุนมาตรฐาน คุณส่งคำขอเป็นพจนานุกรมในบรรทัด หรือใช้ไฟล์อินพุต JSONL (สูงสุด 2 GB) ก็ได้ โดยจะประมวลผลคำขอโดยใช้คิวที่มีปริมาณงานเบื้องหลังที่มีเวลาในการตอบกลับเป้าหมาย 24 ชั่วโมง

ความน่าเชื่อถือ: สามารถทิ้งได้ แต่มีระบบลองใหม่และระบบคิวอัตโนมัติ 24 ชั่วโมง
ราคา: 50% ของราคามาตรฐาน
เหมาะสำหรับ: การประมวลผลล่วงหน้าของชุดข้อมูลขนาดใหญ่ การเรียกใช้ชุดการทดสอบการถดถอยเป็นระยะ และการสร้างรูปภาพหรือการฝังจำนวนมาก

การแคชบริบท (ประหยัดอินพุต)

การแคชบริบทจะใช้เมื่อคำขอที่สั้นกว่าอ้างอิงบริบทเริ่มต้นที่สำคัญซ้ำๆ

การแคชโดยนัย: เปิดใช้โดยอัตโนมัติใน Gemini 2.5 และโมเดลที่ใหม่กว่า ระบบจะส่งต่อการประหยัดต้นทุนหากคำขอของคุณตรงกับแคชที่มีอยู่โดยอิงตาม คำนำหน้าพรอมต์ทั่วไป
การแคชอย่างชัดเจน: คุณสร้างออบเจ็กต์แคชด้วยตนเองโดยมี Time-To-Live (TTL) ที่เฉพาะเจาะจงได้ เมื่อสร้างแล้ว คุณจะอ้างอิงโทเค็นที่แคชไว้สำหรับคำขอในภายหลังเพื่อหลีกเลี่ยงการส่งเพย์โหลดคลังเดียวกันซ้ำๆ
ราคา: เรียกเก็บเงินตามจำนวนโทเค็นแคชและระยะเวลาการจัดเก็บ (TTL)
เหมาะสำหรับ: แชทบอทที่มีคำสั่งของระบบที่ครอบคลุม การวิเคราะห์ซ้ำๆ ของไฟล์วิดีโอขนาดยาว หรือการค้นหาชุดเอกสารขนาดใหญ่