Interactions API เป็นอินเทอร์เฟซใหม่ของเราและเป็นวิธีที่ตรงไปตรงมาที่สุด ในการสร้างด้วยโมเดลและเอเจนต์ Gemini ตั้งแต่เดือนมิถุนายน 2026 เป็นต้นไป ฟีเจอร์นี้จะพร้อมให้บริการโดยทั่วไปและเป็นอินเทอร์เฟซที่แนะนำสำหรับโปรเจ็กต์ใหม่ทั้งหมด
แม้ว่าตอนนี้จะถือว่าเป็นเวอร์ชันเดิมแล้ว แต่เรายังคงรองรับ
generateContent API
ต้นฉบับอย่างเต็มรูปแบบ
เหตุใดจึงต้องใช้ Interactions API
- ความสามารถใหม่ที่พร้อมใช้งาน: สถานะการสนทนาฝั่งเซิร์ฟเวอร์ที่ไม่บังคับ
โดยใช้
previous_interaction_id, ขั้นตอนการดำเนินการที่สังเกตได้สำหรับการ แก้ไขข้อบกพร่องและการแสดงผล UI และการดำเนินการในเบื้องหลังสำหรับงานที่ใช้เวลานาน โดยใช้background=true - ลดต้นทุนด้วยอัตราการพบแคชที่สูงขึ้น: การจัดการสถานะฝั่งเซิร์ฟเวอร์ช่วยให้การแคชบริบทมีประสิทธิภาพมากขึ้นในการสนทนาไปมา ซึ่งจะช่วยลดต้นทุนโทเค็นสำหรับการสนทนาไปมา
- สร้างขึ้นสำหรับโมเดลและเอเจนต์ที่ล้ำสมัย: สร้างขึ้นเพื่อโมเดลการคิด การใช้เครื่องมือแบบหลายขั้นตอน และโฟลว์การให้เหตุผลที่ซับซ้อน ซึ่งช่วยลดความซับซ้อนของกระบวนการสร้าง การแก้ไขข้อบกพร่อง และการประสานงานแอปพลิเคชันแบบเอเจนต์
- API เดียวสำหรับโมเดลและเอเจนต์: อินเทอร์เฟซแบบรวมหนึ่งเดียวสำหรับการเรียกใช้โมเดลและเอเจนต์ Gemini โดยตรง เช่น Deep Research และเอเจนต์ที่กำหนดเองที่จัดการแล้ว โดยไม่ต้องมีปลายทางหรือรูปแบบแยกต่างหากให้เรียนรู้
- ที่เปิดตัวสิ่งใหม่ๆ: ต่อไปนี้ โมเดลและความสามารถใหม่ๆ นอกเหนือจากตระกูลหลัก รวมถึงความสามารถและเครื่องมือใหม่ๆ ของเอเจนต์ จะเปิดตัวใน Interactions API
โดยค่าเริ่มต้น Interactions API จะจัดเก็บคำขอเพื่อให้คุณใช้ประโยชน์จาก
ฟีเจอร์การจัดการสถานะฝั่งเซิร์ฟเวอร์ได้โดยใช้
previous_interaction_id คุณเลือกใช้ลักษณะการทำงานแบบไม่เก็บสถานะได้โดยการตั้งค่า
store=false ดูรายละเอียดได้ที่ส่วนการเก็บรักษาข้อมูล
เริ่มต้นใช้งาน
- ตั้งค่าเอเจนต์การเขียนโค้ด: เชื่อมต่อกับ MCP ของเอกสาร Gemini แล้วติดตั้ง
ทักษะ
gemini-interactions-apiเพื่อให้ผู้ช่วยเข้าถึง เอกสารประกอบสำหรับนักพัฒนาซอฟต์แวร์และแนวทางปฏิบัติแนะนำล่าสุดได้โดยตรง ตั้งค่า Agent การเขียนโค้ด → - ย้ายข้อมูลจาก
generateContent: หากมีการผสานรวมอยู่แล้ว โปรดทำตามคู่มือการย้ายข้อมูลเพื่อ เปลี่ยนไปใช้ Interactions API - เริ่มต้นใช้งาน: เริ่มต้นใช้งานในคู่มือการเริ่มต้นใช้งาน Interactions API
คำแนะนำฟีเจอร์
สำรวจความสามารถเฉพาะของ Interactions API ผ่านคำแนะนำเหล่านี้ คุณใช้ปุ่มเปิด/ปิดในหน้าเหล่านี้เพื่อสลับระหว่าง API ของ generateContent กับ Interactions API ได้
- การสร้างข้อความ
- การสร้างรูปภาพ
- การทำความเข้าใจรูปภาพ
- การทำความเข้าใจเสียง
- การทำความเข้าใจวิดีโอ
- การประมวลผลเอกสาร
- การเรียกใช้ฟังก์ชัน
- เอาต์พุตที่มีโครงสร้าง
- เอเจนต์ Deep Research
- การอนุมานแบบยืดหยุ่น
- การอนุมานตามลำดับความสำคัญ
วิธีการทำงานของ Interactions API
API การโต้ตอบมีทรัพยากรหลักคือ Interaction Interaction แสดงถึงการสนทนาหรือภารกิจที่เสร็จสมบูรณ์ โดยจะทำหน้าที่เป็นบันทึกเซสชัน ซึ่งมีประวัติการโต้ตอบทั้งหมดเป็นลำดับขั้นตอนการดำเนินการตามลำดับเวลา ขั้นตอนเหล่านี้รวมถึงความคิดของโมเดล การเรียกใช้เครื่องมือและผลลัพธ์ฝั่งเซิร์ฟเวอร์หรือฝั่งไคลเอ็นต์ (เช่น function_call และ function_result) และ model_output สุดท้าย ทรัพยากรที่จัดเก็บ (ดึงข้อมูลผ่าน interactions.get) ยังรวมถึงขั้นตอน user_input สำหรับบริบททั้งหมดด้วย แม้ว่าคำตอบ interactions.create จะแสดงเฉพาะขั้นตอนที่โมเดลสร้างขึ้นก็ตาม
เมื่อโทรหา
interactions.create คุณจะ
สร้างทรัพยากร Interaction ใหม่
การจัดการสถานะฝั่งเซิร์ฟเวอร์
คุณสามารถใช้ id ของการโต้ตอบที่เสร็จสมบูรณ์ในการเรียกครั้งถัดไปโดยใช้พารามิเตอร์ previous_interaction_id เพื่อสนทนาต่อ เซิร์ฟเวอร์
ใช้รหัสนี้เพื่อดึงประวัติการสนทนา ซึ่งช่วยให้คุณไม่ต้อง
ส่งประวัติการแชททั้งหมดอีกครั้ง
พารามิเตอร์ previous_interaction_id จะเก็บเฉพาะประวัติการสนทนา (อินพุตและเอาต์พุต)
โดยใช้ previous_interaction_id พารามิเตอร์อื่นๆ เป็นระดับการโต้ตอบ
และมีผลกับการโต้ตอบที่เฉพาะเจาะจงที่คุณกําลังสร้างเท่านั้น
toolssystem_instructiongeneration_config(รวมถึงthinking_level,temperatureฯลฯ)
ซึ่งหมายความว่าคุณต้องระบุพารามิเตอร์เหล่านี้อีกครั้งในการโต้ตอบใหม่แต่ละครั้งหากต้องการให้มีผล การจัดการสถานะฝั่งเซิร์ฟเวอร์นี้เป็นตัวเลือก คุณยัง ใช้งานในโหมดไม่มีสถานะได้ด้วยการส่งประวัติการสนทนาทั้งหมดในแต่ละ คำขอ
การจัดเก็บและการเก็บรักษาข้อมูล
โดยค่าเริ่มต้น API จะจัดเก็บออบเจ็กต์การโต้ตอบทั้งหมด (store=true) เพื่อลดความซับซ้อนในการใช้ฟีเจอร์การจัดการสถานะฝั่งเซิร์ฟเวอร์ (ด้วย previous_interaction_id) การดำเนินการในเบื้องหลัง (โดยใช้ background=true) และวัตถุประสงค์ด้านความสามารถในการสังเกต
- ระดับแบบชำระเงิน: ระบบจะเก็บรักษาการโต้ตอบไว้เป็นเวลา 55 วัน
- รุ่นฟรี: ระบบจะเก็บรักษาการโต้ตอบไว้เป็นเวลา 1 วัน
หากไม่ต้องการให้ระบบดำเนินการ คุณสามารถ
ตั้งค่า store=false ในคำขอได้ การควบคุมนี้แยกจากการจัดการสถานะ
คุณเลือกไม่ใช้พื้นที่เก็บข้อมูลสำหรับการโต้ตอบใดก็ได้ อย่างไรก็ตาม โปรดทราบว่า
store=false ใช้ร่วมกับ background=true ไม่ได้ และจะป้องกันไม่ให้ใช้
previous_interaction_id ในรอบต่อๆ ไป
คุณลบการโต้ตอบที่จัดเก็บไว้ได้ทุกเมื่อโดยใช้วิธีการลบที่อยู่ในเอกสารอ้างอิง API คุณจะลบการโต้ตอบได้ก็ต่อเมื่อ ทราบรหัสการโต้ตอบ
หลังจากระยะเวลาเก็บรักษาหมดอายุแล้ว ระบบจะลบข้อมูลของคุณโดยอัตโนมัติ
ระบบจะประมวลผลออบเจ็กต์การโต้ตอบตามข้อกำหนด
แนวทางปฏิบัติแนะนำ
- อัตราการเข้าถึงแคช: การใช้
previous_interaction_idเพื่อสนทนาต่อ ช่วยให้ระบบใช้แคชโดยนัยสำหรับ ประวัติการสนทนาได้ง่ายขึ้น ซึ่งจะช่วยปรับปรุงประสิทธิภาพและลดต้นทุน - การโต้ตอบแบบผสม: คุณสามารถผสมผสานการโต้ตอบของเอเจนต์และโมเดลในการสนทนาได้อย่างยืดหยุ่น เช่น คุณสามารถใช้ Agent เฉพาะทาง เช่น Deep Research Agent สำหรับการรวบรวมข้อมูลเบื้องต้น แล้วใช้โมเดล Gemini มาตรฐานสำหรับงานติดตามผล เช่น การสรุปหรือการจัดรูปแบบใหม่ โดยเชื่อมโยงขั้นตอนเหล่านี้กับ
previous_interaction_id
โมเดลและเอเจนต์ที่รองรับ
| ชื่อแบบจำลอง | ประเภท | รหัสโมเดล |
|---|---|---|
| Gemini 3.5 Flash | รุ่น | gemini-3.5-flash |
| เวอร์ชันตัวอย่างของ Gemini 3.1 Pro | รุ่น | gemini-3.1-pro-preview |
| Gemini 3.1 Flash-Lite | รุ่น | gemini-3.1-flash-lite |
| Gemini 3 Flash (เวอร์ชันตัวอย่าง) | รุ่น | gemini-3-flash-preview |
| Gemini 2.5 Pro | รุ่น | gemini-2.5-pro |
| Gemini 2.5 Flash | รุ่น | gemini-2.5-flash |
| Gemini 2.5 Flash-lite | รุ่น | gemini-2.5-flash-lite |
| รูปภาพ Gemini 3 Pro | รุ่น | gemini-3-pro-image |
| รูปภาพ Gemini 3.1 Flash | รุ่น | gemini-3.1-flash-image |
| TTS ของ Gemini 3.1 Flash (เวอร์ชันตัวอย่าง) | รุ่น | gemini-3.1-flash-tts-preview |
| Gemma 4 31B IT | รุ่น | gemma-4-31b-it |
| Gemma 4 26B MoE IT | รุ่น | gemma-4-26b-a4b-it |
| ตัวอย่างคลิป Lyria 3 | รุ่น | lyria-3-clip-preview |
| เวอร์ชันตัวอย่างของ Lyria 3 Pro | รุ่น | lyria-3-pro-preview |
| เวอร์ชันตัวอย่างของ Deep Research | Agent | deep-research-preview-04-2026 |
| เวอร์ชันตัวอย่างของ Deep Research | Agent | deep-research-max-preview-04-2026 |
| ตัวอย่าง Antigravity | Agent | antigravity-preview-05-2026 |
SDK
คุณสามารถใช้ Google GenAI SDK เวอร์ชันล่าสุดเพื่อเข้าถึง Interactions API
- ใน Python จะเป็นแพ็กเกจ
google-genaiตั้งแต่เวอร์ชัน2.3.0เป็นต้นไป - ใน JavaScript จะเป็นแพ็กเกจ
@google/genaiตั้งแต่เวอร์ชัน2.3.0เป็นต้นไป
ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีติดตั้ง SDK ได้ในหน้าคลัง
ข้อจำกัด
- MCP ระยะไกล: Gemini 3 ไม่รองรับ MCP ระยะไกล โดยจะพร้อมใช้งานเร็วๆ นี้
API ของ generateContent รองรับฟีเจอร์ต่อไปนี้ แต่ยังไม่พร้อมใช้งานใน Interactions API
- ข้อมูลเมตาวิดีโอ: ฟิลด์
video_metadataใช้เพื่อตั้งค่าช่วงการตัด และอัตราเฟรมที่กำหนดเองเพื่อให้ระบบเข้าใจวิดีโอ - Batch API
- การเรียกฟังก์ชันอัตโนมัติ (Python)
- การแคชอย่างชัดเจน: โปรดทราบว่าการแคชโดยนัยฝั่งเซิร์ฟเวอร์พร้อมใช้งานใน Interactions API
ผ่าน
previous_interaction_id
ความคิดเห็น
ความคิดเห็นของคุณมีความสําคัญอย่างยิ่งต่อการพัฒนา Interactions API แชร์ความคิดเห็น รายงานข้อบกพร่อง หรือขอฟีเจอร์ได้ในฟอรัมชุมชนนักพัฒนาแอป Google AI
ขั้นตอนถัดไป
- ลองใช้สมุดบันทึกการเริ่มต้นใช้งาน Interactions API อย่างรวดเร็ว
- ดูข้อมูลเพิ่มเติมเกี่ยวกับ Gemini Deep Research Agent