การใช้เครื่องมือและเอเจนต์กับ Gemini API

เครื่องมือและเอเจนต์จะขยายขีดความสามารถของโมเดล Gemini เพื่อให้โมเดลสามารถดำเนินการในโลกแห่งความเป็นจริง เข้าถึงข้อมูลแบบเรียลไทม์ และทำงานด้านการคำนวณที่ซับซ้อนได้ โมเดลสามารถใช้เครื่องมือได้ทั้งในการโต้ตอบแบบคำขอ-การตอบกลับมาตรฐานและเซสชันการสตรีมแบบเรียลไทม์โดยใช้ Live API

เครื่องมือคือความสามารถเฉพาะ (เช่น Google Search หรือการดำเนินการโค้ด) ที่โมเดลใช้เพื่อตอบคำถามได้
เอเจนต์คือระบบที่วางแผน ดำเนินการ และสังเคราะห์งานแบบหลายขั้นตอน เพื่อให้บรรลุเป้าหมายของผู้ใช้ได้

Gemini API มีชุดเครื่องมือและเอเจนต์ในตัวที่มีการจัดการอย่างเต็มรูปแบบ ซึ่งได้รับการเพิ่มประสิทธิภาพสำหรับโมเดล Gemini หรือคุณจะกำหนดเครื่องมือที่กำหนดเองโดยใช้การเรียกใช้ฟังก์ชันก็ได้

เครื่องมือในตัวที่พร้อมใช้งาน

เครื่องมือ	คำอธิบาย	กรณีการใช้งาน
Google Search	อ้างอิงคำตอบจากเหตุการณ์ปัจจุบันและข้อเท็จจริงจากเว็บเพื่อลดการหลอน	- ตอบคำถามเกี่ยวกับเหตุการณ์ล่าสุด - ยืนยันข้อเท็จจริงด้วยแหล่งข้อมูลที่หลากหลาย
Google Maps	สร้างผู้ช่วยที่รับรู้ตำแหน่งซึ่งค้นหาสถานที่ ขอเส้นทาง และให้บริบทในท้องถิ่นที่สมบูรณ์ได้	- การวางแผนการเดินทางที่มีหลายจุดแวะพัก - การค้นหาธุรกิจในพื้นที่ตามเกณฑ์ของผู้ใช้
การรันโค้ด	อนุญาตให้โมเดลเขียนและรันโค้ด Python เพื่อแก้โจทย์คณิตศาสตร์หรือประมวลผลข้อมูลได้อย่างถูกต้อง	- การแก้สมการคณิตศาสตร์ที่ซับซ้อน - การประมวลผลและวิเคราะห์ข้อมูลข้อความอย่างแม่นยำ
บริบท URL	สั่งให้โมเดลอ่านและวิเคราะห์เนื้อหาจากหน้าเว็บหรือเอกสารที่เฉพาะเจาะจง	- ตอบคำถามโดยอิงตาม URL หรือเอกสารที่เฉพาะเจาะจง - ดึงข้อมูลจากหน้าเว็บต่างๆ
การใช้งานคอมพิวเตอร์ (ตัวอย่าง)	เปิดใช้ Gemini เพื่อดูหน้าจอและสร้างการดำเนินการเพื่อโต้ตอบกับ UI ของเว็บเบราว์เซอร์ (การดำเนินการฝั่งไคลเอ็นต์)	- การทำให้เวิร์กโฟลว์บนเว็บที่ต้องทำซ้ำๆ เป็นระบบอัตโนมัติ - การทดสอบอินเทอร์เฟซผู้ใช้ของเว็บแอปพลิเคชัน
การค้นหาไฟล์	จัดทำดัชนีและค้นหาเอกสารของคุณเองเพื่อเปิดใช้การสร้างข้อความตามการดึงข้อมูล (RAG)	- การค้นหาคู่มือทางเทคนิค - การตอบคำถามเกี่ยวกับข้อมูลที่เป็นกรรมสิทธิ์

ดูรายละเอียดเกี่ยวกับค่าใช้จ่ายที่เกี่ยวข้องกับเครื่องมือบางอย่างได้ในหน้าการกำหนดราคา

ตัวแทนที่พร้อมให้บริการ

Agent	คำอธิบาย	กรณีการใช้งาน
Deep Research	วางแผน ดำเนินการ และสังเคราะห์งานค้นคว้าข้อมูลแบบหลายขั้นตอนโดยอัตโนมัติ	- การวิเคราะห์ตลาด - การตรวจสอบวิเคราะห์เนื่อง - การทบทวนวรรณกรรม

วิธีการทำงานของการดำเนินการเครื่องมือ

เครื่องมือช่วยให้โมเดลขอให้ดำเนินการระหว่างการสนทนาได้ ขั้นตอนจะแตกต่างกันไป โดยขึ้นอยู่กับว่าเครื่องมือดังกล่าวเป็นเครื่องมือในตัว (จัดการโดย Google) หรือเครื่องมือที่กำหนดเอง (จัดการ โดยคุณ)

โฟลว์เครื่องมือในตัว

สำหรับเครื่องมือในตัว เช่น Google Search หรือการดำเนินการโค้ด กระบวนการทั้งหมด จะเกิดขึ้นในการเรียก API ครั้งเดียว

คุณส่งพรอมต์ว่า "รากที่สองของราคาหุ้นล่าสุดของ GOOG คืออะไร"
Gemini จะตัดสินใจว่าต้องการเครื่องมือและเรียกใช้เครื่องมือเหล่านั้นในเซิร์ฟเวอร์ของ Google (เช่น ค้นหาราคาหุ้น แล้วเรียกใช้โค้ด Python เพื่อคำนวณ รากที่สอง)
Gemini จะส่งคำตอบสุดท้ายที่อิงตามผลลัพธ์ของเครื่องมือกลับมา

โฟลว์เครื่องมือที่กำหนดเอง (การเรียกใช้ฟังก์ชัน)

สำหรับเครื่องมือที่กำหนดเองและการใช้คอมพิวเตอร์ แอปพลิเคชันของคุณจะจัดการการดำเนินการ

คุณส่งพรอมต์พร้อมกับการประกาศฟังก์ชัน (เครื่องมือ)
Gemini อาจส่ง JSON ที่มีโครงสร้างกลับมาเพื่อเรียกใช้ฟังก์ชันที่เฉพาะเจาะจง (เช่น {"name": "get_order_status", "args": {"order_id": "123"}})
คุณเรียกใช้ฟังก์ชันในแอปพลิเคชันหรือสภาพแวดล้อม
คุณส่งผลลัพธ์ของฟังก์ชันกลับไปให้ Gemini
Gemini ใช้ผลลัพธ์เพื่อสร้างคำตอบสุดท้ายหรือการเรียกใช้เครื่องมืออื่น

ดูข้อมูลเพิ่มเติมได้ในคู่มือการเรียกใช้ฟังก์ชัน

เอาต์พุตที่มีโครงสร้างเทียบกับการเรียกใช้ฟังก์ชัน

Gemini มี 2 วิธีในการสร้างเอาต์พุตที่มีโครงสร้าง ใช้การเรียกใช้ฟังก์ชันเมื่อโมเดลต้องดำเนินการ ขั้นตอนกลางโดยเชื่อมต่อกับเครื่องมือหรือระบบข้อมูลของคุณเอง ใช้เอาต์พุตที่มีโครงสร้างเมื่อคุณต้องการให้คำตอบสุดท้ายของโมเดลเป็นไปตามสคีมาที่เฉพาะเจาะจงอย่างเคร่งครัด เช่น เพื่อแสดงผล UI ที่กำหนดเอง

เอาต์พุตที่มีโครงสร้างพร้อมเครื่องมือ

คุณสามารถรวมเอาต์พุตที่มีโครงสร้างกับเครื่องมือในตัวเพื่อให้มั่นใจว่าคำตอบของโมเดลที่อิงตามข้อมูลภายนอกหรือการคำนวณยังคงเป็นไปตามสคีมาที่เข้มงวด

ดูตัวอย่างโค้ดได้ที่เอาต์พุตที่มีโครงสร้างพร้อม เครื่องมือ

การสร้างเอเจนต์

เอเจนต์คือระบบที่ใช้โมเดลและเครื่องมือเพื่อทำงานแบบหลายขั้นตอนให้เสร็จสมบูรณ์ แม้ว่า Gemini จะมีความสามารถในการให้เหตุผล ("สมอง") และเครื่องมือที่จำเป็น ("มือ") แต่คุณมักจะต้องมีเฟรมเวิร์กการประสานงานเพื่อจัดการหน่วยความจำของเอเจนต์ วงจรแผน และการเชื่อมโยงเครื่องมือที่ซับซ้อน

หากต้องการเพิ่มความน่าเชื่อถือในเวิร์กโฟลว์แบบหลายขั้นตอน คุณควรสร้างคำสั่ง ที่ควบคุมอย่างชัดเจนว่าโมเดลจะให้เหตุผลและวางแผนอย่างไร แม้ว่า Gemini จะให้ การให้เหตุผลทั่วไปที่แข็งแกร่ง แต่เอเจนต์ที่ซับซ้อนจะได้รับประโยชน์จากพรอมต์ที่บังคับใช้ ลักษณะการทำงานที่เฉพาะเจาะจง เช่น ความคงทนเมื่อเกิดปัญหา การประเมินความเสี่ยง และ การวางแผนเชิงรุก

ดูเวิร์กโฟลว์แบบเอเจนต์ เพื่อดูกลยุทธ์ในการออกแบบพรอมต์เหล่านี้ ต่อไปนี้คือตัวอย่างคำสั่งของระบบที่ ปรับปรุงประสิทธิภาพในการทดสอบเอเจนต์หลายรายการได้ประมาณ 5%

เฟรมเวิร์กของ Agent

Gemini ผสานรวมกับเฟรมเวิร์กเอเจนต์โอเพนซอร์สชั้นนำ เช่น

LangChain / LangGraph: สร้างโฟลว์แอปพลิเคชันที่ซับซ้อนและมีสถานะ รวมถึงระบบแบบหลายเอเจนต์โดยใช้โครงสร้างกราฟ
LlamaIndex: เชื่อมต่อเอเจนต์ Gemini กับ ข้อมูลส่วนตัวของคุณสำหรับเวิร์กโฟลว์ที่ปรับปรุงด้วย RAG
CrewAI: จัดระเบียบเอเจนต์ AI แบบอัตโนมัติที่ทำงานร่วมกันและสวมบทบาท
Vercel AI SDK: สร้าง อินเทอร์เฟซผู้ใช้และเอเจนต์ที่ทำงานด้วยระบบ AI ใน JavaScript/TypeScript
Google ADK: เฟรมเวิร์กโอเพนซอร์สสำหรับสร้างและจัดระเบียบเอเจนต์ AI ที่ทำงานร่วมกันได้