เครื่องมือจะขยายขีดความสามารถของโมเดล Gemini ทำให้โมเดลสามารถดำเนินการในโลกแห่งความเป็นจริง เข้าถึงข้อมูลแบบเรียลไทม์ และทำงานด้านการคำนวณที่ซับซ้อนได้ โมเดลสามารถใช้เครื่องมือในการโต้ตอบแบบคำขอ-การตอบกลับมาตรฐานและเซสชันการสตรีมแบบเรียลไทม์ผ่าน Live API
Gemini API มีชุดเครื่องมือในตัวที่มีการจัดการอย่างเต็มรูปแบบซึ่งได้รับการเพิ่มประสิทธิภาพสำหรับโมเดล Gemini หรือคุณจะกำหนดเครื่องมือที่กำหนดเองโดยใช้การเรียกใช้ฟังก์ชันก็ได้
เครื่องมือในตัวที่พร้อมใช้งาน
| เครื่องมือ | คำอธิบาย | กรณีการใช้งาน |
|---|---|---|
| Google Search | อ้างอิงคำตอบจากเหตุการณ์ปัจจุบันและข้อเท็จจริงจากเว็บเพื่อลดการหลอน | - ตอบคำถามเกี่ยวกับเหตุการณ์ล่าสุด - ยืนยันข้อเท็จจริงด้วยแหล่งข้อมูลที่หลากหลาย |
| Google Maps | สร้างผู้ช่วยที่รับรู้ตำแหน่งซึ่งค้นหาสถานที่ ขอเส้นทาง และให้บริบทในท้องถิ่นที่สมบูรณ์ได้ | - การวางแผนการเดินทางที่มีหลายจุดแวะพัก - การค้นหาธุรกิจในพื้นที่ตามเกณฑ์ของผู้ใช้ |
| การรันโค้ด | อนุญาตให้โมเดลเขียนและรันโค้ด Python เพื่อแก้โจทย์คณิตศาสตร์หรือประมวลผลข้อมูลได้อย่างถูกต้อง | - การแก้สมการคณิตศาสตร์ที่ซับซ้อน - การประมวลผลและวิเคราะห์ข้อมูลข้อความอย่างแม่นยำ |
| บริบท URL | สั่งให้โมเดลอ่านและวิเคราะห์เนื้อหาจากหน้าเว็บหรือเอกสารที่เฉพาะเจาะจง | - ตอบคำถามโดยอิงตาม URL หรือเอกสารที่เฉพาะเจาะจง - ดึงข้อมูลจากหน้าเว็บต่างๆ |
| การใช้งานคอมพิวเตอร์ (ตัวอย่าง) | เปิดใช้ Gemini เพื่อดูหน้าจอและสร้างการดำเนินการเพื่อโต้ตอบกับ UI ของเว็บเบราว์เซอร์ (การดำเนินการฝั่งไคลเอ็นต์) | - การทำให้เวิร์กโฟลว์บนเว็บที่ต้องทำซ้ำๆ เป็นระบบอัตโนมัติ - การทดสอบอินเทอร์เฟซผู้ใช้ของเว็บแอปพลิเคชัน |
| การค้นหาไฟล์ | จัดทำดัชนีและค้นหาเอกสารของคุณเองเพื่อเปิดใช้การสร้างข้อความโดยอิงตามการดึงข้อมูล (RAG) | - การค้นหาคู่มือทางเทคนิค - การตอบคำถามเกี่ยวกับข้อมูลที่เป็นกรรมสิทธิ์ |
ดูรายละเอียดเกี่ยวกับค่าใช้จ่ายที่เชื่อมโยงกับเครื่องมือที่เฉพาะเจาะจงได้ในหน้าการกำหนดราคา
วิธีการทำงานของการเรียกใช้เครื่องมือ
เครื่องมือช่วยให้โมเดลขอให้ดำเนินการระหว่างการสนทนาได้ ขั้นตอนจะแตกต่างกันไปโดยขึ้นอยู่กับว่าเครื่องมือดังกล่าวเป็นเครื่องมือในตัว (จัดการโดย Google) หรือเครื่องมือที่กำหนดเอง (จัดการโดยคุณ)
โฟลว์เครื่องมือในตัว
สำหรับเครื่องมือในตัว เช่น Google Search หรือการดำเนินการโค้ด กระบวนการทั้งหมดจะเกิดขึ้นในการเรียก API ครั้งเดียว
- คุณส่งพรอมต์ว่า "รากที่ 2 ของราคาหุ้นล่าสุดของ GOOG คืออะไร"
- Gemini จะตัดสินใจว่าต้องการเครื่องมือและดำเนินการบนเซิร์ฟเวอร์ของ Google (เช่น ค้นหาราคาหุ้น แล้วรันโค้ด Python เพื่อคำนวณรากที่สอง)
- Gemini จะส่งคำตอบสุดท้ายที่อิงตามผลลัพธ์ของเครื่องมือกลับมา
โฟลว์เครื่องมือที่กำหนดเอง (การเรียกใช้ฟังก์ชัน)
สำหรับเครื่องมือที่กำหนดเองและการใช้คอมพิวเตอร์ แอปพลิเคชันของคุณจะจัดการการดำเนินการ
- คุณส่งพรอมต์พร้อมกับการประกาศฟังก์ชัน (เครื่องมือ)
- Gemini อาจส่ง JSON ที่มีโครงสร้างกลับมาเพื่อเรียกใช้ฟังก์ชันที่เฉพาะเจาะจง (เช่น
{"name": "get_order_status", "args": {"order_id": "123"}}) - คุณเรียกใช้ฟังก์ชันในแอปพลิเคชันหรือสภาพแวดล้อม
- คุณส่งผลลัพธ์ของฟังก์ชันกลับไปให้ Gemini
- Gemini ใช้ผลลัพธ์เพื่อสร้างคำตอบสุดท้ายหรือการเรียกใช้เครื่องมืออื่น
ดูข้อมูลเพิ่มเติมในคู่มือการเรียกใช้ฟังก์ชัน
เอาต์พุตที่มีโครงสร้างเทียบกับการเรียกใช้ฟังก์ชัน
Gemini มี 2 วิธีในการสร้างเอาต์พุตที่มีโครงสร้าง ใช้การเรียกใช้ฟังก์ชันเมื่อโมเดลต้องดำเนินการขั้นตอนกลางโดยเชื่อมต่อกับเครื่องมือหรือระบบข้อมูลของคุณเอง ใช้เอาต์พุตที่มีโครงสร้างเมื่อคุณต้องการให้คำตอบสุดท้ายของโมเดลเป็นไปตามสคีมาที่เฉพาะเจาะจงอย่างเคร่งครัด เช่น เพื่อแสดงผล UI ที่กำหนดเอง
เอาต์พุตที่มีโครงสร้างพร้อมเครื่องมือ
คุณสามารถรวม Structured Outputs กับเครื่องมือในตัวเพื่อให้มั่นใจว่าคำตอบของโมเดลที่อิงตามข้อมูลภายนอกหรือการคำนวณยังคงเป็นไปตามสคีมาที่เข้มงวด
ดูตัวอย่างโค้ดได้ที่เอาต์พุตที่มีโครงสร้างด้วยเครื่องมือ
การสร้างเอเจนต์
เอเจนต์คือระบบที่ใช้โมเดลและเครื่องมือเพื่อทำงานแบบหลายขั้นตอนให้เสร็จสมบูรณ์ แม้ว่า Gemini จะมีความสามารถในการให้เหตุผล ("สมอง") และเครื่องมือที่จำเป็น ("มือ") แต่คุณก็มักจะต้องมีเฟรมเวิร์กการประสานงานเพื่อจัดการหน่วยความจำของเอเจนต์ วางแผนลูป และทำการเชื่อมโยงเครื่องมือที่ซับซ้อน
หากต้องการเพิ่มความน่าเชื่อถือในเวิร์กโฟลว์แบบหลายขั้นตอน คุณควรสร้างคำสั่งที่ควบคุมอย่างชัดเจนว่าโมเดลจะให้เหตุผลและวางแผนอย่างไร แม้ว่า Gemini จะให้เหตุผลทั่วไปที่แข็งแกร่ง แต่เอเจนต์ที่ซับซ้อนจะได้รับประโยชน์จากพรอมต์ที่บังคับใช้ลักษณะการทำงานที่เฉพาะเจาะจง เช่น ความคงทนเมื่อเกิดปัญหา การประเมินความเสี่ยง และการวางแผนเชิงรุก
ดูกลยุทธ์ในการออกแบบพรอมต์เหล่านี้ได้ในเวิร์กโฟลว์แบบเอเจนต์ ต่อไปนี้เป็นตัวอย่างคำสั่งของระบบที่ช่วยเพิ่มประสิทธิภาพในเกณฑ์มาตรฐานแบบเอเจนต์หลายรายการได้ประมาณ 5%
เฟรมเวิร์กของ Agent
Gemini ผสานรวมกับเฟรมเวิร์กเอเจนต์โอเพนซอร์สชั้นนำ เช่น
- LangChain / LangGraph: สร้างโฟลว์แอปพลิเคชันที่ซับซ้อนแบบมีสถานะและระบบหลายเอเจนต์โดยใช้โครงสร้างกราฟ
- LlamaIndex: เชื่อมต่อเอเจนต์ Gemini กับข้อมูลส่วนตัวของคุณเพื่อเวิร์กโฟลว์ที่ได้รับการปรับปรุงด้วย RAG
- CrewAI: จัดระเบียบเอเจนต์ AI แบบอัตโนมัติที่ทำงานร่วมกันและสวมบทบาท
- Vercel AI SDK: สร้างอินเทอร์เฟซผู้ใช้และเอเจนต์ที่ทำงานด้วยระบบ AI ใน JavaScript/TypeScript
- Google ADK: เฟรมเวิร์กโอเพนซอร์สสำหรับสร้างและประสานงานเอเจนต์ AI ที่ทำงานร่วมกันได้