เครื่องมือจะขยายขีดความสามารถของโมเดล Gemini ทำให้โมเดลสามารถดำเนินการในโลกแห่งความเป็นจริง เข้าถึงข้อมูลแบบเรียลไทม์ และทำงานด้านการคำนวณที่ซับซ้อนได้ โดยโมเดลสามารถใช้เครื่องมือในการโต้ตอบแบบคำขอ-การตอบกลับมาตรฐานและเซสชันการสตรีมแบบเรียลไทม์ผ่าน Live API
Gemini API มีชุดเครื่องมือในตัวที่มีการจัดการอย่างเต็มรูปแบบซึ่งได้รับการเพิ่มประสิทธิภาพสำหรับโมเดล Gemini หรือคุณจะกำหนดเครื่องมือที่กำหนดเองโดยใช้การเรียกใช้ฟังก์ชันก็ได้
เครื่องมือในตัวที่พร้อมใช้งาน
| เครื่องมือ | คำอธิบาย | กรณีการใช้งาน |
|---|---|---|
| Google Search | อ้างอิงคำตอบจากเหตุการณ์ปัจจุบันและข้อเท็จจริงจากเว็บเพื่อลดการหลอน | - ตอบคำถามเกี่ยวกับเหตุการณ์ล่าสุด - ยืนยันข้อเท็จจริงด้วยแหล่งข้อมูลที่หลากหลาย |
| Google Maps | สร้างผู้ช่วยที่รับรู้ตำแหน่งซึ่งค้นหาสถานที่ ขอเส้นทาง และให้บริบทในท้องถิ่นที่สมบูรณ์ได้ | - การวางแผนการเดินทางที่มีหลายจุดแวะพัก - การค้นหาธุรกิจในพื้นที่ตามเกณฑ์ของผู้ใช้ |
| การรันโค้ด | อนุญาตให้โมเดลเขียนและรันโค้ด Python เพื่อแก้โจทย์คณิตศาสตร์หรือประมวลผลข้อมูลได้อย่างถูกต้อง | - การแก้สมการคณิตศาสตร์ที่ซับซ้อน - การประมวลผลและวิเคราะห์ข้อมูลข้อความอย่างแม่นยำ |
| บริบท URL | สั่งให้โมเดลอ่านและวิเคราะห์เนื้อหาจากหน้าเว็บหรือเอกสารที่เฉพาะเจาะจง | - ตอบคำถามโดยอิงตาม URL หรือเอกสารที่เฉพาะเจาะจง - ดึงข้อมูลจากหน้าเว็บต่างๆ |
| การใช้งานคอมพิวเตอร์ (ตัวอย่าง) | เปิดใช้ Gemini เพื่อดูหน้าจอและสร้างการดำเนินการเพื่อโต้ตอบกับ UI ของเว็บเบราว์เซอร์ (การดำเนินการฝั่งไคลเอ็นต์) | - การทำให้เวิร์กโฟลว์บนเว็บที่ต้องทำซ้ำๆ เป็นอัตโนมัติ - การทดสอบอินเทอร์เฟซผู้ใช้ของเว็บแอปพลิเคชัน |
| การค้นหาไฟล์ | จัดทำดัชนีและค้นหาเอกสารของคุณเองเพื่อเปิดใช้การสร้างข้อความตามการดึงข้อมูล (RAG) | - การค้นหาคู่มือทางเทคนิค - การตอบคำถามเกี่ยวกับข้อมูลที่เป็นกรรมสิทธิ์ |
ดูรายละเอียดเกี่ยวกับค่าใช้จ่ายที่เกี่ยวข้องกับเครื่องมือบางอย่างได้ในหน้าการกำหนดราคา
วิธีการทำงานของการดำเนินการเครื่องมือ
เครื่องมือช่วยให้โมเดลขอให้ดำเนินการระหว่างการสนทนาได้ ขั้นตอนจะแตกต่างกันไปโดยขึ้นอยู่กับว่าเครื่องมือดังกล่าวเป็นเครื่องมือในตัว (จัดการโดย Google) หรือเครื่องมือที่กำหนดเอง (จัดการโดยคุณ)
โฟลว์เครื่องมือในตัว
สำหรับเครื่องมือในตัว เช่น Google Search หรือการดำเนินการโค้ด กระบวนการทั้งหมดจะเกิดขึ้นในการเรียก API ครั้งเดียว
- คุณส่งพรอมต์ว่า "รากที่ 2 ของราคาหุ้นล่าสุดของ GOOG คืออะไร"
- Gemini จะตัดสินใจว่าต้องการเครื่องมือและเรียกใช้เครื่องมือเหล่านั้นในเซิร์ฟเวอร์ของ Google (เช่น ค้นหาราคาหุ้น แล้วรันโค้ด Python เพื่อคำนวณรากที่สอง)
- Gemini จะส่งคำตอบสุดท้ายที่อิงตามผลลัพธ์ของเครื่องมือกลับมา
โฟลว์เครื่องมือที่กำหนดเอง (การเรียกใช้ฟังก์ชัน)
สำหรับเครื่องมือที่กำหนดเองและการใช้คอมพิวเตอร์ แอปพลิเคชันของคุณจะจัดการการดำเนินการ
- คุณส่งพรอมต์พร้อมกับการประกาศฟังก์ชัน (เครื่องมือ)
- Gemini อาจส่ง JSON ที่มีโครงสร้างกลับมาเพื่อเรียกใช้ฟังก์ชันที่เฉพาะเจาะจง (เช่น
{"name": "get_order_status", "args": {"order_id": "123"}}) - คุณเรียกใช้ฟังก์ชันในแอปพลิเคชันหรือสภาพแวดล้อม
- คุณส่งผลลัพธ์ของฟังก์ชันกลับไปให้ Gemini
- Gemini ใช้ผลลัพธ์เพื่อสร้างคำตอบสุดท้ายหรือการเรียกใช้เครื่องมืออื่น
ดูข้อมูลเพิ่มเติมได้ในคู่มือการเรียกใช้ฟังก์ชัน
เอาต์พุตที่มีโครงสร้างเทียบกับการเรียกใช้ฟังก์ชัน
Gemini มี 2 วิธีในการสร้างเอาต์พุตที่มีโครงสร้าง ใช้การเรียกใช้ฟังก์ชันเมื่อโมเดลต้องดำเนินการขั้นตอนกลางโดยเชื่อมต่อกับเครื่องมือหรือระบบข้อมูลของคุณเอง ใช้เอาต์พุตที่มีโครงสร้างเมื่อคุณต้องการให้คำตอบสุดท้ายของโมเดลเป็นไปตามสคีมาที่เฉพาะเจาะจงอย่างเคร่งครัด เช่น เพื่อแสดงผล UI ที่กำหนดเอง
เอเจนต์สร้าง
เอเจนต์คือระบบที่ใช้โมเดลและเครื่องมือเพื่อทำงานแบบหลายขั้นตอนให้เสร็จสมบูรณ์ แม้ว่า Gemini จะมีความสามารถในการให้เหตุผล ("สมอง") และเครื่องมือที่จำเป็น ("มือ") แต่คุณก็มักจะต้องมีเฟรมเวิร์กการประสานงานเพื่อจัดการหน่วยความจำของเอเจนต์ วางแผนลูป และดำเนินการเชื่อมโยงเครื่องมือที่ซับซ้อน
Gemini ผสานรวมกับเฟรมเวิร์กเอเจนต์โอเพนซอร์สชั้นนำดังนี้
- LangChain / LangGraph: สร้างโฟลว์แอปพลิเคชันที่ซับซ้อนแบบมีสถานะและระบบหลายเอเจนต์โดยใช้โครงสร้างกราฟ
- LlamaIndex: เชื่อมต่อเอเจนต์ Gemini กับข้อมูลส่วนตัวของคุณเพื่อเวิร์กโฟลว์ที่ได้รับการปรับปรุงด้วย RAG
- CrewAI: จัดระเบียบเอเจนต์ AI แบบอัตโนมัติที่ทำงานร่วมกันและสวมบทบาท
- Vercel AI SDK: สร้างอินเทอร์เฟซผู้ใช้และเอเจนต์ที่ทำงานด้วยระบบ AI ใน JavaScript/TypeScript
- Google ADK: เฟรมเวิร์กโอเพนซอร์สสำหรับสร้างและประสานงานเอเจนต์ AI ที่ทำงานร่วมกันได้