การใช้เครื่องมือกับ Gemini API

เครื่องมือจะขยายขีดความสามารถของโมเดล Gemini ทำให้โมเดลสามารถดำเนินการในโลกแห่งความเป็นจริง เข้าถึงข้อมูลแบบเรียลไทม์ และทำงานด้านการคำนวณที่ซับซ้อนได้ โดยโมเดลสามารถใช้เครื่องมือในการโต้ตอบแบบคำขอ-การตอบกลับมาตรฐานและเซสชันการสตรีมแบบเรียลไทม์ผ่าน Live API

Gemini API มีชุดเครื่องมือในตัวที่มีการจัดการอย่างเต็มรูปแบบซึ่งได้รับการเพิ่มประสิทธิภาพสำหรับโมเดล Gemini หรือคุณจะกำหนดเครื่องมือที่กำหนดเองโดยใช้การเรียกใช้ฟังก์ชันก็ได้

เครื่องมือในตัวที่พร้อมใช้งาน

เครื่องมือ คำอธิบาย กรณีการใช้งาน
Google Search อ้างอิงคำตอบจากเหตุการณ์ปัจจุบันและข้อเท็จจริงจากเว็บเพื่อลดการหลอน - ตอบคำถามเกี่ยวกับเหตุการณ์ล่าสุด
- ยืนยันข้อเท็จจริงด้วยแหล่งข้อมูลที่หลากหลาย
Google Maps สร้างผู้ช่วยที่รับรู้ตำแหน่งซึ่งค้นหาสถานที่ ขอเส้นทาง และให้บริบทในท้องถิ่นที่สมบูรณ์ได้ - การวางแผนการเดินทางที่มีหลายจุดแวะพัก
- การค้นหาธุรกิจในพื้นที่ตามเกณฑ์ของผู้ใช้
การรันโค้ด อนุญาตให้โมเดลเขียนและรันโค้ด Python เพื่อแก้โจทย์คณิตศาสตร์หรือประมวลผลข้อมูลได้อย่างถูกต้อง - การแก้สมการคณิตศาสตร์ที่ซับซ้อน
- การประมวลผลและวิเคราะห์ข้อมูลข้อความอย่างแม่นยำ
บริบท URL สั่งให้โมเดลอ่านและวิเคราะห์เนื้อหาจากหน้าเว็บหรือเอกสารที่เฉพาะเจาะจง - ตอบคำถามโดยอิงตาม URL หรือเอกสารที่เฉพาะเจาะจง
- ดึงข้อมูลจากหน้าเว็บต่างๆ
การใช้งานคอมพิวเตอร์ (ตัวอย่าง) เปิดใช้ Gemini เพื่อดูหน้าจอและสร้างการดำเนินการเพื่อโต้ตอบกับ UI ของเว็บเบราว์เซอร์ (การดำเนินการฝั่งไคลเอ็นต์) - การทำให้เวิร์กโฟลว์บนเว็บที่ต้องทำซ้ำๆ เป็นอัตโนมัติ
- การทดสอบอินเทอร์เฟซผู้ใช้ของเว็บแอปพลิเคชัน
การค้นหาไฟล์ จัดทำดัชนีและค้นหาเอกสารของคุณเองเพื่อเปิดใช้การสร้างข้อความตามการดึงข้อมูล (RAG) - การค้นหาคู่มือทางเทคนิค
- การตอบคำถามเกี่ยวกับข้อมูลที่เป็นกรรมสิทธิ์

ดูรายละเอียดเกี่ยวกับค่าใช้จ่ายที่เกี่ยวข้องกับเครื่องมือบางอย่างได้ในหน้าการกำหนดราคา

วิธีการทำงานของการดำเนินการเครื่องมือ

เครื่องมือช่วยให้โมเดลขอให้ดำเนินการระหว่างการสนทนาได้ ขั้นตอนจะแตกต่างกันไปโดยขึ้นอยู่กับว่าเครื่องมือดังกล่าวเป็นเครื่องมือในตัว (จัดการโดย Google) หรือเครื่องมือที่กำหนดเอง (จัดการโดยคุณ)

โฟลว์เครื่องมือในตัว

สำหรับเครื่องมือในตัว เช่น Google Search หรือการดำเนินการโค้ด กระบวนการทั้งหมดจะเกิดขึ้นในการเรียก API ครั้งเดียว

  1. คุณส่งพรอมต์ว่า "รากที่ 2 ของราคาหุ้นล่าสุดของ GOOG คืออะไร"
  2. Gemini จะตัดสินใจว่าต้องการเครื่องมือและเรียกใช้เครื่องมือเหล่านั้นในเซิร์ฟเวอร์ของ Google (เช่น ค้นหาราคาหุ้น แล้วรันโค้ด Python เพื่อคำนวณรากที่สอง)
  3. Gemini จะส่งคำตอบสุดท้ายที่อิงตามผลลัพธ์ของเครื่องมือกลับมา

โฟลว์เครื่องมือที่กำหนดเอง (การเรียกใช้ฟังก์ชัน)

สำหรับเครื่องมือที่กำหนดเองและการใช้คอมพิวเตอร์ แอปพลิเคชันของคุณจะจัดการการดำเนินการ

  1. คุณส่งพรอมต์พร้อมกับการประกาศฟังก์ชัน (เครื่องมือ)
  2. Gemini อาจส่ง JSON ที่มีโครงสร้างกลับมาเพื่อเรียกใช้ฟังก์ชันที่เฉพาะเจาะจง (เช่น {"name": "get_order_status", "args": {"order_id": "123"}})
  3. คุณเรียกใช้ฟังก์ชันในแอปพลิเคชันหรือสภาพแวดล้อม
  4. คุณส่งผลลัพธ์ของฟังก์ชันกลับไปให้ Gemini
  5. Gemini ใช้ผลลัพธ์เพื่อสร้างคำตอบสุดท้ายหรือการเรียกใช้เครื่องมืออื่น

ดูข้อมูลเพิ่มเติมได้ในคู่มือการเรียกใช้ฟังก์ชัน

เอาต์พุตที่มีโครงสร้างเทียบกับการเรียกใช้ฟังก์ชัน

Gemini มี 2 วิธีในการสร้างเอาต์พุตที่มีโครงสร้าง ใช้การเรียกใช้ฟังก์ชันเมื่อโมเดลต้องดำเนินการขั้นตอนกลางโดยเชื่อมต่อกับเครื่องมือหรือระบบข้อมูลของคุณเอง ใช้เอาต์พุตที่มีโครงสร้างเมื่อคุณต้องการให้คำตอบสุดท้ายของโมเดลเป็นไปตามสคีมาที่เฉพาะเจาะจงอย่างเคร่งครัด เช่น เพื่อแสดงผล UI ที่กำหนดเอง

เอเจนต์สร้าง

เอเจนต์คือระบบที่ใช้โมเดลและเครื่องมือเพื่อทำงานแบบหลายขั้นตอนให้เสร็จสมบูรณ์ แม้ว่า Gemini จะมีความสามารถในการให้เหตุผล ("สมอง") และเครื่องมือที่จำเป็น ("มือ") แต่คุณก็มักจะต้องมีเฟรมเวิร์กการประสานงานเพื่อจัดการหน่วยความจำของเอเจนต์ วางแผนลูป และดำเนินการเชื่อมโยงเครื่องมือที่ซับซ้อน

Gemini ผสานรวมกับเฟรมเวิร์กเอเจนต์โอเพนซอร์สชั้นนำดังนี้

  • LangChain / LangGraph: สร้างโฟลว์แอปพลิเคชันที่ซับซ้อนแบบมีสถานะและระบบหลายเอเจนต์โดยใช้โครงสร้างกราฟ
  • LlamaIndex: เชื่อมต่อเอเจนต์ Gemini กับข้อมูลส่วนตัวของคุณเพื่อเวิร์กโฟลว์ที่ได้รับการปรับปรุงด้วย RAG
  • CrewAI: จัดระเบียบเอเจนต์ AI แบบอัตโนมัติที่ทำงานร่วมกันและสวมบทบาท
  • Vercel AI SDK: สร้างอินเทอร์เฟซผู้ใช้และเอเจนต์ที่ทำงานด้วยระบบ AI ใน JavaScript/TypeScript
  • Google ADK: เฟรมเวิร์กโอเพนซอร์สสำหรับสร้างและประสานงานเอเจนต์ AI ที่ทำงานร่วมกันได้