เอเจนต์คือระบบที่ใช้ประโยชน์จากโมเดล Gemini, ชุดเครื่องมือ และความสามารถในการให้เหตุผล เพื่อทำงานที่ซับซ้อนและมีหลายขั้นตอน รวมถึงบรรลุเป้าหมายที่เฉพาะเจาะจง ซึ่งแตกต่างจากการเรียกโมเดลเพียงครั้งเดียว เอเจนต์สามารถวางแผน ดำเนินการตามชุดการดำเนินการ โต้ตอบกับระบบภายนอก และสังเคราะห์ข้อมูลเพื่อตอบสนองคำขอของผู้ใช้
Gemini API ช่วยให้คุณสร้างเอเจนต์ที่มีประสิทธิภาพได้โดยใช้ฟีเจอร์ต่างๆ เช่น
- โมเดล Gemini: ความสามารถหลัก ที่ให้ความสามารถในการให้เหตุผลและความเข้าใจภาษา
- เครื่องมือ: ความสามารถที่เชื่อมต่อโมเดลกับ ข้อมูลและการดำเนินการในโลกแห่งความเป็นจริง ซึ่งอาจเป็นเครื่องมือในตัว (เช่น Google Search, Maps, การดำเนินการโค้ด) หรือเครื่องมือที่กำหนดเอง
- การเรียกฟังก์ชัน: กลไกในการ กำหนดและเชื่อมต่อเครื่องมือและ API ที่กำหนดเองของคุณเองกับโมเดล Gemini
- การคิด: ฟีเจอร์ที่ช่วยเพิ่มความสามารถของโมเดล ในการให้เหตุผลและวางแผนสำหรับงานที่ซับซ้อน
- บริบทที่ยาว: ช่วยให้เอเจนต์ รักษาสถานะและข้อมูลในการโต้ตอบที่ยาวนานขึ้น
ตัวแทนที่พร้อมให้บริการ
- Deep Research Agent: Agent แบบอัตโนมัติที่วางแผน ดำเนินการ และสังเคราะห์งานวิจัยแบบหลายขั้นตอนสำหรับกรณีการใช้งานต่างๆ เช่น การวิเคราะห์ตลาด การสอบทานธุรกิจ และการทบทวนวรรณกรรม
การสร้างเอเจนต์
เอเจนต์ใช้โมเดลและเครื่องมือเพื่อทำงานหลายขั้นตอนให้เสร็จสมบูรณ์ แม้ว่า Gemini จะมีความสามารถในการให้เหตุผล ("สมอง") และเครื่องมือที่จำเป็น ("มือ") แต่คุณมักจะต้องมีเฟรมเวิร์กการประสานงานเพื่อจัดการหน่วยความจำของเอเจนต์ วางแผนลูป และดำเนินการเชื่อมโยงเครื่องมือที่ซับซ้อน
หากต้องการเพิ่มความน่าเชื่อถือในเวิร์กโฟลว์แบบหลายขั้นตอน คุณควรสร้างคำสั่ง ที่ควบคุมวิธีที่โมเดลให้เหตุผลและวางแผนอย่างชัดเจน แม้ว่า Gemini จะให้ การให้เหตุผลทั่วไปที่แข็งแกร่ง แต่เอเจนต์ที่ซับซ้อนจะได้รับประโยชน์จากพรอมต์ที่บังคับใช้ ลักษณะการทำงานที่เฉพาะเจาะจง เช่น ความคงทนเมื่อเกิดปัญหา การประเมินความเสี่ยง และ การวางแผนเชิงรุก
ดูเวิร์กโฟลว์แบบเอเจนต์เพื่อดูกลยุทธ์ในการออกแบบพรอมต์เหล่านี้ ต่อไปนี้คือตัวอย่างคำสั่งระบบที่ ปรับปรุงประสิทธิภาพในเกณฑ์มาตรฐานแบบเอเจนต์หลายรายการได้ประมาณ 5%
เฟรมเวิร์กของ Agent
Gemini ผสานรวมกับเฟรมเวิร์กเอเจนต์โอเพนซอร์สชั้นนำ เช่น
- LangChain / LangGraph: สร้างโฟลว์แอปพลิเคชันที่ซับซ้อนแบบเก็บสถานะและระบบแบบหลาย Agent โดยใช้โครงสร้างกราฟ
- LlamaIndex: เชื่อมต่อ Agent ของ Gemini กับ ข้อมูลส่วนตัวของคุณเพื่อเวิร์กโฟลว์ที่ได้รับการปรับปรุงด้วย RAG
- CrewAI: จัดระเบียบ AI Agent แบบอัตโนมัติที่ทำงานร่วมกันและสวมบทบาท
- Vercel AI SDK: สร้างอินเทอร์เฟซผู้ใช้และเอเจนต์ที่ทำงานด้วยระบบ AI ใน JavaScript/TypeScript
- Google ADK: เฟรมเวิร์กโอเพนซอร์สสําหรับสร้างและจัดระเบียบเอเจนต์ AI ที่ทํางานร่วมกันได้