เอเจนต์คือระบบที่ใช้ประโยชน์จากโมเดล Gemini, ชุดเครื่องมือ และความสามารถในการให้เหตุผล เพื่อทำงานที่ซับซ้อนและมีหลายขั้นตอน รวมถึงบรรลุเป้าหมายที่เฉพาะเจาะจง เอเจนต์สามารถวางแผน ดำเนินการตามชุดการดำเนินการ โต้ตอบกับระบบภายนอก และสังเคราะห์ข้อมูลเพื่อตอบสนองคำขอของผู้ใช้ ซึ่งแตกต่างจากการเรียกโมเดลเพียงครั้งเดียว
Gemini API ช่วยให้คุณสร้างเอเจนต์ที่มีประสิทธิภาพได้โดยใช้ฟีเจอร์ต่างๆ เช่น
- โมเดล Gemini: ความอัจฉริยะหลัก ที่ให้ความสามารถในการให้เหตุผลและความเข้าใจภาษา
- เครื่องมือ: ความสามารถที่เชื่อมต่อโมเดลกับ ข้อมูลและการดำเนินการในโลกแห่งความเป็นจริง ซึ่งอาจเป็นเครื่องมือในตัว (เช่น Google Search, Maps, การดำเนินการโค้ด) หรือเครื่องมือที่กำหนดเอง
- การเรียกฟังก์ชัน: กลไกในการ กำหนดและเชื่อมต่อเครื่องมือและ API ที่กำหนดเองกับโมเดล Gemini
- การคิด: ฟีเจอร์ที่ช่วยเพิ่มความสามารถของโมเดล ในการให้เหตุผลและวางแผนสำหรับงานที่ซับซ้อน
- บริบทที่ยาว: ช่วยให้เอเจนต์ คงสถานะและข้อมูลในการโต้ตอบที่ยาวนาน
ตัวแทนที่พร้อมให้บริการ
- Deep Research Agent: Agent แบบอัตโนมัติที่วางแผน ดำเนินการ และสังเคราะห์งานวิจัยแบบหลายขั้นตอนสำหรับกรณีการใช้งาน เช่น การวิเคราะห์ตลาด การตรวจสอบวิเคราะห์เนื่อง และการทบทวนวรรณกรรม
การสร้างเอเจนต์
Agent ใช้โมเดลและเครื่องมือเพื่อทำงานแบบหลายขั้นตอนให้เสร็จสมบูรณ์ แม้ว่า Gemini จะมี ความสามารถในการให้เหตุผล ("สมอง") และเครื่องมือที่จำเป็น ("มือ") แต่คุณมักจะต้องมีเฟรมเวิร์กการประสานงานเพื่อจัดการหน่วยความจำของเอเจนต์ วางแผน ลูป และดำเนินการเชื่อมโยงเครื่องมือที่ซับซ้อน
หากต้องการเพิ่มความน่าเชื่อถือในเวิร์กโฟลว์แบบหลายขั้นตอน คุณควรสร้างคำสั่ง ที่ควบคุมวิธีที่โมเดลให้เหตุผลและวางแผนอย่างชัดเจน แม้ว่า Gemini จะให้ การให้เหตุผลทั่วไปที่แข็งแกร่ง แต่เอเจนต์ที่ซับซ้อนจะได้รับประโยชน์จากพรอมต์ที่บังคับใช้ ลักษณะการทำงานที่เฉพาะเจาะจง เช่น ความคงทนเมื่อเกิดปัญหา การประเมินความเสี่ยง และ การวางแผนเชิงรุก
ดูเวิร์กโฟลว์แบบเอเจนต์เพื่อดูกลยุทธ์ในการออกแบบพรอมต์เหล่านี้ ต่อไปนี้คือตัวอย่างคำสั่งระบบที่ ปรับปรุงประสิทธิภาพในเกณฑ์มาตรฐานแบบเอเจนต์หลายรายการได้ประมาณ 5%
เฟรมเวิร์กของ Agent
Gemini ผสานรวมกับเฟรมเวิร์กเอเจนต์โอเพนซอร์สชั้นนำ เช่น
- LangChain / LangGraph: สร้าง โฟลว์แอปพลิเคชันที่ซับซ้อนและมีสถานะ รวมถึงระบบ Multi-Agent โดยใช้โครงสร้างกราฟ
- LlamaIndex: เชื่อมต่อเอเจนต์ Gemini กับ ข้อมูลส่วนตัวของคุณสำหรับเวิร์กโฟลว์ที่ได้รับการปรับปรุงด้วย RAG
- CrewAI: จัดระเบียบ AI Agent แบบอัตโนมัติที่ทำงานร่วมกันและสวมบทบาท
- Vercel AI SDK: สร้าง อินเทอร์เฟซผู้ใช้และเอเจนต์ที่ทำงานด้วยระบบ AI ใน JavaScript/TypeScript
- Google ADK: เฟรมเวิร์กโอเพนซอร์สสําหรับสร้างและจัดระเบียบเอเจนต์ AI ที่ทํางานร่วมกันได้