ภาพรวมของ Agent

เอเจนต์คือระบบที่ใช้ประโยชน์จากโมเดล Gemini, ชุดเครื่องมือ และความสามารถในการให้เหตุผล เพื่อทำงานที่ซับซ้อนและมีหลายขั้นตอน รวมถึงบรรลุเป้าหมายที่เฉพาะเจาะจง เอเจนต์สามารถวางแผน ดำเนินการตามชุดการดำเนินการ โต้ตอบกับระบบภายนอก และสังเคราะห์ข้อมูลเพื่อตอบสนองคำขอของผู้ใช้ ซึ่งแตกต่างจากการเรียกโมเดลเพียงครั้งเดียว

Gemini API ช่วยให้คุณสร้างเอเจนต์ที่มีประสิทธิภาพได้โดยใช้ฟีเจอร์ต่างๆ เช่น

  • โมเดล Gemini: ความอัจฉริยะหลัก ที่ให้ความสามารถในการให้เหตุผลและความเข้าใจภาษา
  • เครื่องมือ: ความสามารถที่เชื่อมต่อโมเดลกับ ข้อมูลและการดำเนินการในโลกแห่งความเป็นจริง ซึ่งอาจเป็นเครื่องมือในตัว (เช่น Google Search, Maps, การดำเนินการโค้ด) หรือเครื่องมือที่กำหนดเอง
  • การเรียกฟังก์ชัน: กลไกในการ กำหนดและเชื่อมต่อเครื่องมือและ API ที่กำหนดเองกับโมเดล Gemini
  • การคิด: ฟีเจอร์ที่ช่วยเพิ่มความสามารถของโมเดล ในการให้เหตุผลและวางแผนสำหรับงานที่ซับซ้อน
  • บริบทที่ยาว: ช่วยให้เอเจนต์ คงสถานะและข้อมูลในการโต้ตอบที่ยาวนาน

ตัวแทนที่พร้อมให้บริการ

  • Deep Research Agent: Agent แบบอัตโนมัติที่วางแผน ดำเนินการ และสังเคราะห์งานวิจัยแบบหลายขั้นตอนสำหรับกรณีการใช้งาน เช่น การวิเคราะห์ตลาด การตรวจสอบวิเคราะห์เนื่อง และการทบทวนวรรณกรรม

การสร้างเอเจนต์

Agent ใช้โมเดลและเครื่องมือเพื่อทำงานแบบหลายขั้นตอนให้เสร็จสมบูรณ์ แม้ว่า Gemini จะมี ความสามารถในการให้เหตุผล ("สมอง") และเครื่องมือที่จำเป็น ("มือ") แต่คุณมักจะต้องมีเฟรมเวิร์กการประสานงานเพื่อจัดการหน่วยความจำของเอเจนต์ วางแผน ลูป และดำเนินการเชื่อมโยงเครื่องมือที่ซับซ้อน

หากต้องการเพิ่มความน่าเชื่อถือในเวิร์กโฟลว์แบบหลายขั้นตอน คุณควรสร้างคำสั่ง ที่ควบคุมวิธีที่โมเดลให้เหตุผลและวางแผนอย่างชัดเจน แม้ว่า Gemini จะให้ การให้เหตุผลทั่วไปที่แข็งแกร่ง แต่เอเจนต์ที่ซับซ้อนจะได้รับประโยชน์จากพรอมต์ที่บังคับใช้ ลักษณะการทำงานที่เฉพาะเจาะจง เช่น ความคงทนเมื่อเกิดปัญหา การประเมินความเสี่ยง และ การวางแผนเชิงรุก

ดูเวิร์กโฟลว์แบบเอเจนต์เพื่อดูกลยุทธ์ในการออกแบบพรอมต์เหล่านี้ ต่อไปนี้คือตัวอย่างคำสั่งระบบที่ ปรับปรุงประสิทธิภาพในเกณฑ์มาตรฐานแบบเอเจนต์หลายรายการได้ประมาณ 5%

เฟรมเวิร์กของ Agent

Gemini ผสานรวมกับเฟรมเวิร์กเอเจนต์โอเพนซอร์สชั้นนำ เช่น

  • LangChain / LangGraph: สร้าง โฟลว์แอปพลิเคชันที่ซับซ้อนและมีสถานะ รวมถึงระบบ Multi-Agent โดยใช้โครงสร้างกราฟ
  • LlamaIndex: เชื่อมต่อเอเจนต์ Gemini กับ ข้อมูลส่วนตัวของคุณสำหรับเวิร์กโฟลว์ที่ได้รับการปรับปรุงด้วย RAG
  • CrewAI: จัดระเบียบ AI Agent แบบอัตโนมัติที่ทำงานร่วมกันและสวมบทบาท
  • Vercel AI SDK: สร้าง อินเทอร์เฟซผู้ใช้และเอเจนต์ที่ทำงานด้วยระบบ AI ใน JavaScript/TypeScript
  • Google ADK: เฟรมเวิร์กโอเพนซอร์สสําหรับสร้างและจัดระเบียบเอเจนต์ AI ที่ทํางานร่วมกันได้