ภาพรวมของ Agent

เอเจนต์คือระบบที่ใช้ประโยชน์จากโมเดล Gemini, ชุดเครื่องมือ และความสามารถในการให้เหตุผล เพื่อทำงานที่ซับซ้อนและมีหลายขั้นตอน รวมถึงบรรลุเป้าหมายที่เฉพาะเจาะจง ซึ่งแตกต่างจากการเรียกโมเดลเพียงครั้งเดียว เอเจนต์สามารถวางแผน ดำเนินการตามชุดการดำเนินการ โต้ตอบกับระบบภายนอก และสังเคราะห์ข้อมูลเพื่อตอบสนองคำขอของผู้ใช้

Gemini API ช่วยให้คุณสร้างเอเจนต์ที่มีประสิทธิภาพได้โดยใช้ฟีเจอร์ต่างๆ เช่น

  • โมเดล Gemini: ความสามารถหลัก ที่ให้ความสามารถในการให้เหตุผลและความเข้าใจภาษา
  • เครื่องมือ: ความสามารถที่เชื่อมต่อโมเดลกับ ข้อมูลและการดำเนินการในโลกแห่งความเป็นจริง ซึ่งอาจเป็นเครื่องมือในตัว (เช่น Google Search, Maps, การดำเนินการโค้ด) หรือเครื่องมือที่กำหนดเอง
  • การเรียกฟังก์ชัน: กลไกในการ กำหนดและเชื่อมต่อเครื่องมือและ API ที่กำหนดเองของคุณเองกับโมเดล Gemini
  • การคิด: ฟีเจอร์ที่ช่วยเพิ่มความสามารถของโมเดล ในการให้เหตุผลและวางแผนสำหรับงานที่ซับซ้อน
  • บริบทที่ยาว: ช่วยให้เอเจนต์ รักษาสถานะและข้อมูลในการโต้ตอบที่ยาวนานขึ้น

ตัวแทนที่พร้อมให้บริการ

  • Deep Research Agent: Agent แบบอัตโนมัติที่วางแผน ดำเนินการ และสังเคราะห์งานวิจัยแบบหลายขั้นตอนสำหรับกรณีการใช้งานต่างๆ เช่น การวิเคราะห์ตลาด การสอบทานธุรกิจ และการทบทวนวรรณกรรม

การสร้างเอเจนต์

เอเจนต์ใช้โมเดลและเครื่องมือเพื่อทำงานหลายขั้นตอนให้เสร็จสมบูรณ์ แม้ว่า Gemini จะมีความสามารถในการให้เหตุผล ("สมอง") และเครื่องมือที่จำเป็น ("มือ") แต่คุณมักจะต้องมีเฟรมเวิร์กการประสานงานเพื่อจัดการหน่วยความจำของเอเจนต์ วางแผนลูป และดำเนินการเชื่อมโยงเครื่องมือที่ซับซ้อน

หากต้องการเพิ่มความน่าเชื่อถือในเวิร์กโฟลว์แบบหลายขั้นตอน คุณควรสร้างคำสั่ง ที่ควบคุมวิธีที่โมเดลให้เหตุผลและวางแผนอย่างชัดเจน แม้ว่า Gemini จะให้ การให้เหตุผลทั่วไปที่แข็งแกร่ง แต่เอเจนต์ที่ซับซ้อนจะได้รับประโยชน์จากพรอมต์ที่บังคับใช้ ลักษณะการทำงานที่เฉพาะเจาะจง เช่น ความคงทนเมื่อเกิดปัญหา การประเมินความเสี่ยง และ การวางแผนเชิงรุก

ดูเวิร์กโฟลว์แบบเอเจนต์เพื่อดูกลยุทธ์ในการออกแบบพรอมต์เหล่านี้ ต่อไปนี้คือตัวอย่างคำสั่งระบบที่ ปรับปรุงประสิทธิภาพในเกณฑ์มาตรฐานแบบเอเจนต์หลายรายการได้ประมาณ 5%

เฟรมเวิร์กของ Agent

Gemini ผสานรวมกับเฟรมเวิร์กเอเจนต์โอเพนซอร์สชั้นนำ เช่น

  • LangChain / LangGraph: สร้างโฟลว์แอปพลิเคชันที่ซับซ้อนแบบเก็บสถานะและระบบแบบหลาย Agent โดยใช้โครงสร้างกราฟ
  • LlamaIndex: เชื่อมต่อ Agent ของ Gemini กับ ข้อมูลส่วนตัวของคุณเพื่อเวิร์กโฟลว์ที่ได้รับการปรับปรุงด้วย RAG
  • CrewAI: จัดระเบียบ AI Agent แบบอัตโนมัติที่ทำงานร่วมกันและสวมบทบาท
  • Vercel AI SDK: สร้างอินเทอร์เฟซผู้ใช้และเอเจนต์ที่ทำงานด้วยระบบ AI ใน JavaScript/TypeScript
  • Google ADK: เฟรมเวิร์กโอเพนซอร์สสําหรับสร้างและจัดระเบียบเอเจนต์ AI ที่ทํางานร่วมกันได้