این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

استفاده از ابزارها و عوامل با Gemini API

ابزارها و عامل‌ها قابلیت‌های مدل‌های Gemini را گسترش می‌دهند و آنها را قادر می‌سازند تا در جهان اقدام کنند، به اطلاعات بلادرنگ دسترسی داشته باشند و وظایف محاسباتی پیچیده را انجام دهند. مدل‌ها می‌توانند از ابزارها هم در تعاملات استاندارد درخواست-پاسخ و هم در جلسات پخش بلادرنگ با استفاده از Live API استفاده کنند.

ابزارها قابلیت‌های خاصی (مانند جستجوی گوگل یا اجرای کد) هستند که یک مدل می‌تواند برای پاسخ به پرسش‌ها از آنها استفاده کند.
عامل‌ها سیستم‌هایی هستند که می‌توانند وظایف چند مرحله‌ای را برای دستیابی به هدف کاربر برنامه‌ریزی، اجرا و ترکیب کنند.

رابط برنامه‌نویسی نرم‌افزار Gemini مجموعه‌ای از ابزارها و عامل‌های کاملاً مدیریت‌شده و داخلی را که برای مدل‌های Gemini بهینه شده‌اند، ارائه می‌دهد، یا می‌توانید با استفاده از فراخوانی تابع (Function Calling)، ابزارهای سفارشی تعریف کنید.

ابزارهای داخلی موجود

ابزار	توضیحات	موارد استفاده
جستجوی گوگل	پاسخ‌های زمینه‌ای به رویدادهای جاری و حقایق موجود در وب برای کاهش توهمات.	- پاسخ به سوالات مربوط به وقایع اخیر - تأیید حقایق با منابع متنوع
نقشه‌های گوگل	دستیارانی بسازید که از موقعیت مکانی آگاه باشند و بتوانند مکان‌ها را پیدا کنند، مسیرها را دریافت کنند و اطلاعات غنی محلی ارائه دهند.	- برنامه‌ریزی سفرهایی با توقف‌های متعدد - یافتن مشاغل محلی بر اساس معیارهای کاربر
اجرای کد	به مدل اجازه دهید کد پایتون را بنویسد و اجرا کند تا مسائل ریاضی را حل کند یا داده‌ها را به طور دقیق پردازش کند.	- حل معادلات پیچیده ریاضی - پردازش و تحلیل دقیق داده‌های متنی
متن URL	مدل را برای خواندن و تجزیه و تحلیل محتوا از صفحات وب یا اسناد خاص هدایت کنید.	- پاسخ به سوالات بر اساس URLها یا اسناد خاص - بازیابی اطلاعات از صفحات وب مختلف
استفاده از کامپیوتر (پیش‌نمایش)	Gemini را فعال کنید تا صفحه نمایش را مشاهده کند و اقداماتی را برای تعامل با رابط‌های کاربری مرورگر وب ایجاد کند (اجرای سمت کلاینت).	- خودکارسازی گردش‌های کاری تکراری مبتنی بر وب - تست رابط کاربری برنامه‌های تحت وب
جستجوی فایل	اسناد خود را فهرست‌بندی و جستجو کنید تا بازیابی افزوده نسل (RAG) فعال شود.	- جستجوی دفترچه‌های راهنمای فنی - پاسخگویی به سوالات از طریق داده‌های اختصاصی

برای جزئیات مربوط به هزینه‌های مربوط به ابزارهای خاص، به صفحه قیمت‌گذاری مراجعه کنید.

نمایندگان موجود

عامل	توضیحات	موارد استفاده
تحقیقات عمیق	به طور خودکار وظایف تحقیقاتی چند مرحله‌ای را برنامه‌ریزی، اجرا و ترکیب می‌کند.	- تحلیل بازار - دقت لازم - بررسی ادبیات

نحوه اجرای ابزارها

ابزارها به مدل اجازه می‌دهند تا در طول مکالمه درخواست‌هایی را انجام دهد. جریان کار بسته به اینکه ابزار داخلی (مدیریت‌شده توسط گوگل) یا سفارشی (مدیریت‌شده توسط شما) باشد، متفاوت است.

جریان ابزار داخلی

برای ابزارهای داخلی مانند جستجوی گوگل یا اجرای کد، کل فرآیند در یک فراخوانی API اتفاق می‌افتد:

شما یک سوال می‌فرستید: «جذر آخرین قیمت سهام GOOG چقدر است؟»
جمینی تصمیم می‌گیرد که به ابزارهایی نیاز دارد و آنها را روی سرورهای گوگل اجرا می‌کند (مثلاً قیمت سهام را جستجو می‌کند، سپس کد پایتون را برای محاسبه جذر اجرا می‌کند).
جمینی پاسخ نهایی را که مبتنی بر نتایج ابزار است، ارسال می‌کند.

جریان ابزار سفارشی (فراخوانی تابع)

برای ابزارهای سفارشی و استفاده از کامپیوتر، برنامه شما اجرای موارد زیر را مدیریت می‌کند:

شما یک اعلان به همراه اعلان توابع (ابزارها) ارسال می‌کنید.
Gemini ممکن است یک JSON ساختاریافته را برای فراخوانی یک تابع خاص ارسال کند (برای مثال، {"name": "get_order_status", "args": {"order_id": "123"}} ).
شما تابع را در برنامه یا محیط خود اجرا می‌کنید.
شما نتایج تابع را به Gemini ارسال می‌کنید.
جمینی از نتایج برای تولید پاسخ نهایی یا فراخوانی ابزار دیگری استفاده می‌کند.

برای اطلاعات بیشتر به راهنمای فراخوانی تابع مراجعه کنید.

خروجی‌های ساختاریافته در مقابل فراخوانی تابع

Gemini دو روش برای تولید خروجی‌های ساختاریافته ارائه می‌دهد. از فراخوانی تابع زمانی استفاده کنید که مدل نیاز به انجام یک مرحله میانی با اتصال به ابزارها یا سیستم‌های داده خودتان دارد. از خروجی‌های ساختاریافته زمانی استفاده کنید که به شدت نیاز دارید پاسخ نهایی مدل از یک طرحواره خاص پیروی کند، مانند رندر یک رابط کاربری سفارشی.

خروجی‌های ساختاریافته با ابزارها

شما می‌توانید خروجی‌های ساختاریافته را با ابزارهای داخلی ترکیب کنید تا اطمینان حاصل شود که پاسخ‌های مدل مبتنی بر داده‌ها یا محاسبات خارجی همچنان از یک طرحواره دقیق پیروی می‌کنند.

برای مثال‌های کد، به خروجی‌های ساختاریافته با ابزارها مراجعه کنید.

عوامل ساختمانی

عامل‌ها سیستم‌هایی هستند که از مدل‌ها و ابزارها برای انجام وظایف چند مرحله‌ای استفاده می‌کنند. در حالی که Gemini قابلیت‌های استدلال ("مغز") و ابزارهای ضروری ("دست‌ها") را فراهم می‌کند، شما اغلب به یک چارچوب ارکستراسیون برای مدیریت حافظه عامل، حلقه‌های برنامه‌ریزی و انجام زنجیره‌سازی پیچیده ابزار نیاز دارید.

برای به حداکثر رساندن قابلیت اطمینان در گردش‌های کاری چند مرحله‌ای، باید دستورالعمل‌هایی تهیه کنید که صریحاً نحوه استدلال و برنامه‌ریزی مدل را کنترل کنند. در حالی که Gemini استدلال عمومی قوی ارائه می‌دهد، عامل‌های پیچیده از دستورالعمل‌هایی که رفتارهای خاصی مانند پشتکار در مواجهه با مسائل، ارزیابی ریسک و برنامه‌ریزی پیشگیرانه را تقویت می‌کنند، بهره می‌برند.

برای استراتژی‌های طراحی این دستورالعمل‌ها، به گردش‌های کاری Agentic مراجعه کنید. در اینجا مثالی از یک دستورالعمل سیستمی آورده شده است که عملکرد را در چندین معیار Agentic حدود ۵٪ بهبود بخشیده است.

چارچوب‌های عامل

Gemini با چارچوب‌های عامل متن‌باز پیشرو مانند موارد زیر ادغام می‌شود:

LangChain / LangGraph : ساخت جریان‌های کاربردی پیچیده و دارای وضعیت و سیستم‌های چندعامله با استفاده از ساختارهای گراف.
LlamaIndex : برای گردش کارهای بهبود یافته با RAG، عوامل Gemini را به داده‌های خصوصی خود متصل کنید.
CrewAI : هماهنگ‌سازی عوامل هوش مصنوعی مستقل مشارکتی و نقش‌آفرین.
کیت توسعه نرم‌افزاری Vercel AI : ساخت رابط‌های کاربری و عامل‌های مبتنی بر هوش مصنوعی در جاوااسکریپت/تایپ‌اسکریپت.
Google ADK : یک چارچوب متن‌باز برای ساخت و هماهنگ‌سازی عامل‌های هوش مصنوعی سازگار.