ابزارها و عاملها قابلیتهای مدلهای Gemini را گسترش میدهند و آنها را قادر میسازند تا در جهان اقدام کنند، به اطلاعات بلادرنگ دسترسی داشته باشند و وظایف محاسباتی پیچیده را انجام دهند. مدلها میتوانند از ابزارها هم در تعاملات استاندارد درخواست-پاسخ و هم در جلسات پخش بلادرنگ با استفاده از Live API استفاده کنند.
- ابزارها قابلیتهای خاصی (مانند جستجوی گوگل یا اجرای کد) هستند که یک مدل میتواند برای پاسخ به پرسشها از آنها استفاده کند.
- عاملها سیستمهایی هستند که میتوانند وظایف چند مرحلهای را برای دستیابی به هدف کاربر برنامهریزی، اجرا و ترکیب کنند.
رابط برنامهنویسی نرمافزار Gemini مجموعهای از ابزارها و عاملهای کاملاً مدیریتشده و داخلی را که برای مدلهای Gemini بهینه شدهاند، ارائه میدهد، یا میتوانید با استفاده از فراخوانی تابع (Function Calling)، ابزارهای سفارشی تعریف کنید.
ابزارهای داخلی موجود
| ابزار | توضیحات | موارد استفاده |
|---|---|---|
| جستجوی گوگل | پاسخهای زمینهای به رویدادهای جاری و حقایق موجود در وب برای کاهش توهمات. | - پاسخ به سوالات مربوط به وقایع اخیر - تأیید حقایق با منابع متنوع |
| نقشههای گوگل | دستیارانی بسازید که از موقعیت مکانی آگاه باشند و بتوانند مکانها را پیدا کنند، مسیرها را دریافت کنند و اطلاعات غنی محلی ارائه دهند. | - برنامهریزی سفرهایی با توقفهای متعدد - یافتن مشاغل محلی بر اساس معیارهای کاربر |
| اجرای کد | به مدل اجازه دهید کد پایتون را بنویسد و اجرا کند تا مسائل ریاضی را حل کند یا دادهها را به طور دقیق پردازش کند. | - حل معادلات پیچیده ریاضی - پردازش و تحلیل دقیق دادههای متنی |
| متن URL | مدل را برای خواندن و تجزیه و تحلیل محتوا از صفحات وب یا اسناد خاص هدایت کنید. | - پاسخ به سوالات بر اساس URLها یا اسناد خاص - بازیابی اطلاعات از صفحات وب مختلف |
| استفاده از کامپیوتر (پیشنمایش) | Gemini را فعال کنید تا صفحه نمایش را مشاهده کند و اقداماتی را برای تعامل با رابطهای کاربری مرورگر وب ایجاد کند (اجرای سمت کلاینت). | - خودکارسازی گردشهای کاری تکراری مبتنی بر وب - تست رابط کاربری برنامههای تحت وب |
| جستجوی فایل | اسناد خود را فهرستبندی و جستجو کنید تا بازیابی افزوده نسل (RAG) فعال شود. | - جستجوی دفترچههای راهنمای فنی - پاسخگویی به سوالات از طریق دادههای اختصاصی |
برای جزئیات مربوط به هزینههای مربوط به ابزارهای خاص، به صفحه قیمتگذاری مراجعه کنید.
نمایندگان موجود
| عامل | توضیحات | موارد استفاده |
|---|---|---|
| تحقیقات عمیق | به طور خودکار وظایف تحقیقاتی چند مرحلهای را برنامهریزی، اجرا و ترکیب میکند. | - تحلیل بازار - دقت لازم - بررسی ادبیات |
نحوه اجرای ابزارها
ابزارها به مدل اجازه میدهند تا در طول مکالمه درخواستهایی را انجام دهد. جریان کار بسته به اینکه ابزار داخلی (مدیریتشده توسط گوگل) یا سفارشی (مدیریتشده توسط شما) باشد، متفاوت است.
جریان ابزار داخلی
برای ابزارهای داخلی مانند جستجوی گوگل یا اجرای کد، کل فرآیند در یک فراخوانی API اتفاق میافتد:
- شما یک سوال میفرستید: «جذر آخرین قیمت سهام GOOG چقدر است؟»
- جمینی تصمیم میگیرد که به ابزارهایی نیاز دارد و آنها را روی سرورهای گوگل اجرا میکند (مثلاً قیمت سهام را جستجو میکند، سپس کد پایتون را برای محاسبه جذر اجرا میکند).
- جمینی پاسخ نهایی را که مبتنی بر نتایج ابزار است، ارسال میکند.
جریان ابزار سفارشی (فراخوانی تابع)
برای ابزارهای سفارشی و استفاده از کامپیوتر، برنامه شما اجرای موارد زیر را مدیریت میکند:
- شما یک اعلان به همراه اعلان توابع (ابزارها) ارسال میکنید.
- Gemini ممکن است یک JSON ساختاریافته را برای فراخوانی یک تابع خاص ارسال کند (برای مثال،
{"name": "get_order_status", "args": {"order_id": "123"}}). - شما تابع را در برنامه یا محیط خود اجرا میکنید.
- شما نتایج تابع را به Gemini ارسال میکنید.
- جمینی از نتایج برای تولید پاسخ نهایی یا فراخوانی ابزار دیگری استفاده میکند.
برای اطلاعات بیشتر به راهنمای فراخوانی تابع مراجعه کنید.
خروجیهای ساختاریافته در مقابل فراخوانی تابع
Gemini دو روش برای تولید خروجیهای ساختاریافته ارائه میدهد. از فراخوانی تابع زمانی استفاده کنید که مدل نیاز به انجام یک مرحله میانی با اتصال به ابزارها یا سیستمهای داده خودتان دارد. از خروجیهای ساختاریافته زمانی استفاده کنید که به شدت نیاز دارید پاسخ نهایی مدل از یک طرحواره خاص پیروی کند، مانند رندر یک رابط کاربری سفارشی.
خروجیهای ساختاریافته با ابزارها
شما میتوانید خروجیهای ساختاریافته را با ابزارهای داخلی ترکیب کنید تا اطمینان حاصل شود که پاسخهای مدل مبتنی بر دادهها یا محاسبات خارجی همچنان از یک طرحواره دقیق پیروی میکنند.
برای مثالهای کد، به خروجیهای ساختاریافته با ابزارها مراجعه کنید.
عوامل ساختمانی
عاملها سیستمهایی هستند که از مدلها و ابزارها برای انجام وظایف چند مرحلهای استفاده میکنند. در حالی که Gemini قابلیتهای استدلال ("مغز") و ابزارهای ضروری ("دستها") را فراهم میکند، شما اغلب به یک چارچوب ارکستراسیون برای مدیریت حافظه عامل، حلقههای برنامهریزی و انجام زنجیرهسازی پیچیده ابزار نیاز دارید.
برای به حداکثر رساندن قابلیت اطمینان در گردشهای کاری چند مرحلهای، باید دستورالعملهایی تهیه کنید که صریحاً نحوه استدلال و برنامهریزی مدل را کنترل کنند. در حالی که Gemini استدلال عمومی قوی ارائه میدهد، عاملهای پیچیده از دستورالعملهایی که رفتارهای خاصی مانند پشتکار در مواجهه با مسائل، ارزیابی ریسک و برنامهریزی پیشگیرانه را تقویت میکنند، بهره میبرند.
برای استراتژیهای طراحی این دستورالعملها، به گردشهای کاری Agentic مراجعه کنید. در اینجا مثالی از یک دستورالعمل سیستمی آورده شده است که عملکرد را در چندین معیار Agentic حدود ۵٪ بهبود بخشیده است.
چارچوبهای عامل
Gemini با چارچوبهای عامل متنباز پیشرو مانند موارد زیر ادغام میشود:
- LangChain / LangGraph : ساخت جریانهای کاربردی پیچیده و دارای وضعیت و سیستمهای چندعامله با استفاده از ساختارهای گراف.
- LlamaIndex : برای گردش کارهای بهبود یافته با RAG، عوامل Gemini را به دادههای خصوصی خود متصل کنید.
- CrewAI : هماهنگسازی عوامل هوش مصنوعی مستقل مشارکتی و نقشآفرین.
- کیت توسعه نرمافزاری Vercel AI : ساخت رابطهای کاربری و عاملهای مبتنی بر هوش مصنوعی در جاوااسکریپت/تایپاسکریپت.
- Google ADK : یک چارچوب متنباز برای ساخت و هماهنگسازی عاملهای هوش مصنوعی سازگار.