ابزارها قابلیتهای مدلهای Gemini را گسترش میدهند و آنها را قادر میسازند تا در جهان اقدام کنند، به اطلاعات بلادرنگ دسترسی داشته باشند و وظایف محاسباتی پیچیده را انجام دهند. مدلها میتوانند از ابزارها هم در تعاملات استاندارد درخواست-پاسخ و هم در جلسات پخش بلادرنگ از طریق Live API استفاده کنند.
رابط برنامهنویسی نرمافزار Gemini مجموعهای از ابزارهای کاملاً مدیریتشده و داخلی را که برای مدلهای Gemini بهینهسازی شدهاند، ارائه میدهد یا میتوانید با استفاده از فراخوانی تابع (Function Calling)، ابزارهای سفارشی تعریف کنید.
ابزارهای داخلی موجود
| ابزار | توضیحات | موارد استفاده |
|---|---|---|
| جستجوی گوگل | پاسخهای زمینهای به رویدادهای جاری و حقایق موجود در وب برای کاهش توهمات. | - پاسخ به سوالات مربوط به وقایع اخیر - تأیید حقایق با منابع متنوع |
| نقشههای گوگل | دستیارانی بسازید که از موقعیت مکانی آگاه باشند و بتوانند مکانها را پیدا کنند، مسیرها را دریافت کنند و اطلاعات غنی محلی ارائه دهند. | - برنامهریزی سفرهایی با توقفهای متعدد - یافتن مشاغل محلی بر اساس معیارهای کاربر |
| اجرای کد | به مدل اجازه دهید کد پایتون را بنویسد و اجرا کند تا مسائل ریاضی را حل کند یا دادهها را به طور دقیق پردازش کند. | - حل معادلات پیچیده ریاضی - پردازش و تحلیل دقیق دادههای متنی |
| متن URL | مدل را برای خواندن و تجزیه و تحلیل محتوا از صفحات وب یا اسناد خاص هدایت کنید. | - پاسخ به سوالات بر اساس URLها یا اسناد خاص - بازیابی اطلاعات از صفحات وب مختلف |
| استفاده از کامپیوتر (پیشنمایش) | Gemini را فعال کنید تا صفحه نمایش را مشاهده کند و اقداماتی را برای تعامل با رابطهای کاربری مرورگر وب ایجاد کند (اجرای سمت کلاینت). | - خودکارسازی گردشهای کاری تکراری مبتنی بر وب - تست رابط کاربری برنامههای تحت وب |
| جستجوی فایل | اسناد خود را فهرستبندی و جستجو کنید تا بازیابی افزوده نسل (RAG) فعال شود. | - جستجوی دفترچههای راهنمای فنی - پاسخگویی به سوالات از طریق دادههای اختصاصی |
برای جزئیات مربوط به هزینههای مربوط به ابزارهای خاص، به صفحه قیمتگذاری مراجعه کنید.
نحوه اجرای ابزارها
ابزارها به مدل اجازه میدهند تا در طول مکالمه درخواستهایی را انجام دهد. جریان کار بسته به اینکه ابزار داخلی (مدیریتشده توسط گوگل) یا سفارشی (مدیریتشده توسط شما) باشد، متفاوت است.
جریان ابزار داخلی
برای ابزارهای داخلی مانند جستجوی گوگل یا اجرای کد، کل فرآیند در یک فراخوانی API اتفاق میافتد:
- شما یک سوال میفرستید: «جذر آخرین قیمت سهام GOOG چقدر است؟»
- جمینی تصمیم میگیرد که به ابزارهایی نیاز دارد و آنها را روی سرورهای گوگل اجرا میکند (مثلاً قیمت سهام را جستجو میکند، سپس کد پایتون را برای محاسبه جذر اجرا میکند).
- جمینی پاسخ نهایی را که مبتنی بر نتایج ابزار است، ارسال میکند.
جریان ابزار سفارشی (فراخوانی تابع)
برای ابزارهای سفارشی و استفاده از کامپیوتر، برنامه شما اجرای موارد زیر را مدیریت میکند:
- شما یک اعلان به همراه اعلان توابع (ابزارها) ارسال میکنید.
- Gemini ممکن است یک JSON ساختاریافته را برای فراخوانی یک تابع خاص ارسال کند (برای مثال،
{"name": "get_order_status", "args": {"order_id": "123"}}). - شما تابع را در برنامه یا محیط خود اجرا میکنید.
- شما نتایج تابع را به Gemini ارسال میکنید.
- جمینی از نتایج برای تولید پاسخ نهایی یا فراخوانی ابزار دیگری استفاده میکند.
برای اطلاعات بیشتر به راهنمای فراخوانی تابع مراجعه کنید.
خروجیهای ساختاریافته در مقابل فراخوانی تابع
Gemini دو روش برای تولید خروجیهای ساختاریافته ارائه میدهد. از فراخوانی تابع زمانی استفاده کنید که مدل نیاز به انجام یک مرحله میانی با اتصال به ابزارها یا سیستمهای داده خودتان دارد. از خروجیهای ساختاریافته زمانی استفاده کنید که به شدت نیاز دارید پاسخ نهایی مدل از یک طرحواره خاص پیروی کند، مانند رندر یک رابط کاربری سفارشی.
عوامل ساختمانی
عاملها سیستمهایی هستند که از مدلها و ابزارها برای انجام وظایف چند مرحلهای استفاده میکنند. در حالی که Gemini قابلیتهای استدلال ("مغز") و ابزارهای ضروری ("دستها") را فراهم میکند، شما اغلب به یک چارچوب ارکستراسیون برای مدیریت حافظه عامل، حلقههای برنامهریزی و انجام زنجیرهسازی پیچیده ابزار نیاز دارید.
Gemini با چارچوبهای عامل متنباز پیشرو ادغام میشود:
- LangChain / LangGraph : ساخت جریانهای کاربردی پیچیده و دارای وضعیت و سیستمهای چندعامله با استفاده از ساختارهای گراف.
- LlamaIndex : برای گردش کارهای بهبود یافته با RAG، عوامل Gemini را به دادههای خصوصی خود متصل کنید.
- CrewAI : هماهنگسازی عوامل هوش مصنوعی مستقل مشارکتی و نقشآفرین.
- کیت توسعه نرمافزاری Vercel AI : ساخت رابطهای کاربری و عاملهای مبتنی بر هوش مصنوعی در جاوااسکریپت/تایپاسکریپت.
- Google ADK : یک چارچوب متنباز برای ساخت و هماهنگسازی عاملهای هوش مصنوعی سازگار.