استفاده از ابزارها با Gemini API

ابزارها قابلیت‌های مدل‌های Gemini را گسترش می‌دهند و آنها را قادر می‌سازند تا در جهان اقدام کنند، به اطلاعات بلادرنگ دسترسی داشته باشند و وظایف محاسباتی پیچیده را انجام دهند. مدل‌ها می‌توانند از ابزارها هم در تعاملات استاندارد درخواست-پاسخ و هم در جلسات پخش بلادرنگ از طریق Live API استفاده کنند.

رابط برنامه‌نویسی نرم‌افزار Gemini مجموعه‌ای از ابزارهای کاملاً مدیریت‌شده و داخلی را که برای مدل‌های Gemini بهینه‌سازی شده‌اند، ارائه می‌دهد یا می‌توانید با استفاده از فراخوانی تابع (Function Calling)، ابزارهای سفارشی تعریف کنید.

ابزارهای داخلی موجود

ابزار توضیحات موارد استفاده
جستجوی گوگل پاسخ‌های زمینه‌ای به رویدادهای جاری و حقایق موجود در وب برای کاهش توهمات. - پاسخ به سوالات مربوط به وقایع اخیر
- تأیید حقایق با منابع متنوع
نقشه‌های گوگل دستیارانی بسازید که از موقعیت مکانی آگاه باشند و بتوانند مکان‌ها را پیدا کنند، مسیرها را دریافت کنند و اطلاعات غنی محلی ارائه دهند. - برنامه‌ریزی سفرهایی با توقف‌های متعدد
- یافتن مشاغل محلی بر اساس معیارهای کاربر
اجرای کد به مدل اجازه دهید کد پایتون را بنویسد و اجرا کند تا مسائل ریاضی را حل کند یا داده‌ها را به طور دقیق پردازش کند. - حل معادلات پیچیده ریاضی
- پردازش و تحلیل دقیق داده‌های متنی
متن URL مدل را برای خواندن و تجزیه و تحلیل محتوا از صفحات وب یا اسناد خاص هدایت کنید. - پاسخ به سوالات بر اساس URLها یا اسناد خاص
- بازیابی اطلاعات از صفحات وب مختلف
استفاده از کامپیوتر (پیش‌نمایش) Gemini را فعال کنید تا صفحه نمایش را مشاهده کند و اقداماتی را برای تعامل با رابط‌های کاربری مرورگر وب ایجاد کند (اجرای سمت کلاینت). - خودکارسازی گردش‌های کاری تکراری مبتنی بر وب
- تست رابط کاربری برنامه‌های تحت وب
جستجوی فایل اسناد خود را فهرست‌بندی و جستجو کنید تا بازیابی افزوده نسل (RAG) فعال شود. - جستجوی دفترچه‌های راهنمای فنی
- پاسخگویی به سوالات از طریق داده‌های اختصاصی

برای جزئیات مربوط به هزینه‌های مربوط به ابزارهای خاص، به صفحه قیمت‌گذاری مراجعه کنید.

نحوه اجرای ابزارها

ابزارها به مدل اجازه می‌دهند تا در طول مکالمه درخواست‌هایی را انجام دهد. جریان کار بسته به اینکه ابزار داخلی (مدیریت‌شده توسط گوگل) یا سفارشی (مدیریت‌شده توسط شما) باشد، متفاوت است.

جریان ابزار داخلی

برای ابزارهای داخلی مانند جستجوی گوگل یا اجرای کد، کل فرآیند در یک فراخوانی API اتفاق می‌افتد:

  1. شما یک سوال می‌فرستید: «جذر آخرین قیمت سهام GOOG چقدر است؟»
  2. جمینی تصمیم می‌گیرد که به ابزارهایی نیاز دارد و آنها را روی سرورهای گوگل اجرا می‌کند (مثلاً قیمت سهام را جستجو می‌کند، سپس کد پایتون را برای محاسبه جذر اجرا می‌کند).
  3. جمینی پاسخ نهایی را که مبتنی بر نتایج ابزار است، ارسال می‌کند.

جریان ابزار سفارشی (فراخوانی تابع)

برای ابزارهای سفارشی و استفاده از کامپیوتر، برنامه شما اجرای موارد زیر را مدیریت می‌کند:

  1. شما یک اعلان به همراه اعلان توابع (ابزارها) ارسال می‌کنید.
  2. Gemini ممکن است یک JSON ساختاریافته را برای فراخوانی یک تابع خاص ارسال کند (برای مثال، {"name": "get_order_status", "args": {"order_id": "123"}} ).
  3. شما تابع را در برنامه یا محیط خود اجرا می‌کنید.
  4. شما نتایج تابع را به Gemini ارسال می‌کنید.
  5. جمینی از نتایج برای تولید پاسخ نهایی یا فراخوانی ابزار دیگری استفاده می‌کند.

برای اطلاعات بیشتر به راهنمای فراخوانی تابع مراجعه کنید.

خروجی‌های ساختاریافته در مقابل فراخوانی تابع

Gemini دو روش برای تولید خروجی‌های ساختاریافته ارائه می‌دهد. از فراخوانی تابع زمانی استفاده کنید که مدل نیاز به انجام یک مرحله میانی با اتصال به ابزارها یا سیستم‌های داده خودتان دارد. از خروجی‌های ساختاریافته زمانی استفاده کنید که به شدت نیاز دارید پاسخ نهایی مدل از یک طرحواره خاص پیروی کند، مانند رندر یک رابط کاربری سفارشی.

عوامل ساختمانی

عامل‌ها سیستم‌هایی هستند که از مدل‌ها و ابزارها برای انجام وظایف چند مرحله‌ای استفاده می‌کنند. در حالی که Gemini قابلیت‌های استدلال ("مغز") و ابزارهای ضروری ("دست‌ها") را فراهم می‌کند، شما اغلب به یک چارچوب ارکستراسیون برای مدیریت حافظه عامل، حلقه‌های برنامه‌ریزی و انجام زنجیره‌سازی پیچیده ابزار نیاز دارید.

Gemini با چارچوب‌های عامل متن‌باز پیشرو ادغام می‌شود:

  • LangChain / LangGraph : ساخت جریان‌های کاربردی پیچیده و دارای وضعیت و سیستم‌های چندعامله با استفاده از ساختارهای گراف.
  • LlamaIndex : برای گردش کارهای بهبود یافته با RAG، عوامل Gemini را به داده‌های خصوصی خود متصل کنید.
  • CrewAI : هماهنگ‌سازی عوامل هوش مصنوعی مستقل مشارکتی و نقش‌آفرین.
  • کیت توسعه نرم‌افزاری Vercel AI : ساخت رابط‌های کاربری و عامل‌های مبتنی بر هوش مصنوعی در جاوااسکریپت/تایپ‌اسکریپت.
  • Google ADK : یک چارچوب متن‌باز برای ساخت و هماهنگ‌سازی عامل‌های هوش مصنوعی سازگار.