استخدام الأدوات مع Gemini API

توسّع الأدوات إمكانات نماذج Gemini، ما يتيح لها اتّخاذ إجراءات في العالم الحقيقي والوصول إلى المعلومات في الوقت الفعلي وتنفيذ مهام حسابية معقّدة. يمكن للنماذج استخدام الأدوات في كلّ من التفاعلات العادية بين الطلب والاستجابة وجلسات البث في الوقت الفعلي من خلال Live API.

توفّر Gemini API مجموعة من الأدوات المضمّنة والمُدارة بالكامل والمحسَّنة لنماذج Gemini، أو يمكنك تحديد أدوات مخصّصة باستخدام استدعاء الدوال البرمجية.

الأدوات المدمجة المتاحة

الأداة الوصف حالات الاستخدام
بحث Google تحديد مصادر الردود من الأحداث الجارية والحقائق من الويب للحدّ من الهلوسة - الإجابة عن أسئلة حول أحداث وقعت مؤخرًا
- التحقّق من الحقائق باستخدام مصادر متنوّعة
خرائط Google يمكنك إنشاء مساعدين يدركون الموقع الجغرافي ويمكنهم العثور على أماكن والحصول على اتجاهات وتقديم سياق محلي غني. - تخطيط برامج رحلات تتضمّن محطات توقّف متعددة
- العثور على أنشطة تجارية محلية استنادًا إلى معايير المستخدم
تنفيذ الرمز السماح للنموذج بكتابة رموز Python وتشغيلها لحلّ المسائل الرياضية أو معالجة البيانات بدقة - حلّ المعادلات الرياضية المعقّدة
- معالجة بيانات النصوص وتحليلها بدقة
سياق عنوان URL توجيه النموذج لقراءة المحتوى وتحليله من صفحات ويب أو مستندات معيّنة - الإجابة عن الأسئلة استنادًا إلى عناوين URL أو مستندات معيّنة
- استرجاع المعلومات من صفحات ويب مختلفة
استخدام الكمبيوتر (معاينة) السماح لـ Gemini بعرض الشاشة وإنشاء إجراءات للتفاعل مع واجهات مستخدم متصفّح الويب (التنفيذ من جهة العميل) - التشغيل الآلي لعمليات سير العمل المتكرّرة المستندة إلى الويب
- اختبار واجهات مستخدم تطبيقات الويب
البحث عن الملفات فهرسة مستنداتك والبحث فيها لتفعيل ميزة "التوليد المعزّز بالاسترجاع" (RAG) - البحث في الأدلة الفنية
- الإجابة عن الأسئلة حول البيانات الخاصة

يمكنك الاطّلاع على صفحة الأسعار لمعرفة تفاصيل حول التكاليف المرتبطة بأدوات معيّنة.

طريقة تنفيذ الأدوات

تسمح الأدوات للنموذج بطلب تنفيذ إجراءات أثناء المحادثة. يختلف المسار حسب ما إذا كانت الأداة مضمّنة (تُديرها Google) أو مخصّصة (تُديرها أنت).

مسار الأداة المضمَّنة

بالنسبة إلى الأدوات المضمّنة، مثل "بحث Google" أو "تنفيذ الرمز البرمجي"، تتم العملية بأكملها من خلال طلب واحد من واجهة برمجة التطبيقات:

  1. أنت ترسل طلبًا: "ما هو الجذر التربيعي لأحدث سعر لسهم GOOG؟"
  2. يقرّر Gemini أنّه بحاجة إلى أدوات وينفّذها على خوادم Google (مثل البحث عن سعر السهم، ثم تشغيل رمز Python البرمجي لحساب الجذر التربيعي).
  3. يرسل Gemini الردّ النهائي استنادًا إلى نتائج الأداة.

سير عمل الأداة المخصّصة (استدعاء الدالة)

بالنسبة إلى الأدوات المخصّصة واستخدام الكمبيوتر، يتعامل تطبيقك مع التنفيذ:

  1. أنت ترسل طلبًا مع إشعارات الدوال (الأدوات).
  2. قد يرسل Gemini رمز JSON منظَّمًا لاستدعاء دالة معيّنة (مثل {"name": "get_order_status", "args": {"order_id": "123"}}).
  3. أنت تنفّذ الدالة في تطبيقك أو بيئتك.
  4. ترسل نتائج الدالة إلى Gemini.
  5. يستخدم Gemini النتائج لإنشاء رد نهائي أو استدعاء أداة أخرى.

مزيد من المعلومات في دليل "استدعاء الدوال"

المخرجات المنظَّمة مقارنةً باستدعاء الدالة

يقدّم Gemini طريقتَين لإنشاء نواتج منظَّمة. استخدِم استدعاء الدوال عندما يحتاج النموذج إلى تنفيذ خطوة وسيطة من خلال الربط بأدواتك أو أنظمة البيانات الخاصة بك. استخدِم النتائج المنظَّمة عندما تحتاج بشكل صارم إلى أن يلتزم الرد النهائي للنموذج بمخطط معيّن، مثل عرض واجهة مستخدم مخصّصة.

إنشاء الوكلاء

الوكلاء هم أنظمة تستخدم نماذج وأدوات لإكمال مهام متعدّدة الخطوات. في حين يوفّر Gemini إمكانات الاستدلال (أي "العقل") والأدوات الأساسية (أي "الأيدي")، غالبًا ما تحتاج إلى إطار عمل للتنسيق من أجل إدارة ذاكرة الوكيل، وتخطيط الحلقات، وتنفيذ تسلسل معقّد للأدوات.

يتكامل Gemini مع أُطر عمل الوكلاء الرائدة والمفتوحة المصدر:

  • LangChain / LangGraph: يمكنك إنشاء تدفقات تطبيقات معقّدة ومستندة إلى الحالة وأنظمة متعددة الوكلاء باستخدام بنى بيانية.
  • LlamaIndex: يمكنك ربط وكلاء Gemini ببياناتك الخاصة للاستفادة من سير العمل المحسّن باستخدام استرجاع المعلومات وتوليد الإجابات (RAG).
  • CrewAI: يمكنك تنسيق وكلاء الذكاء الاصطناعي المستقلين الذين يعملون بشكل تعاوني ويؤدون أدوارًا محددة.
  • Vercel AI SDK: يمكنك إنشاء واجهات مستخدم ووكلاء مستندين إلى الذكاء الاصطناعي بلغة JavaScript أو TypeScript.
  • ‫Google ADK: إطار عمل مفتوح المصدر لإنشاء وكلاء الذكاء الاصطناعي القابلين للتشغيل التفاعلي وتنسيقهم.