توسّع الأدوات والوكلاء إمكانات نماذج Gemini، ما يتيح لها اتخاذ إجراءات في العالم الحقيقي والوصول إلى المعلومات في الوقت الفعلي وتنفيذ مهام حسابية معقّدة. يمكن للنماذج استخدام الأدوات في التفاعلات العادية التي تتضمّن طلبًا وردًا، وفي جلسات البث المباشر في الوقت الفعلي باستخدام Live API.
- الأدوات هي إمكانات محدّدة (مثل "بحث Google" أو "تنفيذ التعليمات البرمجية") يمكن أن يستخدمها النموذج للإجابة عن طلبات البحث.
- الوكلاء هم أنظمة يمكنها التخطيط للمهام المتعدّدة الخطوات وتنفيذها وتلخيصها بهدف تحقيق غاية المستخدم.
توفّر Gemini API مجموعة من الأدوات والوكلاء المضمّنين والمُدارين بالكامل والمحسّنين لنماذج Gemini، أو يمكنك تحديد أدوات مخصّصة باستخدام استدعاء الدوال البرمجية.
الأدوات المدمجة المتاحة
| الأداة | الوصف | حالات الاستخدام |
|---|---|---|
| بحث Google | تحديد مصادر الردود من الأحداث الجارية والحقائق من الويب للحدّ من الهلوسة | - الإجابة عن أسئلة حول أحداث وقعت مؤخرًا - التحقّق من الحقائق باستخدام مصادر متنوّعة |
| خرائط Google | يمكنك إنشاء مساعدين يدركون الموقع الجغرافي ويمكنهم العثور على أماكن والحصول على الاتجاهات وتقديم سياق محلي غني. | - تخطيط برامج رحلات تتضمّن محطات توقّف متعددة - العثور على أنشطة تجارية محلية استنادًا إلى معايير المستخدم |
| تنفيذ الرمز | السماح للنموذج بكتابة رموز Python وتشغيلها لحلّ المسائل الرياضية أو معالجة البيانات بدقة | - حلّ المعادلات الرياضية المعقّدة - معالجة بيانات النصوص وتحليلها بدقة |
| سياق عنوان URL | توجيه النموذج لقراءة المحتوى وتحليله من صفحات ويب أو مستندات معيّنة | - الإجابة عن الأسئلة استنادًا إلى عناوين URL أو مستندات معيّنة - استرجاع المعلومات من صفحات ويب مختلفة |
| استخدام الكمبيوتر (معاينة) | السماح لـ Gemini بعرض شاشة وإنشاء إجراءات للتفاعل مع واجهات مستخدم متصفّح الويب (التنفيذ من جهة العميل) | - التشغيل الآلي لعمليات سير العمل المتكرّرة المستندة إلى الويب - اختبار واجهات مستخدم تطبيقات الويب |
| البحث عن الملفات | فهرسة مستنداتك والبحث فيها لتفعيل ميزة "التوليد المعزّز بالاسترجاع" (RAG) | - البحث في الأدلة الفنية - الإجابة عن الأسئلة حول البيانات الخاصة |
يمكنك الاطّلاع على صفحة الأسعار لمعرفة تفاصيل حول التكاليف المرتبطة بأدوات معيّنة.
الوكلاء المتاحون
| الوكيل | الوصف | حالات الاستخدام |
|---|---|---|
| Deep Research | يخطّط وينفّذ ويجمع مهام البحث المتعدّدة الخطوات بشكل مستقل. | - تحليل السوق - التدقيق اللازم - مراجعات الأدبيات |
طريقة تنفيذ الأدوات
تسمح الأدوات للنموذج بطلب تنفيذ إجراءات أثناء المحادثة. يختلف مسار العمل حسب ما إذا كانت الأداة مضمّنة (تديرها Google) أو مخصّصة (تديرها أنت).
مسار الأداة المضمَّنة
بالنسبة إلى الأدوات المضمّنة، مثل "بحث Google" أو "تنفيذ الرمز البرمجي"، تتم العملية بأكملها من خلال طلب بيانات واحد من واجهة برمجة التطبيقات:
- أنت ترسل طلبًا: "ما هو الجذر التربيعي لأحدث سعر لسهم GOOG؟"
- يقرّر Gemini أنّه بحاجة إلى أدوات وينفّذها على خوادم Google (مثلاً، يبحث عن سعر السهم، ثم ينفّذ رمز Python البرمجي لحساب الجذر التربيعي).
- يرسل Gemini الردّ النهائي استنادًا إلى نتائج الأداة.
سير عمل الأداة المخصّصة (استدعاء الدالة)
بالنسبة إلى الأدوات المخصّصة واستخدام الكمبيوتر، يتعامل تطبيقك مع التنفيذ:
- أنت ترسل طلبًا مع إشعارات الدوال (الأدوات).
- قد يرسل Gemini استجابة بتنسيق JSON منظَّم لاستدعاء دالة معيّنة
(مثلاً،
{"name": "get_order_status", "args": {"order_id": "123"}}). - أنت تنفّذ الدالة في تطبيقك أو بيئتك.
- ترسل نتائج الدالة إلى Gemini.
- يستخدم Gemini النتائج لإنشاء رد نهائي أو استدعاء أداة أخرى.
مزيد من المعلومات في دليل "استدعاء الدوال"
المخرجات المنظَّمة مقارنةً باستدعاء الدالة
يوفّر Gemini طريقتَين لإنشاء نواتج منظَّمة. استخدِم استدعاء الدالة عندما يحتاج النموذج إلى تنفيذ خطوة وسيطة من خلال الاتصال بأدواتك أو أنظمة البيانات الخاصة بك. استخدِم النتائج المنظَّمة عندما تحتاج بشكل صارم إلى أن يلتزم الردّ النهائي للنموذج بمخطط محدّد، مثلاً لعرض واجهة مستخدم مخصّصة.
مُخرجات منظَّمة باستخدام أدوات
يمكنك دمج النتائج المنظَّمة مع الأدوات المضمّنة لضمان التزام ردود النموذج بمخطط صارم، سواء كانت تستند إلى بيانات خارجية أو عمليات حسابية.
يمكنك الاطّلاع على المخرجات المنظَّمة باستخدام الأدوات للحصول على أمثلة على الرموز البرمجية.
إنشاء الوكلاء
الوكلاء هم أنظمة تستخدم نماذج وأدوات لإكمال مهام متعدّدة الخطوات. في حين يوفّر Gemini إمكانات الاستدلال (أي "العقل") والأدوات الأساسية (أي "الأيدي")، غالبًا ما تحتاج إلى إطار عمل للتنسيق من أجل إدارة ذاكرة الوكيل، وتكرار الخطط، وتنفيذ تسلسل معقّد للأدوات.
لتحقيق أقصى قدر من الموثوقية في مهام سير العمل المتعدّدة الخطوات، عليك صياغة تعليمات تتحكّم بشكل صريح في طريقة استدلال النموذج وتخطيطه. مع أنّ Gemini يقدّم استدلالًا عامًا قويًا، تستفيد الوكلاء المعقّدة من الطلبات التي تفرض سلوكيات معيّنة، مثل الثبات في مواجهة المشاكل وتقييم المخاطر والتخطيط الاستباقي.
يمكنك الاطّلاع على سير العمل المستند إلى الذكاء الاصطناعي للحصول على استراتيجيات حول تصميم هذه الطلبات. في ما يلي مثال على تعليمات النظام التي حسّنت الأداء في العديد من مقاييس الأداء المستندة إلى الوكلاء بنسبة %5 تقريبًا.
أُطر عمل الوكلاء
يتكامل Gemini مع أُطر عمل الوكلاء الرائدة مفتوحة المصدر، مثل:
- LangChain / LangGraph: يمكنك إنشاء تدفقات تطبيقات معقّدة ومستندة إلى الحالة وأنظمة متعددة الوكلاء باستخدام بنى بيانية.
- LlamaIndex: يمكنك ربط وكلاء Gemini ببياناتك الخاصة للاستفادة من سير العمل المحسّن باستخدام استرجاع المعلومات وتوليد الإجابات.
- CrewAI: أداة لتنسيق وكلاء الذكاء الاصطناعي المستقلين الذين يعملون بشكل تعاوني ويؤدون أدوارًا محددة.
- Vercel AI SDK: يمكنك إنشاء واجهات مستخدم ووكلاء مستندين إلى الذكاء الاصطناعي بلغة JavaScript أو TypeScript.
- مجموعة أدوات تطوير الذكاء الاصطناعي من Google: إطار عمل مفتوح المصدر لإنشاء وتنسيق وكلاء الذكاء الاصطناعي القابلين للتشغيل التفاعلي.