توسّع الأدوات والوكلاء إمكانات نماذج Gemini، ما يتيح لها اتخاذ إجراءات في العالم الحقيقي والوصول إلى المعلومات في الوقت الفعلي وتنفيذ مهام حسابية معقّدة. يمكن للنماذج استخدام الأدوات في التفاعلات العادية بين الطلب والاستجابة وفي جلسات البث المباشر في الوقت الفعلي باستخدام Live API.
- الأدوات هي إمكانات محدّدة (مثل "بحث Google" أو "تنفيذ التعليمات البرمجية") يمكن أن يستخدمها النموذج للإجابة عن طلبات البحث.
- الوكلاء هم أنظمة يمكنها التخطيط للمهام المتعدّدة الخطوات وتنفيذها وتلخيصها بهدف تحقيق غاية المستخدم.
توفر Gemini API مجموعة من الأدوات والوكلاء المضمّنين والمُدارين بالكامل والمحسّنين لنماذج Gemini. يمكنك أيضًا تحديد أدوات مخصّصة باستخدام استدعاء الدوال.
الأدوات المدمجة المتاحة
| الأداة | الوصف | حالات الاستخدام |
|---|---|---|
| بحث Google | تحديد مصادر الردود من الأحداث الجارية والحقائق من الويب للحدّ من الهلوسة | - الإجابة عن أسئلة حول أحداث وقعت مؤخرًا - التحقّق من الحقائق باستخدام مصادر متنوّعة |
| خرائط Google | يمكنك إنشاء مساعدين يدركون الموقع الجغرافي ويمكنهم العثور على أماكن والحصول على الاتجاهات وتقديم سياق محلي غني. | - تخطيط برامج رحلات تتضمّن محطات توقّف متعددة - العثور على أنشطة تجارية محلية استنادًا إلى معايير المستخدم |
| تنفيذ الرمز | السماح للنموذج بكتابة رموز Python وتشغيلها لحلّ المسائل الحسابية أو معالجة البيانات بدقة | - حلّ المعادلات الرياضية المعقّدة - معالجة بيانات النصوص وتحليلها بدقة |
| سياق عنوان URL | توجيه النموذج لقراءة المحتوى وتحليله من صفحات ويب أو مستندات معيّنة | - الإجابة عن الأسئلة استنادًا إلى عناوين URL أو مستندات معيّنة - استرجاع المعلومات من صفحات ويب مختلفة |
| استخدام الكمبيوتر (معاينة) | السماح لـ Gemini بعرض الشاشة وإنشاء إجراءات للتفاعل مع واجهات مستخدم متصفّح الويب (التنفيذ من جهة العميل) | - التشغيل الآلي لعمليات سير العمل المتكرّرة المستندة إلى الويب - اختبار واجهات المستخدم لتطبيقات الويب |
| البحث عن الملفات | فهرسة مستنداتك والبحث فيها لتفعيل التوليد المعزّز بالاسترجاع (RAG) | - البحث في الأدلة الفنية - الإجابة عن الأسئلة حول البيانات الخاصة |
يمكنك الاطّلاع على صفحة الأسعار للحصول على تفاصيل حول التكاليف المرتبطة بأدوات معيّنة.
الوكلاء المتاحون
| الوكيل | الوصف | حالات الاستخدام |
|---|---|---|
| Deep Research | يخطّط وينفّذ ويجمع مهام البحث المتعددة الخطوات بشكل مستقل. | - تحليل السوق - العناية الواجبة - مراجعات الأدبيات |
طريقة تنفيذ الأدوات
تسمح الأدوات للنموذج بطلب تنفيذ إجراءات أثناء المحادثة. يختلف مسار العمل حسب ما إذا كانت الأداة مضمّنة (تديرها Google) أو مخصّصة (تديرها أنت).
مسار الأداة المضمَّنة
بالنسبة إلى الأدوات المضمّنة (مثل "بحث Google" و"خرائط Google" و"سياق عنوان URL" و"البحث عن الملفات" و"تنفيذ الرمز البرمجي")، تتم العملية بأكملها من خلال طلب بيانات واحد من واجهة برمجة التطبيقات:
- أنت ترسل طلبًا: "ما هو الجذر التربيعي لأحدث سعر لسهم GOOG؟"
- يقرّر Gemini أنّه بحاجة إلى أدوات وينفّذها على خوادم Google (مثلاً، يبحث عن سعر السهم، ثم ينفّذ رمز Python لحساب الجذر التربيعي).
- يرسل Gemini الردّ النهائي استنادًا إلى نتائج الأداة.
سير عمل الأداة المخصّصة (استدعاء الدالة)
بالنسبة إلى الأدوات المخصّصة واستخدام الكمبيوتر، يتعامل تطبيقك مع التنفيذ:
- أنت ترسل طلبًا مع إشعارات الدوال (الأدوات).
- قد يرسل Gemini بيانات JSON منظَّمة للرجوع إلى دالة معيّنة
(مثلاً،
{"name": "get_order_status", "args": {"order_id": "123"}})، معidفريد في كل مرة. - أنت تنفّذ الدالة في تطبيقك أو بيئتك.
- ترسل نتائج الدالة إلى Gemini مع
idنفسه الذي تم استخدامه في استدعاء الدالة. - يستخدم Gemini النتائج لإنشاء رد نهائي أو استدعاء أداة أخرى.
يمكنك الاطّلاع على مزيد من المعلومات في دليل استدعاء الدوال.
الجمع بين مسار الأدوات المضمّنة والمخصّصة
بالنسبة إلى الطلبات التي تجمع بين الأدوات المضمّنة والأدوات المخصّصة (عمليات استدعاء الدوال)، يستخدم النموذج تداول سياق الأداة لتنسيق التنفيذ في بيئات مختلفة:
- أنت ترسل طلبًا وتحدّد الأدوات المضمّنة والوظائف المخصّصة التي تريد تفعيلها، مع ضبط علامة لتفعيل إمكانية الدمج.
- ينفّذ Gemini أدوات مضمّنة ويستجيب لطلب المستخدم إذا تم إنشاء أي طلبات استدعاء لوظائف من جهة العميل (يعتمد ترتيب التنفيذ على الطلب وما يقرّره النموذج). يرسل هذا الإجراء ردًا يتضمّن ما يلي:
- تأكيد استدعاء الأداة
- نتائج استجابة الأداة (قد تظهر بعد JSON إذا أنشأ النموذج استدعاءَين متوازيين للدالة)
- بنية JSON لاستدعاء الدالة
- تشفير توقيعات الأفكار للحفاظ على السياق
- أنت تنفّذ الدالة في تطبيقك أو بيئتك.
- أنت تعيد جميع أجزاء ردّ Gemini، بالإضافة إلى نتائج استدعاء الدالة.
- ينشئ Gemini الرد النهائي باستخدام كل السياق المدمج.
اطّلِع على دليل دمج الأدوات لمعرفة كيفية تفعيل إمكانية دمج الأدوات المضمّنة والمخصّصة، وللاطّلاع على أمثلة على تداول السياق.
المُخرجات المنظَّمة مقابل استدعاء الدالة
يوفّر Gemini طريقتَين لإنشاء نواتج منظَّمة. استخدِم استدعاء الدالة عندما يحتاج النموذج إلى تنفيذ خطوة وسيطة من خلال الاتصال بأدواتك أو أنظمة البيانات الخاصة بك. استخدِم النتائج المنظَّمة عندما تحتاج بشكل صارم إلى أن يلتزم الردّ النهائي للنموذج بمخطط محدّد، مثلاً لعرض واجهة مستخدم مخصّصة.
مُخرجات منظَّمة باستخدام أدوات
يمكنك دمج النتائج المنظَّمة مع الأدوات المضمّنة لضمان التزام ردود النموذج بمخطط صارم، سواء كانت تستند إلى بيانات خارجية أو عمليات حسابية.
يمكنك الاطّلاع على النتائج المنظَّمة باستخدام الأدوات للاطّلاع على أمثلة على الرموز.
إنشاء الوكلاء
الوكلاء هم أنظمة تستخدم نماذج وأدوات لإكمال مهام متعدّدة الخطوات. في حين يوفّر Gemini إمكانات الاستدلال (أي "العقل") والأدوات الأساسية (أي "الأيدي")، غالبًا ما تحتاج إلى إطار عمل للتنسيق من أجل إدارة ذاكرة الوكيل، وتخطيط الحلقات، وتنفيذ تسلسل معقّد للأدوات.
لتحقيق أقصى قدر من الموثوقية في مهام سير العمل المتعدّدة الخطوات، عليك صياغة تعليمات تتحكّم بشكل صريح في طريقة تحليل النموذج وتخطيطه. مع أنّ Gemini يقدّم تحليلاً عامًا قويًا، تستفيد الوكلاء المعقّدة من الطلبات التي تفرض سلوكيات معيّنة، مثل الثبات في مواجهة المشاكل وتقييم المخاطر والتخطيط الاستباقي.
يمكنك الاطّلاع على سير العمل المستند إلى الوكلاء للحصول على استراتيجيات حول تصميم هذه الطلبات. في ما يلي مثال على تعليمات النظام التي حسّنت الأداء في العديد من مقاييس الأداء المستندة إلى الوكلاء بنسبة %5 تقريبًا.
أُطر عمل الوكلاء
يتكامل Gemini مع أُطر عمل الوكلاء الرائدة المفتوحة المصدر، مثل:
- LangChain / LangGraph: يمكنك إنشاء تدفقات تطبيقات معقّدة ومستندة إلى الحالة وأنظمة متعددة الوكلاء باستخدام بنى بيانية.
- LlamaIndex: يمكنك ربط وكلاء Gemini ببياناتك الخاصة للاستفادة من سير العمل المحسّن باستخدام استرجاع المعلومات المستند إلى البحث.
- CrewAI: يمكنك تنسيق وكلاء الذكاء الاصطناعي المستقلين الذين يعملون بشكل تعاوني ويؤدون أدوارًا.
- Vercel AI SDK: يمكنك إنشاء واجهات مستخدم ووكلاء مستندين إلى الذكاء الاصطناعي بلغة JavaScript أو TypeScript.
- Google ADK: إطار عمل مفتوح المصدر لإنشاء وكلاء الذكاء الاصطناعي القابلين للتشغيل التفاعلي وتنظيمهم.