يتوفّر الإصدار التجريبي من Gemini 2.0 Flash الآن من خلال واجهة برمجة التطبيقات Gemini Developer API وGoogle AI Studio. يقدّم النموذج ميزات جديدة وإمكانات أساسية محسّنة:
- Multimodal Live API: تساعدك واجهة برمجة التطبيقات الجديدة هذه في إنشاء تطبيقات بث المحتوى المرئي والصوتي في الوقت الفعلي باستخدام الأدوات.
- السرعة والأداء: يُظهر نموذج Gemini 2.0 تحسُّنًا كبيرًا في وقت المعالجة مقارنةً بنموذج 1.5 Flash.
- الجودة: يحقّق النموذج أداءً أفضل في معظم معايير الأداء مقارنةً بـ Gemini 1.5 Pro.
- إمكانات محسّنة للتفاعل مع المستخدمين: يقدّم Gemini 2.0 تحسينات على فهم المحتوى المتعدّد الوسائط والترميز واتّباع التعليمات المعقدة وطلب تنفيذ وظائف.
- وضعيات جديدة: يقدّم الإصدار 2.0 من Gemini ميزتَي إنشاء الصور المضمّنة وتحويل النص إلى كلام يمكن التحكّم فيه.
لتوفير تجربة أفضل للمطوّرين، سنطرح أيضًا حزمة تطوير برامج (SDK) جديدة. للاطّلاع على التفاصيل الفنية حول Gemini 2.0، يُرجى الاطّلاع على نماذج Gemini.
حزمة تطوير البرامج (SDK) لتكنولوجيات الذكاء الاصطناعي التوليدي من Google (تجريبية)
توفّر حزمة تطوير البرامج (SDK) الجديدة المستندة إلى الذكاء الاصطناعي التوليدي من Google واجهة موحّدة لخدمة Gemini 2.0 من خلال كلّ من واجهة برمجة التطبيقات Gemini Developer API وواجهة برمجة التطبيقات Gemini API على Vertex AI. مع بعض الاستثناءات، سيتم تشغيل الرمز البرمجي الذي يعمل على نظام أساسي واحد على كلا النظامَين. تتوفّر حزمة SDK الجديدة بلغتَي Python وGo، وستتوفّر قريبًا بلغتَي Java وJavaScript.
- ثبِّت حزمة SDK الجديدة:
pip install google-genai
- بعد ذلك، استورِد المكتبة وابدأ استخدام العميل وأنشئ المحتوى:
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(model='gemini-2.0-flash-exp', contents='How does AI work?')
print(response.text)
يمكن لمطوّري Python أيضًا تجربة دفتر ملاحظات "البدء " في كتاب تعليمات Gemini.
Multimodal Live API
تتيح Multimodal Live API تفاعلات صوتية ومرئيات ثنائية الاتجاه وسريعة الاستجابة مع Gemini. باستخدام Multimodal Live API، يمكنك منح العميل تجربة محادثات صوتية طبيعية تشبه المحادثات بين البشر، ومنح العميل إمكانية مقاطعة ردود النموذج باستخدام الطلبات الصوتية. يمكن للنموذج معالجة الإدخالات النصية والصوتية والفيديوهات، كما يمكنه تقديم مخرجات نصية وصوتية.
يمكنك تجربة واجهة برمجة التطبيقات Multimodal Live API في Google AI Studio. للاطّلاع على مزيد من المعلومات حول ميزات واجهة برمجة التطبيقات وقيودها، يمكنك الاطّلاع على دليل مرجعي لواجهة برمجة التطبيقات Multimodal Live API.
استخدام "بحث Google" كأداة
باستخدام ميزة "الربط بسياق البحث" من "بحث Google"، يمكنك تحسين دقة ردود النموذج وحداثتها. بدءًا من الإصدار 2.0 من Gemini، يتوفّر محرّك بحث Google كأداة. وهذا يعني أنّه يمكن للنموذج تحديد الحالات التي يجب فيها استخدام "بحث Google". يوضّح المثال التالي كيفية ضبط "بحث Google" كأداة.
from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch
client = genai.Client()
model_id = "gemini-2.0-flash-exp"
google_search_tool = Tool(
google_search = GoogleSearch()
)
response = client.models.generate_content(
model=model_id,
contents="When is the next total solar eclipse in the United States?",
config=GenerateContentConfig(
tools=[google_search_tool],
response_modalities=["TEXT"],
)
)
for each in response.candidates[0].content.parts:
print(each.text)
# Example response:
# The next total solar eclipse visible in the contiguous United States will be on ...
# To get grounding metadata as web content.
print(response.candidates[0].grounding_metadata.search_entry_point.rendered_content)
تتيح وظيفة "استخدام محرّك بحث Google كأداة" أيضًا عمليات البحث المتعدّدة الخطوات وطلبات البحث المتعدّدة الأدوات (على سبيل المثال، الجمع بين "الاستناد إلى المعلومات الأساسية" و"بحث Google" وتنفيذ الرمز).
يتيح البحث كأداة طلبات معقدة ومسارات عمل تتطلّب التخطيط والتفكير:
- التأكّد من صحة المعلومات وحداثتها لتقديم إجابات أكثر دقة
- استرداد العناصر من الويب لإجراء مزيد من التحليلات
- العثور على صور أو فيديوهات أو وسائط أخرى ذات صلة للمساعدة في مهام التحليل أو الإنشاء باستخدام أسلوب multimodal
- الترميز وتحديد المشاكل الفنية وحلّها والمهام المتخصّصة الأخرى
- العثور على معلومات خاصة بالمنطقة أو المساعدة في ترجمة المحتوى بدقة
- العثور على مواقع إلكترونية ذات صلة لمواصلة التصفّح
إنّ "البحث كأداة" هي ميزة مدفوعة تتوفّر فيها فئة مجانية محدودة جدًا. يُرجى الاطّلاع على صفحة الأسعار للحصول على مزيد من المعلومات.
يمكنك البدء من خلال تجربة دفتر ملاحظات "أداة البحث".
استخدام الأدوات بشكلٍ أفضل
يقدّم Gemini 2.0 تحسينات على استدعاء الدوالّ والأدوات التي تقدّم دعمًا أفضل لتجارب موظّفي الدعم.
استدعاء الدوال التركيبية
يتيح Gemini 2.0 إمكانية جديدة لاستدعاء الدوالّ:
استدعاء الدوالّ التركيبية. تتيح ميزة "استدعاء الدوالّ التركيبية" لواجهة برمجة التطبيقات Gemini API إمكانية استدعاء عدّة دوالّ يحدّدها المستخدم تلقائيًا في أثناء عملية إنشاء ردّ. على سبيل المثال، للردّ على الطلب
"Get the temperature in my current location"
، قد تستدعي Gemini API كلًا من دالة
get_current_location()
ودالة get_weather()
التي تأخذ
الموقع الجغرافي كمَعلمة.
تتطلّب عملية استدعاء الدالة التركيبية من خلال تنفيذ الرمز بثًا ثنائي الاتجاه، ولا تتوفّر إلا من خلال واجهة برمجة التطبيقات الجديدة Multimodal Live API. في ما يلي مثال يوضّح كيفية استخدام استدعاء الدوالّ التركيبية وتنفيذ الرمز المبرمَج وواجهة برمجة التطبيقات Multimodal Live API معًا:
turn_on_the_lights_schema = {'name': 'turn_on_the_lights'}
turn_off_the_lights_schema = {'name': 'turn_off_the_lights'}
prompt = """
Hey, can you write run some python code to turn on the lights, wait 10s and then turn off the lights?
"""
tools = [
{'code_execution': {}},
{'function_declarations': [turn_on_the_lights_schema, turn_off_the_lights_schema]}
]
await run(prompt, tools=tools, modality="AUDIO")
يمكن لمطوّري Python تجربة ذلك في دفتر ملاحظات استخدام أداة واجهة برمجة التطبيقات المباشرة.
استخدام أدوات متعددة
باستخدام Gemini 2.0، يمكنك تفعيل أدوات متعددة في الوقت نفسه، وسيحدّد النموذج وقت استخدامها. في ما يلي مثال يتيح أداتَين، هما التثبيت باستخدام "بحث Google" وتنفيذ الرمز البرمجي، في طلب باستخدام Multimodal Live API.
prompt = """
Hey, I need you to do three things for me.
1. Turn on the lights.
2. Then compute the largest prime palindrome under 100000.
3. Then use Google Search to look up information about the largest earthquake in California the week of Dec 5 2024.
Thanks!
"""
tools = [
{'google_search': {}},
{'code_execution': {}},
{'function_declarations': [turn_on_the_lights_schema, turn_off_the_lights_schema]}
]
await run(prompt, tools=tools, modality="AUDIO")
يمكن لمطوّري Python تجربة ذلك في دفتر ملاحظات استخدام أداة واجهة برمجة التطبيقات المباشرة.
رصد مربّع الحدود
في هذا الإطلاق التجريبي، نوفّر للمطوّرين أداة فعّالة لرصد الأجسام وتحديد أماكنها في الصور والفيديوهات. من خلال تحديد العناصر بدقة وتحديد حدودها باستخدام المربّعات الحدودية، يمكن للمطوّرين الاستفادة من مجموعة كبيرة من التطبيقات وتحسين ذكاء مشاريعهم.
المزايا الرئيسية:
- بسيط: يمكنك دمج إمكانات رصد الأجسام في تطبيقاتك بسهولة، بغض النظر عن خبرتك في مجال الرؤية الحاسوبية.
- قابل للتخصيص: يمكنك إنشاء مربّعات حدودية استنادًا إلى تعليمات مخصّصة (مثل "أريد الاطّلاع على مربّعات حدودية لجميع الأجسام الخضراء في هذه الصورة")، بدون الحاجة إلى تدريب نموذج مخصّص.
التفاصيل الفنية:
- الإدخال: الطلب والصور أو لقطات الفيديو المرتبطة به
- الإخراج: مربّعات التطويق بتنسيق
[y_min, x_min, y_max, x_max]
الزاوية العليا اليسرى هي نقطة الأصل. يمتد محوراx
وy
أفقيًا ورأسيًا على التوالي. يتم تسويتها بين 0 و1000 لكل صورة. - العرض المرئي: سيرى مستخدمو AI Studio مربّعات حدودية مرسومة ضمن واجهة المستخدِم. على مستخدمي Vertex AI عرض مربّعات الحدود من خلال رمز برمجي مخصّص لعرض البيانات.
بالنسبة إلى مطوّري Python، جرِّب دفتر ملاحظات الفهم المكاني ثنائي الأبعاد أو دفتر ملاحظات التوجيه التجريبي في 3D.
إنشاء الكلام (استخدام المنتج قبل إطلاقه/القائمة المسموح بها)
تتيح أداة Gemini 2.0 ميزة جديدة لإنشاء المحتوى باستخدام ميزات متعددة الوسائط: تحويل النص إلى كلام.
باستخدام ميزة تحويل النص إلى كلام، يمكنك توجيه النموذج لإنشاء ملف صوتي عالي
الجودة يبدو مثل صوت بشري (say "hi everyone"
)، و
يمكنك تحسين النتيجة بشكل أكبر من خلال توجيه الصوت.
إنشاء الصور (استخدام الميزة قبل إطلاقها/القائمة المسموح بها)
يتيح الإصدار 2.0 من Gemini إمكانية عرض النص مع الصور المضمّنة. يتيح لك ذلك استخدام Gemini لتعديل الصور بشكل حواري أو إنشاء نتائج متعددة الوسائط (على سبيل المثال، مشاركة مدونة تتضمّن نصًا وصورًا في فقرة واحدة). في السابق، كان هذا الإجراء يتطلّب تجميع نماذج متعددة معًا.
تتوفّر ميزة إنشاء الصور كإصدار تجريبي خاص. وهو يتيح الوضعَين وإمكانيتَي القياس التاليتَين:
- تحويل النص إلى صورة
- مثال على طلب: "أريد إنشاء صورة لبرج إيفل مع عرض للألعاب النارية في الخلفية".
- تحويل النص إلى صور ونص (مُدرَج)
- مثال على طلب: "أريد إنشاء وصفة مُوضَّحة لطبق البايلا".
- الصور والنصوص إلى صور ونصوص (مُدرَجة)
- مثال على طلب: (مع صورة لغرفة مفروشة) "ما هي الألوان الأخرى التي تناسب أريكتي في المساحة؟ هل يمكنك تعديل الصورة؟"
- تعديل الصور (النص والصورة إلى الصورة)
- مثال على طلب: "تعديل هذه الصورة لتبدو وكأنها صورة كارتونية"
- مثال على طلب: [صورة هرّة] + [صورة وسادة] + "أريد إنشاء صورة مُطرَّزة بالتنقيط لقطتي على هذه الوسادة".
- تعديل الصور المتعدّد الخطوات (المحادثة)
- أمثلة على الطلبات: [تحميل صورة سيارة زرقاء] "أريد تحويل هذه السيارة إلى سيارة قابلة للتحويل". "الآن، غيِّر اللون إلى الأصفر".
- إضافة علامة مائية
- تتضمّن جميع الصور التي يتم إنشاؤها علامة مائية SynthID.
القيود:
- لا يُسمح بإنشاء صور لأشخاص وتعديل الصور المحمَّلة التي تتضمّن أشخاصًا.
- لتحقيق أفضل أداء، استخدِم اللغات التالية: EN وes-MX وja-JP وzh-CN و hi-IN.
- لا تتيح ميزة إنشاء الصور إدخالات صوتية أو فيديوهات.
- قد لا يؤدي إنشاء الصور دائمًا إلى:
- قد يعرض النموذج نصًا فقط. جرِّب طلب نتائج صور بشكل صريح (مثل "إنشاء صورة" أو "تقديم صور أثناء الإجراء" أو "تعديل الصورة").
- قد يتوقف النموذج عن إنشاء المحتوى في منتصف العملية. يُرجى إعادة المحاولة أو استخدام رمز مختلف للطلب.