Gemini 2.0 (إصدار تجريبي)

يتوفّر الإصدار التجريبي من Gemini 2.0 Flash الآن من خلال واجهة برمجة التطبيقات Gemini Developer API وGoogle AI Studio. يقدّم النموذج ميزات جديدة وإمكانات أساسية محسّنة:

  • Multimodal Live API: تساعدك واجهة برمجة التطبيقات الجديدة هذه في إنشاء تطبيقات بث المحتوى المرئي والصوتي في الوقت الفعلي باستخدام الأداة.
  • السرعة والأداء: يُظهر Gemini 2.0 تحسُّنًا كبيرًا في وقت المعالجة مقارنةً بـ 1.5 Flash.
  • الجودة: يحافظ النموذج على جودة مماثلة للنماذج الأكبر حجمًا، مثل Gemini 1.5 Pro.
  • إمكانات محسّنة للوكيل: يقدّم Gemini 2.0 تحسينات على فهم الوسائط المتعددة والترميز واتّباع التعليمات المعقدة وطلب الوظائف. تعمل هذه التحسينات معًا لتوفير تجارب أفضل للعملاء.
  • وضعيات جديدة: يقدّم الإصدار 2.0 من Gemini ميزتَي إنشاء الصور المضمّنة وتحويل النص إلى كلام يمكن التحكّم بهما، ما يتيح تعديل الصور، وإنشاء أعمال فنية مترجَمة، وسرد القصص بشكل تعبيري.

لتقديم هذا النموذج الجديد، سنطرح أيضًا حزمة SDK جديدة.

للاطّلاع على التفاصيل الفنية حول Gemini 2.0، يُرجى الاطّلاع على طُرز Gemini.

حزمة تطوير البرامج (SDK) لتكنولوجيات الذكاء الاصطناعي التوليدي من Google (تجريبية)

توفّر حزمة تطوير البرامج (SDK) الجديدة للذكاء الاصطناعي التوليدي من Google واجهة موحّدة لخدمة Gemini 2.0 من خلال كل من Gemini Developer API وGemini API على Vertex AI. باستثناء بعض الاستثناءات، سيتم تشغيل الرمز البرمجي الذي يعمل على نظام أساسي واحد على كلا النظامَين. وهذا يعني أنّه يمكنك إنشاء نموذج أولي لتطبيق باستخدام Developer API ثم نقل التطبيق إلى Vertex AI بدون إعادة كتابة الرمز البرمجي.

تتوافق حزمة Gen AI SDK أيضًا مع نماذج Gemini 1.5.

تتوفّر حزمة SDK الجديدة بلغتَي Python وGo، وستتوفّر قريبًا بلغتَي Java وJavaScript.

يمكنك بدء استخدام حزمة تطوير البرامج (SDK) كما هو موضّح أدناه.

  1. ثبِّت حزمة SDK الجديدة: pip install google-genai
  2. بعد ذلك، استورِد المكتبة وابدأ استخدام العميل وأنشئ المحتوى:
from google import genai

client = genai.Client(
    vertexai=False,
    api_key="YOUR_API_KEY"
)
response = client.models.generate_content(
    model='gemini-2.0-flash-experimental', contents='How does AI work?'
)
print(response.text)

(اختياري) ضبط متغيّرات البيئة

بدلاً من ذلك، يمكنك إعداد العميل باستخدام متغيّرات البيئة. أولاً، حدِّد القيم المناسبة واصدِر المتغيّرات:

# Replace `YOUR_API_KEY` with your API key.
export GOOGLE_API_KEY=YOUR_API_KEY
export GOOGLE_GENAI_USE_VERTEXAI=False

بعد ذلك، يمكنك إعداد العميل بدون أيّ وسيطات:

client = genai.Client()

يمكن لمطوّري Python أيضًا تجربة دفتر ملاحظات "البدء في كتاب الطبخ.

Multimodal Live API

تتيح Multimodal Live API تفاعلات صوتية ومرئيات ثنائية الاتجاه وسريعة الاستجابة مع Gemini. باستخدام Multimodal Live API، يمكنك منح العميل تجربة محادثات صوتية طبيعية تشبه المحادثات بين البشر، ومنح العميل إمكانية مقاطعة ردود النموذج باستخدام الطلبات الصوتية. يمكن للنموذج معالجة الإدخالات النصية والصوتية والفيديوهات، كما يمكنه تقديم مخرجات نصية وصوتية.

تتوفّر واجهة برمجة التطبيقات Multimodal Live API في واجهة برمجة التطبيقات Gemini API كطريقة BidiGenerateContent، وهي مستندة إلى WebSockets.

في ما يلي مثال بسيط على تحويل النص إلى نص لمساعدتك في بدء استخدام واجهة برمجة التطبيقات Multimodal Live API:

MODEL = "models/gemini-2.0-flash-exp"
CONFIG = {"generation_config": {"response_modalities": ["TEXT"]}}

async with client.aio.live.connect(model=MODEL, config=CONFIG) as session:
  message = "Hello? Gemini, are you there?"
  print("> ", message, "\n")
  await session.send(message, end_of_turn=True)

  # For text responses, when the model's turn is complete it breaks out of the loop.
  async for response in session.receive():
    print("- ", response.text)

الإمكانات الأساسية:

  • التفاعل المتعدّد: يمكن للنموذج الرؤية والسمع والتحدّث.
  • التفاعل في الوقت الفعلي بوقت استجابة منخفض: يوفّر هذا التفاعل ردودًا سريعة.
  • ذاكرة الجلسة: يحتفظ النموذج بذاكرة لجميع التفاعلات ضمن جلسة واحدة، ويذكّر بالمعلومات التي سمعها أو رآها سابقًا.
  • إتاحة استدعاء الدوالّ وتنفيذ الرموز البرمجية واستخدام "بحث Google" كأداة: يتيح ذلك الدمج مع الخدمات ومصادر البيانات الخارجية.
  • ميزة "اكتشاف نشاط الصوت" الآلي: يمكن للنموذج تحديدًا التعرّف على الحالات التي يبدأ فيها المستخدم الكلام ويتوقف عنه. يتيح ذلك إجراء تفاعلات طبيعية في شكل محادثات، ويمنح المستخدمين إمكانية مقاطعة النموذج في أي وقت.

اللغة:

  • بالإنجليزية فقط

القيود:

  • تؤثر كلّ من مدخلات الصوت ومخارجه سلبًا في قدرة النموذج على استخدام استدعاء الدالة.

للتعرّف على مزيد من المعلومات حول إمكانات واجهة برمجة التطبيقات والقيود المفروضة عليها، يُرجى الاطّلاع على دليل مرجعي حول Multimodal Live API.

يمكنك تجربة واجهة برمجة التطبيقات Multimodal Live API في Google AI Studio. لبدء عملية التطوير، يمكنك تجربة وحدة تحكّم الويب (المكتوبة بلغة React). بالنسبة إلى مطوّري Python، جرِّب الرمز البرمجي التمهيدي (دفتر ملاحظات، وملف ‎.py). قد يكون دفتر البيانات هو الطريقة الأسهل للبدء، ولكن تعمل واجهة برمجة التطبيقات المباشرة بأفضل شكل عند تشغيلها من وحدة التحكّم.

استخدام "بحث Google" كأداة

باستخدام ميزة "الربط بموضوع البحث" من "بحث Google"، يمكنك تحسين دقة الردّ وحداثته من النموذج. اعتبارًا من الإصدار 2.0 من Gemini، يتوفّر محرّك بحث Google كأداة. وهذا يعني أنّه يمكن للنموذج تحديد الحالات التي يجب فيها استخدام "بحث Google". يوضّح المثال التالي كيفية ضبط "بحث Google" كأداة.

from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch

client = genai.Client()
model_id = "gemini-2.0-flash-exp"

google_search_tool = Tool(
    google_search = GoogleSearch()
)

response = client.models.generate_content(
    model=model_id,
    contents="When is the next total solar eclipse in the United States?",
    config=GenerateContentConfig(
        tools=[google_search_tool],
        response_modalities=["TEXT"],
    )
)

for each in response.candidates[0].content.parts:
    print(each.text)
# Example response:
# The next total solar eclipse visible in the contiguous United States will be on ...

# To get grounding metadata as web content.
print(response.candidates[0].grounding_metadata.search_entry_point.rendered_content)

تتيح وظيفة "استخدام محرّك بحث Google كأداة" أيضًا عمليات البحث المتعدّدة الخطوات وطلبات البحث المتعدّدة الأدوات (على سبيل المثال، الجمع بين "الاستناد إلى المعلومات الأساسية" و"بحث Google" وتنفيذ الرمز).

يتيح البحث كأداة طلبات معقدة ومسارات عمل تتطلّب التخطيط والتفكير:

  • التأكّد من صحة المعلومات وحداثتها لتقديم إجابات أكثر دقة
  • استرداد العناصر من الويب لإجراء مزيد من التحليل
  • العثور على صور أو فيديوهات أو وسائط أخرى ذات صلة للمساعدة في مهام التحليل أو الإنشاء باستخدام أسلوب multimodal
  • الترميز وتحديد المشاكل الفنية وحلّها والمهام المتخصّصة الأخرى
  • العثور على معلومات خاصة بالمنطقة أو المساعدة في ترجمة المحتوى بدقة
  • العثور على مواقع إلكترونية ذات صلة لمواصلة التصفّح

يمكنك البدء من خلال تجربة دفتر ملاحظات "أداة البحث".

أدوات محسّنة

يقدّم Gemini 2.0 تحسينات على استدعاء الدوالّ والأدوات التي تقدّم دعمًا أفضل لتجارب موظّفي الدعم.

استدعاء الدوال التركيبية

يتيح Gemini 2.0 إمكانية جديدة لاستدعاء الدوالّ: استدعاء الدوالّ التركيبية. تتيح ميزة "استدعاء الدوالّ التركيبية" لواجهة برمجة التطبيقات Gemini API إمكانية استدعاء عدّة دوالّ يحدّدها المستخدم تلقائيًا في أثناء عملية إنشاء ردّ. على سبيل المثال، للردّ على الطلب "Get the temperature in my current location"، قد تستدعي Gemini API كلًا من دالة get_current_location() ودالة get_weather() التي تأخذ الموقع الجغرافي كمَعلمة.

تتطلّب الدعوة إلى الدالة التركيبية مع تنفيذ الرمز بثًا ثنائي الاتجاه ولا تتوفّر إلا من خلال واجهة برمجة التطبيقات الجديدة Multimodal Live API. في ما يلي مثال يوضّح كيفية استخدام استدعاء الدوالّ التركيبية وتنفيذ الرمز المبرمَج وواجهة برمجة التطبيقات Multimodal Live API معًا:

turn_on_the_lights_schema = {'name': 'turn_on_the_lights'}
turn_off_the_lights_schema = {'name': 'turn_off_the_lights'}

prompt = """
  Hey, can you write run some python code to turn on the lights, wait 10s and then turn off the lights?
  """

tools = [
    {'code_execution': {}},
    {'function_declarations': [turn_on_the_lights_schema, turn_off_the_lights_schema]}
]

await run(prompt, tools=tools, modality="AUDIO")

يمكن لمطوّري Python تجربة ذلك في دفتر ملاحظات استخدام أداة واجهة برمجة التطبيقات المباشرة.

استخدام أدوات متعددة

باستخدام Gemini 2.0، يمكنك تفعيل أدوات متعددة في الوقت نفسه، وسيحدّد النموذج وقت استخدامها. في ما يلي مثال يتيح أداتَين، هما التثبيت باستخدام "بحث Google" وتنفيذ الرمز البرمجي، في طلب باستخدام Multimodal Live API.

prompt = """
  Hey, I need you to do three things for me.

  1. Turn on the lights.
  2. Then compute the largest prime palindrome under 100000.
  3. Then use Google Search to look up information about the largest earthquake in California the week of Dec 5 2024.

  Thanks!
  """

tools = [
    {'google_search': {}},
    {'code_execution': {}},
    {'function_declarations': [turn_on_the_lights_schema, turn_off_the_lights_schema]}
]

await run(prompt, tools=tools, modality="AUDIO")

يمكن لمطوّري Python تجربة ذلك في دفتر ملاحظات استخدام أداة واجهة برمجة التطبيقات المباشرة.

رصد مربّع الحدود

في هذا الإطلاق التجريبي، نوفّر للمطوّرين أداة فعّالة لرصد الأجسام وتحديد أماكنها في الصور والفيديوهات. من خلال تحديد العناصر بدقة وتحديد حدودها باستخدام المربّعات الحدودية، يمكن للمطوّرين الاستفادة من مجموعة كبيرة من التطبيقات وتحسين ذكاء مشاريعهم.

المزايا الأساسية:

  • بسيط: يمكنك دمج إمكانات رصد الأجسام في تطبيقاتك بسهولة، بغض النظر عن خبرتك في مجال الرؤية الحاسوبية.
  • قابل للتخصيص: يمكنك إنشاء مربّعات حدودية استنادًا إلى تعليمات مخصّصة (مثل "أريد الاطّلاع على مربّعات حدودية لجميع الأجسام الخضراء في هذه الصورة")، بدون الحاجة إلى تدريب نموذج مخصّص.

التفاصيل الفنية:

  • الإدخال: الطلب والصور أو لقطات الفيديو المرتبطة به
  • الإخراج: مربّعات التطويق بتنسيق [y_min, x_min, y_max, x_max] الزاوية العليا اليسرى هي نقطة الأصل. يمتد محورا x وy أفقيًا ورأسيًا على التوالي. يتم تسويتها بين 0 و1000 لكل صورة.
  • العرض المرئي: سيرى مستخدمو AI Studio مربّعات حدودية مرسومة ضمن واجهة المستخدِم. على مستخدمي Vertex AI عرض مربّعات الحدود من خلال رمز برمجي مخصّص لعرض البيانات.

بالنسبة إلى مطوّري Python، جرِّب دفتر ملاحظات الفهم المكاني ثنائي الأبعاد أو دفتر ملاحظات التوجيه التجريبي في 3D.

إنشاء الكلام (استخدام المنتج قبل إطلاقه/القائمة المسموح بها)

يتيح Gemini 2.0 ميزة جديدة لإنشاء المحتوى باستخدام وسائط متعددة، وهي تحويل النص إلى كلام. باستخدام ميزة تحويل النص إلى كلام، يمكنك توجيه النموذج لإنشاء ملف صوتي عالي الجودة يبدو مثل صوت بشري (say "hi everyone")، و يمكنك تحسين النتيجة بشكل أكبر من خلال توجيه الصوت.

إنشاء الصور (استخدام الميزة قبل إطلاقها/القائمة المسموح بها)

يتيح الإصدار 2.0 من Gemini إمكانية عرض النص مع الصور المضمّنة. يتيح لك ذلك استخدام Gemini لتعديل الصور من خلال المحادثات أو إنشاء نتائج متعددة الوسائط (على سبيل المثال، مشاركة مدونة تتضمّن نصًا وصورًا في فقرة واحدة). في السابق، كان هذا الإجراء يتطلّب تجميع نماذج متعددة معًا.

تتوفّر ميزة إنشاء الصور كإصدار تجريبي خاص. وهو يتيح الوضعَين وإمكانيتَي القياس التاليتَين:

  • تحويل النص إلى صورة
    • مثال على طلب: "أريد إنشاء صورة لبرج إيفل مع عرض للألعاب النارية في الخلفية".
  • تحويل النص إلى صور ونص (مُدرَج)
    • مثال على طلب: "أريد إنشاء وصفة مُوضَّحة لطبق البايلا".
  • الصور والنصوص إلى صور ونصوص (مُدرَجة)
    • مثال على طلب: (مع صورة لغرفة مفروشة) "ما هي الألوان الأخرى التي تناسب أريكتي في المساحة؟ هل يمكنك تعديل الصورة؟"
  • تعديل الصور (النص والصورة إلى الصورة)
    • مثال على طلب: "تعديل هذه الصورة لتبدو وكأنها صورة كارتونية"
    • مثال على طلب: [صورة هرّة] + [صورة وسادة] + "أريد إنشاء صورة مُطرّزة بالتنقيط لقطتي على هذه الوسادة".
  • تعديل الصور المتعدّد الخطوات (المحادثة)
    • أمثلة على الطلبات: [تحميل صورة سيارة زرقاء] "أريد تحويل هذه السيارة إلى سيارة قابلة للتحويل". "الآن، غيِّر اللون إلى الأصفر".
  • إضافة علامة مائية (synthID)

القيود:

  • لا يُسمح بإنشاء صور لأشخاص وتعديل الصور المحمَّلة التي تحتوي على أشخاص.
  • لا تتوفّر ميزة إنشاء الصور إلا باللغات التالية: الإنجليزية والإسبانية (المكسيك) واليابانية والصينية (المعروفة باسم الماندرين) والهندية.
  • لا تتيح ميزة إنشاء الصور إدخالات صوتية أو فيديو.
  • قد لا يؤدي إنشاء الصور دائمًا إلى:
    • قد يعرض النموذج نصًا فقط. جرِّب طلب نتائج الصور صراحةً (مثل "إنشاء صورة" أو "تقديم صور أثناء الإجراء" أو "تعديل الصورة").
    • قد يتوقف النموذج عن إنشاء المحتوى في منتصف العملية. يُرجى إعادة المحاولة أو استخدام رمز مختلف للطلب.