Gemini 2.0 Flash اکنون به عنوان نسخه پیش نمایش آزمایشی از طریق Gemini Developer API و Google AI Studio در دسترس است. این مدل ویژگی های جدید و قابلیت های اصلی پیشرفته را معرفی می کند:
- Multimodal Live API: این API جدید به شما کمک میکند تا با استفاده از ابزار، برنامههای بینایی و پخش صدا را در زمان واقعی ایجاد کنید.
- سرعت و عملکرد: Gemini 2.0 نسبت به فلش 1.5 زمان تا اولین توکن (TTFT) به طور قابل توجهی بهبود یافته است.
- کیفیت: عملکرد بهتر در اکثر معیارها نسبت به Gemini 1.5 Pro.
- قابلیتهای عامل بهبودیافته: Gemini 2.0 بهبودهایی را در درک چندوجهی، کدگذاری، دنبال کردن دستورالعملهای پیچیده و فراخوانی عملکرد ارائه میدهد.
- روشهای جدید: Gemini 2.0 تولید تصویر بومی و قابلیتهای قابل کنترل تبدیل متن به گفتار را معرفی میکند.
برای ارائه یک تجربه توسعهدهنده بهتر، یک SDK جدید نیز ارسال میکنیم. برای جزئیات فنی Gemini 2.0، مدل های Gemini را ببینید.
Google Gen AI SDK (تجربی)
Google Gen AI SDK یک رابط یکپارچه برای Gemini 2.0 از طریق Gemini Developer API و Gemini API در Vertex AI فراهم می کند. با چند استثنا، کدهایی که روی یک پلتفرم اجرا میشوند، روی هر دو اجرا میشوند. SDK جدید در Python and Go با جاوا و جاوا اسکریپت به زودی در دسترس است.
- SDK جدید را نصب کنید:
pip install google-genai
- سپس کتابخانه را وارد کنید، یک کلاینت را مقداردهی اولیه کنید و محتوا تولید کنید:
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(model='gemini-2.0-flash-exp', contents='How does AI work?')
print(response.text)
توسعه دهندگان پایتون همچنین می توانند نوت بوک Getting Started را در کتاب آشپزی Gemini امتحان کنند.
Multimodal Live API
Multimodal Live API تعامل صوتی و تصویری دو جهته با تأخیر کم با Gemini را امکان پذیر می کند. با استفاده از Multimodal Live API، میتوانید تجربه مکالمات صوتی طبیعی و شبیه انسان را در اختیار کاربران نهایی قرار دهید و با استفاده از دستورات صوتی، پاسخهای مدل را قطع کنید. این مدل می تواند ورودی متن، صدا و تصویر را پردازش کند و می تواند متن و خروجی صدا را ارائه دهد.
میتوانید Multimodal Live API را در Google AI Studio امتحان کنید. برای آشنایی بیشتر با قابلیتها و محدودیتهای API، به راهنمای مرجع Multimodal Live API مراجعه کنید.
جستجو به عنوان یک ابزار
با استفاده از Grounding with Google Search، میتوانید دقت و تازگی پاسخهای مدل را بهبود ببخشید. با شروع Gemini 2.0، جستجوی Google به عنوان یک ابزار در دسترس است. این بدان معنی است که مدل می تواند تصمیم بگیرد که چه زمانی از جستجوی Google استفاده کند. مثال زیر نحوه پیکربندی جستجو را به عنوان یک ابزار نشان می دهد.
from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch
client = genai.Client()
model_id = "gemini-2.0-flash-exp"
google_search_tool = Tool(
google_search = GoogleSearch()
)
response = client.models.generate_content(
model=model_id,
contents="When is the next total solar eclipse in the United States?",
config=GenerateContentConfig(
tools=[google_search_tool],
response_modalities=["TEXT"],
)
)
for each in response.candidates[0].content.parts:
print(each.text)
# Example response:
# The next total solar eclipse visible in the contiguous United States will be on ...
# To get grounding metadata as web content.
print(response.candidates[0].grounding_metadata.search_entry_point.rendered_content)
عملکرد Search-as-a-tool همچنین جستجوهای چند نوبتی و پرس و جوهای چند ابزاری (به عنوان مثال، ترکیب Grounding با جستجوی Google و اجرای کد) را فعال می کند.
جستجو به عنوان یک ابزار، اعلانها و گردشهای کاری پیچیده را فعال میکند که نیاز به برنامهریزی، استدلال و تفکر دارد:
- زمینه سازی برای افزایش واقعیت و تازگی و ارائه پاسخ های دقیق تر
- بازیابی مصنوعات از وب برای انجام تجزیه و تحلیل بیشتر
- یافتن تصاویر، ویدیوها یا رسانه های دیگر مرتبط برای کمک به استدلال چندوجهی یا وظایف تولید
- کدنویسی، عیب یابی فنی و سایر کارهای تخصصی
- یافتن اطلاعات خاص منطقه یا کمک به ترجمه دقیق محتوا
- یافتن وب سایت های مرتبط برای مرور بیشتر
Search-as-a-tool یک ویژگی پولی است و فقط یک ردیف رایگان بسیار محدود دارد. برای اطلاعات بیشتر به صفحه قیمت ما مراجعه کنید.
میتوانید با امتحان کردن دفترچه ابزار جستجو شروع کنید.
استفاده از ابزار بهبود یافته
Gemini 2.0 بهبودهایی را برای فراخوانی عملکرد و ابزارهایی معرفی میکند که پشتیبانی بهتری از تجربیات نمایندگی ارائه میدهند.
فراخوانی تابع ترکیبی
Gemini 2.0 از قابلیت فراخوانی تابع جدید پشتیبانی می کند: فراخوانی تابع ترکیبی . فراخوانی تابع ترکیبی به Gemini API امکان می دهد تا چندین تابع تعریف شده توسط کاربر را به طور خودکار در فرآیند تولید یک پاسخ فراخوانی کند. به عنوان مثال، برای پاسخ به اعلان "Get the temperature in my current location"
، API Gemini ممکن است هم تابع get_current_location()
و هم یک تابع get_weather()
را فراخوانی کند که موقعیت مکانی را به عنوان پارامتر می گیرد.
فراخوانی تابع ترکیبی با اجرای کد نیاز به جریان دو طرفه دارد و فقط توسط Multimodal Live API جدید پشتیبانی می شود. در اینجا یک مثال نشان می دهد که چگونه می توانید از فراخوانی تابع ترکیبی، اجرای کد و Multimodal Live API با هم استفاده کنید:
turn_on_the_lights_schema = {'name': 'turn_on_the_lights'}
turn_off_the_lights_schema = {'name': 'turn_off_the_lights'}
prompt = """
Hey, can you write run some python code to turn on the lights, wait 10s and then turn off the lights?
"""
tools = [
{'code_execution': {}},
{'function_declarations': [turn_on_the_lights_schema, turn_off_the_lights_schema]}
]
await run(prompt, tools=tools, modality="AUDIO")
توسعه دهندگان پایتون می توانند این را در دفترچه یادداشت Live API Tool Use امتحان کنند.
استفاده از چند ابزار
با Gemini 2.0 می توانید چندین ابزار را همزمان فعال کنید و مدل تصمیم می گیرد چه زمانی آنها را فراخوانی کند. در اینجا یک مثال است که دو ابزار، Grounding با جستجوی Google و اجرای کد را در یک درخواست با استفاده از Multimodal Live API فعال می کند.
prompt = """
Hey, I need you to do three things for me.
1. Turn on the lights.
2. Then compute the largest prime palindrome under 100000.
3. Then use Google Search to look up information about the largest earthquake in California the week of Dec 5 2024.
Thanks!
"""
tools = [
{'google_search': {}},
{'code_execution': {}},
{'function_declarations': [turn_on_the_lights_schema, turn_off_the_lights_schema]}
]
await run(prompt, tools=tools, modality="AUDIO")
توسعه دهندگان پایتون می توانند این را در دفترچه یادداشت Live API Tool Use امتحان کنند.
تشخیص جعبه مرزی
در این راهاندازی آزمایشی، ما به توسعهدهندگان ابزار قدرتمندی برای تشخیص و بومیسازی در تصاویر و ویدیو ارائه میدهیم. با شناسایی دقیق و مشخص کردن اشیاء با جعبه های محدود، توسعه دهندگان می توانند طیف گسترده ای از برنامه ها را باز کنند و هوشمندی پروژه های خود را افزایش دهند.
مزایای کلیدی:
- ساده: بدون در نظر گرفتن تخصص بینایی رایانه خود، قابلیت های تشخیص اشیا را به راحتی در برنامه های خود ادغام کنید.
- قابل تنظیم: جعبههای محدودکننده را بر اساس دستورالعملهای سفارشی تولید کنید (مثلاً «میخواهم جعبههای مرزبندی همه اشیاء سبز در این تصویر را ببینم»)، بدون نیاز به آموزش یک مدل سفارشی.
جزئیات فنی:
- ورودی: درخواست شما و تصاویر یا فریم های ویدیویی مرتبط.
- خروجی: کادرهای مرزبندی در قالب
[y_min, x_min, y_max, x_max]
. گوشه بالا سمت چپ مبدا است. محورx
وy
به ترتیب به صورت افقی و عمودی حرکت می کنند. مقادیر مختصات برای هر تصویر به 0-1000 نرمال می شوند. - تجسم: کاربران استودیو AI کادرهای مرزی را که در داخل رابط کاربری ترسیم شده است، خواهند دید. کاربران Vertex AI باید جعبههای محدود خود را از طریق کد تجسم سفارشی تجسم کنند.
برای توسعه دهندگان پایتون، نوت بوک درک فضایی دوبعدی یا دفترچه یادداشت اشاره سه بعدی تجربی را امتحان کنید.
تولید گفتار (دسترسی اولیه/لیست مجاز)
Gemini 2.0 از قابلیت تولید چندوجهی جدید پشتیبانی می کند: متن به گفتار. با استفاده از قابلیت تبدیل متن به گفتار، میتوانید از مدل بخواهید خروجی صوتی با کیفیتی شبیه صدای انسان تولید کند ( say "hi everyone"
)، و میتوانید با هدایت صدا، خروجی را بیشتر اصلاح کنید.
تولید تصویر (دسترسی اولیه/لیست مجاز)
Gemini 2.0 از توانایی خروجی متن با تصاویر درون خطی پشتیبانی می کند. این به شما امکان می دهد از Gemini برای ویرایش مکالمه تصاویر یا تولید خروجی های چندوجهی (به عنوان مثال، یک پست وبلاگ با متن و تصاویر در یک نوبت) استفاده کنید. قبلاً این امر مستلزم ترکیب چندین مدل با هم بود.
تولید تصویر به عنوان نسخه آزمایشی خصوصی در دسترس است. این روش ها و قابلیت های زیر را پشتیبانی می کند:
- متن به تصویر
- اعلان مثال: "تصویری از برج ایفل با آتش بازی در پس زمینه ایجاد کنید."
- متن به تصویر (ها) و متن (میانبر)
- درخواست مثال: "یک دستور العمل مصور برای پائلا ایجاد کنید."
- تصویر(ها) و متن به تصویر(ها) و متن (میانبر)
- اعلان مثال: (با تصویر یک اتاق مبله) "مبل های چه رنگ دیگری در فضای من کار می کنند؟ آیا می توانید تصویر را به روز کنید؟"
- ویرایش تصویر (متن و تصویر به تصویر)
- درخواست مثال: "این تصویر را ویرایش کنید تا شبیه یک کارتون شود"
- اعلان مثال: [تصویر گربه] + [تصویر بالش] + "یک بخیه متقاطع از گربه من روی این بالش ایجاد کنید."
- ویرایش چند نوبتی تصویر (چت)
- مثال می گوید: [تصویر یک ماشین آبی را آپلود کنید.] "این ماشین را به یک ماشین تبدیل کنید." "حالا رنگ را به زرد تغییر دهید."
- واترمارکینگ
- تمام تصاویر تولید شده دارای واترمارک SynthID هستند.
محدودیت ها:
- تولید افراد و ویرایش تصاویر آپلود شده افراد مجاز نمی باشد.
- برای بهترین عملکرد، از زبانهای زیر استفاده کنید: EN، es-MX، ja-JP، zh-CN، hi-IN.
- تولید تصویر از ورودی های صوتی یا تصویری پشتیبانی نمی کند.
- تولید تصویر ممکن است همیشه فعال نشود:
- مدل ممکن است فقط متن خروجی داشته باشد. سعی کنید خروجی های تصویر را به طور صریح بخواهید (به عنوان مثال "تصویر ایجاد کنید"، "تصاویر را در حین حرکت ارائه دهید"، "تصویر را به روز کنید").
- ممکن است تولید مدل به صورت نیمه تمام متوقف شود. دوباره امتحان کنید یا درخواست دیگری را امتحان کنید.