Gemini خانواده ای از مدل های هوش مصنوعی مولد است که به توسعه دهندگان اجازه می دهد محتوا تولید کنند و مشکلات را حل کنند. این مدلها طوری طراحی و آموزش دیدهاند که هم متن و هم عکس را به عنوان ورودی مدیریت کنند. این راهنما اطلاعاتی در مورد هر مدل ارائه می دهد تا به شما کمک کند تصمیم بگیرید که کدام یک برای مورد استفاده شما مناسب است.
ایمنی و استفاده مورد نظر
مدلهای هوش مصنوعی مولد ابزارهای قدرتمندی هستند، اما بدون محدودیت نیستند. تطبیق پذیری و کاربرد آنها گاهی اوقات می تواند منجر به خروجی های غیرمنتظره شود، مانند خروجی هایی که نادرست، جانبدارانه یا توهین آمیز هستند. ارزیابی دستی پس از پردازش و دقیق برای محدود کردن خطر آسیب ناشی از چنین خروجیهایی ضروری است. برای پیشنهادات استفاده ایمن بیشتر به راهنمای ایمنی مراجعه کنید.
مدل های ارائه شده توسط Gemini API را می توان برای طیف گسترده ای از برنامه های کاربردی هوش مصنوعی و پردازش زبان طبیعی (NLP) استفاده کرد. استفاده از این توابع فقط از طریق Gemini API یا برنامه وب Google AI Studio در دسترس است. استفاده شما از Gemini API نیز مشمول خط مشی استفاده ممنوعه هوش مصنوعی Generative و شرایط خدمات Gemini API است.
انواع مدل
Gemini API مدل های مختلفی را ارائه می دهد که برای موارد استفاده خاص بهینه شده اند. در اینجا یک مرور مختصر از انواع Gemini موجود است:
نوع مدل | ورودی(های) | خروجی | بهینه شده برای |
---|---|---|---|
Gemini 1.5 Pro (پیش نمایش) | صدا، تصاویر و متن | متن | کارهای استدلالی شامل (اما نه محدود به) تولید کد و متن، ویرایش متن، حل مسئله، استخراج و تولید داده ها |
فلش Gemini 1.5 (پیش نمایش) | صدا، تصاویر و متن | متن | عملکرد سریع و همه کاره در انواع مختلف وظایف |
Gemini 1.0 Pro | متن | متن | وظایف زبان طبیعی، چت متنی و کد چند نوبتی، و تولید کد |
Gemini 1.0 Pro Vision | تصاویر و متن | متن | عملکرد بهینه شده برای کارهای مربوط به بصری، مانند تولید توضیحات تصویر یا شناسایی اشیاء در تصاویر |
جاسازی متن | متن | جاسازی متن | ایجاد جاسازی های متنی الاستیک با حداکثر 768 بعد برای متن تا 2048 توکن |
جاسازی | متن | جاسازی متن | ایجاد جاسازی متن با 768 بعد برای متن تا 2048 توکن |
AQA | متن | متن | وظایف مربوط به پرسش و پاسخ نسبت داده شده را روی متن ارائه شده انجام دهید |
جدول زیر ویژگیهای مدلهای Gemini را که در همه مدلهای مدل مشترک است، توضیح میدهد:
صفت | شرح |
---|---|
داده های آموزشی | سطح دانش Gemini در اوایل سال 2023 است. دانش درباره رویدادهای پس از آن زمان محدود است. |
زبان های پشتیبانی شده | زبان های موجود را ببینید |
پارامترهای مدل قابل تنظیم |
|
برای اطلاعات در مورد هر یک از این پارامترها ، بخش پارامترهای مدل را در راهنمای مدلهای مولد ببینید.
Gemini 1.5 Pro (پیش نمایش)
Gemini 1.5 Pro یک مدل چندوجهی با اندازه متوسط است که برای طیف وسیعی از وظایف استدلالی مانند:
- تولید کد
- تولید متن
- ویرایش متن
- حل مسئله
- تولید توصیه ها
- استخراج اطلاعات
- استخراج یا تولید داده ها
- ایجاد عوامل هوش مصنوعی
1.5 Pro می تواند حجم زیادی از داده ها را به طور همزمان پردازش کند، از جمله 1 ساعت ویدیو، 9.5 ساعت صدا، پایگاه های کد با بیش از 30000 خط کد یا بیش از 700000 کلمه.
1.5 Pro قادر به انجام وظایف یادگیری صفر، یک و چند شات است.
جزئیات مدل
ویژگی | شرح |
---|---|
کد مدل | models/gemini-1.5-pro-latest |
ورودی ها | صوت، تصاویر و متن |
خروجی | متن |
روش های تولید پشتیبانی شده | generateContent |
محدودیت رمز ورودی [**] | 1,048,576 |
محدودیت نشانه خروجی [**] | 8,192 |
حداکثر تعداد تصاویر در هر درخواست | 3600 |
حداکثر طول ویدیو | 1 ساعت |
حداکثر طول صدا | تقریبا 9.5 ساعت |
حداکثر تعداد فایل های صوتی در هر درخواست | 1 |
ایمنی مدل | تنظیمات ایمنی به صورت خودکار اعمال می شود که توسط توسعه دهندگان قابل تنظیم است. برای جزئیات بیشتر به صفحه ما در مورد تنظیمات ایمنی مراجعه کنید. |
محدودیت نرخ [*] |
|
دستورالعمل های سیستم | پشتیبانی |
حالت JSON | پشتیبانی |
آخرین نسخه | gemini-1.5-pro-latest |
آخرین نسخه پایدار | gemini-1.5-pro |
آخرین به روز رسانی | آوریل 2024 |
فلش Gemini 1.5 (پیش نمایش)
Gemini 1.5 Flash یک مدل چندوجهی سریع و همه کاره برای مقیاسبندی وظایف مختلف است.
جزئیات مدل
ویژگی | شرح |
---|---|
کد مدل | gemini-1.5-flash |
ورودی(های) | صوت، تصاویر و متن |
خروجی | متن |
روش های تولید پشتیبانی شده | generateContent |
محدودیت رمز ورودی [**] | 1,048,576 |
محدودیت نشانه خروجی [**] | 8,192 |
حداکثر تعداد تصاویر در هر درخواست | 3600 |
حداکثر طول ویدیو | 1 ساعت |
حداکثر طول صدا | تقریبا 9.5 ساعت |
حداکثر تعداد فایل های صوتی در هر درخواست | 1 |
ایمنی مدل | تنظیمات ایمنی به صورت خودکار اعمال می شود که توسط توسعه دهندگان قابل تنظیم است. برای جزئیات بیشتر به صفحه تنظیمات ایمنی ما مراجعه کنید. |
محدودیت نرخ [*] |
|
دستورالعمل های سیستم | پشتیبانی |
حالت JSON | پشتیبانی |
آخرین نسخه | gemini-1.5-flash-latest |
آخرین نسخه پایدار | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro یک مدل NLP است که وظایفی مانند چت متنی و کد چند نوبتی و تولید کد را انجام می دهد.
1.0 Pro قادر به انجام وظایف یادگیری صفر، یک و چند شات است.
جزئیات مدل
ویژگی | شرح |
---|---|
کد مدل | models/gemini-pro |
ورودی | متن |
خروجی | متن |
روش های تولید پشتیبانی شده | generate_content generateContent |
محدودیت نرخ [*] |
|
دستورالعمل های سیستم | پشتیبانی نمی شود |
حالت JSON | پشتیبانی نمی شود |
آخرین نسخه | gemini-1.0-pro-latest |
آخرین نسخه پایدار | gemini-1.0-pro |
نسخه های پایدار | gemini-1.0-pro-001 |
آخرین به روز رسانی | فوریه 2024 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision یک مدل چندوجهی بهینه سازی شده برای عملکرد است که می تواند وظایف مربوط به بصری را انجام دهد. به عنوان مثال، 1.0 Pro Vision می تواند توضیحات تصویر را تولید کند، اشیاء موجود در تصاویر را شناسایی کند، اطلاعاتی در مورد مکان ها یا اشیاء موجود در تصاویر ارائه دهد و موارد دیگر.
1.0 Pro Vision قادر به انجام وظایف صفر، یک و چند شات است.
جزئیات مدل
ویژگی | شرح |
---|---|
کد مدل | models/gemini-pro-vision |
ورودی ها | متن و تصاویر |
خروجی | متن |
روش های تولید پشتیبانی شده | generate_content generateContent |
محدودیت رمز ورودی [*] | 12288 |
محدودیت رمز خروجی [*] | 4,096 |
حداکثر اندازه تصویر | بدون محدودیت |
حداکثر تعداد تصاویر در هر درخواست | 16 |
حداکثر طول ویدیو | 2 دقیقه |
حداکثر تعداد ویدیو در هر درخواست | 1 |
ایمنی مدل | تنظیمات ایمنی به صورت خودکار اعمال می شود که توسط توسعه دهندگان قابل تنظیم است. برای جزئیات بیشتر به صفحه تنظیمات ایمنی ما مراجعه کنید. |
حد نرخ [*] | 60 درخواست در دقیقه |
آخرین نسخه | gemini-1.0-pro-vision-latest |
آخرین نسخه پایدار | gemini-1.0-pro-vision |
آخرین به روز رسانی | دسامبر 2023 |
جاسازی و جاسازی متن
جاسازی متن
شما می توانید از مدل Text Embedding برای ایجاد جاسازی متن برای متن ورودی استفاده کنید. برای اطلاعات بیشتر در مورد مدل جاسازی متن، از مستندات هوش مصنوعی Generative on Vertex AI در مورد جاسازی متن دیدن کنید.
مدل Text Embedding برای ایجاد جاسازی با 768 بعد برای متن تا 2048 توکن بهینه شده است. Text Embedding اندازههای جاسازی الاستیک را زیر 768 ارائه میدهد. میتوانید از جاسازیهای الاستیک برای تولید ابعاد خروجی کوچکتر استفاده کنید و به طور بالقوه در هزینههای محاسباتی و ذخیرهسازی با کاهش عملکرد جزئی صرفهجویی کنید.
جزئیات مدل
ویژگی | شرح |
---|---|
کد مدل | models/text-embedding-004 ( text-embedding-preview-0409 in Vertex AI ) |
ورودی | متن |
خروجی | جاسازی متن |
محدودیت رمز ورودی | 2,048 |
اندازه ابعاد خروجی | 768 |
روش های تولید پشتیبانی شده | embed_content embedContent |
ایمنی مدل | بدون تنظیمات ایمنی قابل تنظیم |
حد نرخ [*] | 1500 درخواست در دقیقه |
آخرین به روز رسانی | آوریل 2024 |
جاسازی
می توانید از مدل Embedding برای ایجاد جاسازی متن برای متن ورودی استفاده کنید.
مدل Embedding برای ایجاد جاسازی با 768 بعد برای متن تا 2048 توکن بهینه شده است.
تعبیه جزئیات مدل
ویژگی | شرح |
---|---|
کد مدل | models/embedding-001 |
ورودی | متن |
خروجی | جاسازی متن |
محدودیت رمز ورودی | 2,048 |
اندازه ابعاد خروجی | 768 |
روش های تولید پشتیبانی شده | embed_content embedContent |
ایمنی مدل | بدون تنظیمات ایمنی قابل تنظیم |
حد نرخ [*] | 1500 درخواست در دقیقه |
آخرین به روز رسانی | دسامبر 2023 |
AQA
می توانید از مدل AQA برای انجام وظایف مرتبط با پرسش و پاسخ نسبت داده شده (AQA) در یک سند، مجموعه یا مجموعه ای از متن ها استفاده کنید. مدل AQA به سوالاتی که در منابع ارائه شده پایه گذاری شده اند، به همراه تخمین احتمال پاسخگو پاسخ می دهد.
جزئیات مدل
ویژگی | شرح |
---|---|
کد مدل | models/aqa |
ورودی | متن |
خروجی | متن |
روش های تولید پشتیبانی شده | GenerateAnswerRequest generateAnswer |
زبان های پشتیبانی شده | انگلیسی |
محدودیت رمز ورودی [**] | 7,168 |
محدودیت نشانه خروجی [**] | 1024 |
ایمنی مدل | تنظیمات ایمنی به صورت خودکار اعمال می شود که توسط توسعه دهندگان قابل تنظیم است. برای جزئیات بیشتر به صفحه تنظیمات ایمنی ما مراجعه کنید. |
حد نرخ [*] | 60 درخواست در دقیقه |
آخرین به روز رسانی | دسامبر 2023 |
برای کشف قابلیتهای این مدلها به مثالها مراجعه کنید.
[*] یک نشانه برای مدل های Gemini معادل حدود 4 کاراکتر است. 100 توکن حدود 60-80 کلمه انگلیسی است.
[**] RPM: درخواست در دقیقه
TPM: توکن در دقیقه
RPD: درخواست در روز
TPD: توکن در روز
به دلیل محدودیت ظرفیت، حداکثر نرخ تعیین شده تضمین نمی شود.
الگوهای نام نسخه مدل
مدلهای Gemini در نسخههای پیشنمایش یا پایدار موجود هستند. در کد خود می توانید از یکی از فرمت های نام مدل زیر استفاده کنید تا مشخص کنید از کدام مدل و نسخه می خواهید استفاده کنید.
آخرین: به نسخه پیشرفته مدل برای یک نسل و تنوع مشخص اشاره می کند. مدل اصلی به طور منظم به روز می شود و ممکن است یک نسخه پیش نمایش باشد. فقط برنامه های آزمایش اکتشافی و نمونه های اولیه باید از این نام مستعار استفاده کنند.
برای تعیین آخرین نسخه، از الگوی زیر استفاده کنید:
<model>-<generation>-<variation>-latest
. به عنوان مثال،gemini-1.0-pro-latest
.آخرین نسخه پایدار: به آخرین نسخه پایدار منتشر شده برای نسل و تنوع مدل مشخص شده اشاره می کند.
برای تعیین آخرین نسخه پایدار، از الگوی زیر استفاده کنید:
<model>-<generation>-<variation>
. به عنوان مثال،gemini-1.0-pro
.پایدار: به یک مدل پایدار خاص اشاره می کند. مدل های پایدار تغییر نمی کنند. اکثر برنامه های تولیدی باید از یک مدل پایدار خاص استفاده کنند.
برای تعیین یک نسخه پایدار، از الگوی زیر استفاده کنید:
<model>-<generation>-<variation>-<version>
. به عنوان مثال،gemini-1.0-pro-001
.