Gemini

انواع مدل

Gemini API مدل های مختلفی را ارائه می دهد که برای موارد استفاده خاص بهینه شده اند. در اینجا یک مرور مختصر از انواع Gemini موجود است:

نوع مدل ورودی(های) خروجی بهینه شده برای
جمینی 1.5 پرو
gemini-1.5-pro
صدا، تصاویر، ویدئوها و متن متن وظایف استدلالی پیچیده مانند تولید کد و متن، ویرایش متن، حل مسئله، استخراج و تولید داده ها
فلش جمینی 1.5
gemini-1.5-flash
صدا، تصاویر، ویدئوها و متن متن عملکرد سریع و همه کاره در انواع مختلف وظایف
Gemini 1.0 Pro
gemini-1.0-pro
متن متن وظایف زبان طبیعی، چت متنی و کد چند نوبتی، و تولید کد
(منسوخ شده) Gemini 1.0 Pro Vision
gemini-pro-vision
تصاویر، ویدئوها و متن متن کارهای مربوط به بصری، مانند تولید توضیحات تصویر یا شناسایی اشیاء در تصاویر
جاسازی متن
text-embedding-004
متن جاسازی متن اندازه گیری ارتباط رشته های متنی
AQA
aqa
متن متن ارائه پاسخ های مبتنی بر منبع به سوالات

جدول زیر ویژگی‌های مدل‌های Gemini را که در همه مدل‌های مدل مشترک است، توضیح می‌دهد:

صفت شرح
داده های آموزشی نقطه قطع دانش Gemini نوامبر 2023 است. اطلاعات در مورد رویدادهای پس از آن زمان محدود است.
زبان های پشتیبانی شده زبان های موجود را ببینید
پارامترهای مدل قابل تنظیم
  • صفحه بالا
  • بالا k
  • درجه حرارت
  • توالی توقف
  • حداکثر طول خروجی
  • تعداد نامزدهای پاسخگو

برای اطلاعات در مورد هر یک از این پارامترها ، بخش پارامترهای مدل را در راهنمای مدل‌های مولد ببینید.

فلش جمینی 1.5

Gemini 1.5 Flash یک مدل چندوجهی سریع و همه کاره برای مقیاس‌بندی وظایف مختلف است.

در AI Studio امتحان کنید

جزئیات مدل

ویژگی شرح
کد مدل models/gemini-1.5-flash
انواع داده های پشتیبانی شده

ورودی ها

صدا، تصویر، ویدئو و متن

خروجی

متن

محدودیت های رمز [*]

محدودیت رمز ورودی

1,048,576

محدودیت نشانه خروجی

8,192

مشخصات صوتی/بصری

حداکثر تعداد تصاویر در هر درخواست

3600

حداکثر طول ویدیو

1 ساعت

حداکثر طول صدا

تقریبا 9.5 ساعت

محدودیت‌های نرخ [**]
رایگان:
  • 15 دور در دقیقه
  • 1 میلیون TPM
  • 1500 RPD
پرداخت به موقع:
  • 1000 دور در دقیقه
  • 2 میلیون TPM
قابلیت های

دستورالعمل های سیستم

پشتیبانی

حالت JSON

پشتیبانی

طرحواره JSON

پشتیبانی نشده

تنظیمات ایمنی قابل تنظیم

پشتیبانی

ذخیره سازی

پشتیبانی

تنظیم

پشتیبانی نشده

فراخوانی تابع

پشتیبانی

پیکربندی فراخوانی تابع

پشتیبانی

اجرای کد

پشتیبانی

آخرین به روز رسانی می 2024

جمینی 1.5 پرو

Gemini 1.5 Pro یک مدل چندوجهی با اندازه متوسط ​​است که برای طیف وسیعی از وظایف استدلالی بهینه شده است. 1.5 Pro می تواند حجم زیادی از داده ها را همزمان پردازش کند، از جمله 2 ساعت ویدیو، 19 ساعت صدا، پایگاه های کد با 60000 خط کد یا 2000 صفحه متن.

در AI Studio امتحان کنید

جزئیات مدل

ویژگی شرح
کد مدل models/gemini-1.5-pro
انواع داده های پشتیبانی شده

ورودی ها

صدا، تصویر، ویدئو و متن

خروجی

متن

محدودیت های رمز [*]

محدودیت رمز ورودی

2,097,152

محدودیت نشانه خروجی

8,192

مشخصات صوتی/بصری

حداکثر تعداد تصاویر در هر درخواست

7200

حداکثر طول ویدیو

2 ساعت

حداکثر طول صدا

تقریبا 19 ساعت

محدودیت‌های نرخ [**]
رایگان:
  • 2 دور در دقیقه
  • 32000 TPM
  • 50 RPD
پرداخت به موقع:
  • 360 دور در دقیقه
  • 2 میلیون TPM
  • 10000 RPD
قابلیت های

دستورالعمل های سیستم

پشتیبانی

حالت JSON

پشتیبانی

طرحواره JSON

پشتیبانی

تنظیمات ایمنی قابل تنظیم

پشتیبانی

ذخیره سازی

پشتیبانی

تنظیم

پشتیبانی نشده

فراخوانی تابع

پشتیبانی

پیکربندی فراخوانی تابع

پشتیبانی

اجرای کد

پشتیبانی

آخرین به روز رسانی می 2024

Gemini 1.0 Pro

Gemini 1.0 Pro یک مدل NLP است که وظایفی مانند چت متنی و کد چند نوبتی و تولید کد را انجام می دهد.

در AI Studio امتحان کنید

جزئیات مدل

ویژگی شرح
کد مدل models/gemini-1.0-pro
انواع داده های پشتیبانی شده

ورودی

متن

خروجی

متن

محدودیت‌های نرخ [**]
رایگان:
  • 15 دور در دقیقه
  • 32000 TPM
  • 1500 RPD
پرداخت به موقع:
  • 360 دور در دقیقه
  • 120000 TPM
  • 30000 RPD
قابلیت های

دستورالعمل های سیستم

پشتیبانی نشده

حالت JSON

پشتیبانی نشده

طرحواره JSON

پشتیبانی نشده

تنظیمات ایمنی قابل تنظیم

پشتیبانی

ذخیره سازی

پشتیبانی نشده

تنظیم

پشتیبانی

فراخوانی تابع

پشتیبانی

پیکربندی فراخوانی تابع

پشتیبانی نشده

اجرای کد

پشتیبانی نشده

آخرین به روز رسانی فوریه 2024

(منسوخ شده) Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision یک مدل چندوجهی بهینه سازی شده برای عملکرد است که می تواند وظایف مربوط به بصری را انجام دهد. به عنوان مثال، 1.0 Pro Vision می تواند توضیحات تصویر را تولید کند، اشیاء موجود در تصاویر را شناسایی کند، اطلاعاتی در مورد مکان ها یا اشیاء موجود در تصاویر ارائه دهد و موارد دیگر.

جزئیات مدل

ویژگی شرح
کد مدل models/gemini-pro-vision
انواع داده های پشتیبانی شده

ورودی ها

تصاویر، ویدئو و متن

خروجی

متن

محدودیت های رمز [*]

محدودیت رمز ورودی

12288

محدودیت نشانه خروجی

4,096

مشخصات صوتی/بصری

حداکثر طول ویدیو

2 دقیقه

محدودیت‌های نرخ [**] 60 درخواست در دقیقه
قابلیت های

دستورالعمل های سیستم

پشتیبانی نشده

حالت JSON

پشتیبانی نشده

طرحواره JSON

پشتیبانی نشده

تنظیمات ایمنی قابل تنظیم

پشتیبانی

ذخیره سازی

پشتیبانی نشده

تنظیم

پشتیبانی نشده

فراخوانی تابع

پشتیبانی

پیکربندی فراخوانی تابع

پشتیبانی نشده

اجرای کد

پشتیبانی نشده

آخرین به روز رسانی دسامبر 2023

جاسازی و جاسازی متن

جاسازی متن

شما می توانید از مدل Text Embedding برای ایجاد جاسازی متن برای متن ورودی استفاده کنید. برای اطلاعات بیشتر در مورد مدل جاسازی متن، از مستندات هوش مصنوعی Generative on Vertex AI در مورد جاسازی متن دیدن کنید.

مدل Text Embedding برای ایجاد جاسازی با 768 بعد برای متن تا 2048 توکن بهینه شده است. Text Embedding اندازه‌های جاسازی الاستیک را زیر 768 ارائه می‌دهد. می‌توانید از جاسازی‌های الاستیک برای تولید ابعاد خروجی کوچک‌تر استفاده کنید و به طور بالقوه در هزینه‌های محاسباتی و ذخیره‌سازی با کاهش عملکرد جزئی صرفه‌جویی کنید.

جزئیات مدل
ویژگی شرح
کد مدل

Gemini API

models/text-embedding-004

Vertex AI

text-embedding-preview-0409

انواع داده های پشتیبانی شده

ورودی

متن

خروجی

جاسازی متن

محدودیت های رمز [*]

محدودیت رمز ورودی

2,048

اندازه ابعاد خروجی

768

محدودیت‌های نرخ [**] 1500 درخواست در دقیقه
تنظیمات امنیتی قابل تنظیم پشتیبانی نشده
آخرین به روز رسانی آوریل 2024

جاسازی

می توانید از مدل Embedding برای ایجاد جاسازی متن برای متن ورودی استفاده کنید.

مدل Embedding برای ایجاد جاسازی با 768 بعد برای متن تا 2048 توکن بهینه شده است.

تعبیه جزئیات مدل
ویژگی شرح
کد مدل models/embedding-001
انواع داده های پشتیبانی شده

ورودی

متن

خروجی

جاسازی متن

محدودیت های رمز [*]

محدودیت رمز ورودی

2,048

اندازه ابعاد خروجی

768

محدودیت‌های نرخ [**] 1500 درخواست در دقیقه
تنظیمات امنیتی قابل تنظیم پشتیبانی نشده
آخرین به روز رسانی دسامبر 2023

AQA

می توانید از مدل AQA برای انجام وظایف مرتبط با پرسش و پاسخ نسبت داده شده (AQA) در یک سند، مجموعه یا مجموعه ای از متن ها استفاده کنید. مدل AQA به سوالاتی که در منابع ارائه شده پایه گذاری شده اند، به همراه تخمین احتمال پاسخگو پاسخ می دهد.

جزئیات مدل

ویژگی شرح
کد مدل models/aqa
انواع داده های پشتیبانی شده

ورودی

متن

خروجی

متن

زبان پشتیبانی شده انگلیسی
محدودیت های رمز [*]

محدودیت رمز ورودی

7,168

محدودیت نشانه خروجی

1024

محدودیت‌های نرخ [**] 1500 درخواست در دقیقه
تنظیمات امنیتی قابل تنظیم پشتیبانی
آخرین به روز رسانی دسامبر 2023

برای کشف قابلیت‌های این مدل‌ها به مثال‌ها مراجعه کنید.

[*] یک نشانه برای مدل های Gemini معادل حدود 4 کاراکتر است. 100 توکن حدود 60-80 کلمه انگلیسی است.

[**] RPM: درخواست در دقیقه
TPM: توکن در دقیقه
RPD: درخواست در روز
TPD: توکن در روز

به دلیل محدودیت ظرفیت، حداکثر نرخ تعیین شده تضمین نمی شود.

الگوهای نام نسخه مدل

مدل‌های Gemini در نسخه‌های پیش‌نمایش یا پایدار موجود هستند. در کد خود می توانید از یکی از فرمت های نام مدل زیر استفاده کنید تا مشخص کنید از کدام مدل و نسخه می خواهید استفاده کنید.

  • آخرین: به نسخه پیشرفته مدل برای یک نسل و تنوع مشخص اشاره می کند. مدل اصلی به طور منظم به روز می شود و ممکن است یک نسخه پیش نمایش باشد. فقط برنامه های آزمایش اکتشافی و نمونه های اولیه باید از این نام مستعار استفاده کنند.

    برای تعیین آخرین نسخه، از الگوی زیر استفاده کنید: <model>-<generation>-<variation>-latest . به عنوان مثال، gemini-1.0-pro-latest .

  • آخرین نسخه پایدار: به آخرین نسخه پایدار منتشر شده برای نسل و تنوع مدل مشخص شده اشاره می کند.

    برای تعیین آخرین نسخه پایدار، از الگوی زیر استفاده کنید: <model>-<generation>-<variation> . به عنوان مثال، gemini-1.0-pro .

  • پایدار: به یک مدل پایدار خاص اشاره می کند. مدل های پایدار تغییر نمی کنند. اکثر برنامه های تولیدی باید از یک مدل پایدار خاص استفاده کنند.

    برای تعیین یک نسخه پایدار، از الگوی زیر استفاده کنید: <model>-<generation>-<variation>-<version> . به عنوان مثال، gemini-1.0-pro-001 .

زبان های موجود

مدل های Gemini برای کار با زبان های زیر آموزش دیده اند:

  • عربی ( ar )
  • بنگالی ( bn )
  • بلغاری ( bg )
  • چینی ساده و سنتی ( zh )
  • کرواتی ( hr )
  • چک ( cs )
  • دانمارکی ( da )
  • هلندی ( nl )
  • انگلیسی ( en )
  • استونیایی ( et )
  • فنلاندی ( fi )
  • فرانسوی ( fr )
  • آلمانی ( de )
  • یونانی ( el )
  • عبری ( iw )
  • هندی ( hi )
  • مجارستانی ( hu )
  • اندونزیایی ( id )
  • ایتالیایی ( it )
  • ژاپنی ( ja )
  • کره ای ( ko )
  • لتونی ( lv )
  • لیتوانیایی ( lt )
  • نروژی ( no )
  • لهستانی ( pl )
  • پرتغالی ( pt )
  • رومانیایی ( ro )
  • روسی ( ru )
  • صربی ( sr )
  • اسلواکی ( sk )
  • اسلوونیایی ( sl )
  • اسپانیایی ( es )
  • سواحیلی ( sw )
  • سوئدی ( sv )
  • تایلندی ( th )
  • ترکی ( tr )
  • اوکراینی ( uk )
  • ویتنامی ( vi )