Gemini

Gemini خانواده ای از مدل های هوش مصنوعی مولد است که به توسعه دهندگان اجازه می دهد محتوا تولید کنند و مشکلات را حل کنند. این مدل‌ها طوری طراحی و آموزش دیده‌اند که هم متن و هم عکس را به عنوان ورودی مدیریت کنند. این راهنما اطلاعاتی در مورد هر مدل ارائه می دهد تا به شما کمک کند تصمیم بگیرید که کدام یک برای مورد استفاده شما مناسب است.

ایمنی و استفاده مورد نظر

مدل‌های هوش مصنوعی مولد ابزارهای قدرتمندی هستند، اما بدون محدودیت نیستند. تطبیق پذیری و کاربرد آنها گاهی اوقات می تواند منجر به خروجی های غیرمنتظره شود، مانند خروجی هایی که نادرست، جانبدارانه یا توهین آمیز هستند. ارزیابی دستی پس از پردازش و دقیق برای محدود کردن خطر آسیب ناشی از چنین خروجی‌هایی ضروری است. برای پیشنهادات استفاده ایمن بیشتر به راهنمای ایمنی مراجعه کنید.

مدل های ارائه شده توسط Gemini API را می توان برای طیف گسترده ای از برنامه های کاربردی هوش مصنوعی و پردازش زبان طبیعی (NLP) استفاده کرد. استفاده از این توابع فقط از طریق Gemini API یا برنامه وب Google AI Studio در دسترس است. استفاده شما از Gemini API نیز مشمول خط مشی استفاده ممنوعه هوش مصنوعی Generative و شرایط خدمات Gemini API است.

انواع مدل

Gemini API مدل های مختلفی را ارائه می دهد که برای موارد استفاده خاص بهینه شده اند. در اینجا یک مرور مختصر از انواع Gemini موجود است:

نوع مدل ورودی(های) خروجی بهینه شده برای
Gemini 1.5 Pro (پیش نمایش) صدا، تصاویر و متن متن کارهای استدلالی شامل (اما نه محدود به) تولید کد و متن، ویرایش متن، حل مسئله، استخراج و تولید داده ها
فلش Gemini 1.5 (پیش نمایش) صدا، تصاویر و متن متن عملکرد سریع و همه کاره در انواع مختلف وظایف
Gemini 1.0 Pro متن متن وظایف زبان طبیعی، چت متنی و کد چند نوبتی، و تولید کد
Gemini 1.0 Pro Vision تصاویر و متن متن عملکرد بهینه شده برای کارهای مربوط به بصری، مانند تولید توضیحات تصویر یا شناسایی اشیاء در تصاویر
جاسازی متن متن جاسازی متن ایجاد جاسازی های متنی الاستیک با حداکثر 768 بعد برای متن تا 2048 توکن
جاسازی متن جاسازی متن ایجاد جاسازی متن با 768 بعد برای متن تا 2048 توکن
AQA متن متن وظایف مربوط به پرسش و پاسخ نسبت داده شده را روی متن ارائه شده انجام دهید

جدول زیر ویژگی‌های مدل‌های Gemini را که در همه مدل‌های مدل مشترک است، توضیح می‌دهد:

صفت شرح
داده های آموزشی سطح دانش Gemini در اوایل سال 2023 است. دانش درباره رویدادهای پس از آن زمان محدود است.
زبان های پشتیبانی شده زبان های موجود را ببینید
پارامترهای مدل قابل تنظیم
  • صفحه بالا
  • بالا k
  • درجه حرارت
  • توالی توقف
  • حداکثر طول خروجی
  • تعداد نامزدهای پاسخگو

برای اطلاعات در مورد هر یک از این پارامترها ، بخش پارامترهای مدل را در راهنمای مدل‌های مولد ببینید.

Gemini 1.5 Pro (پیش نمایش)

Gemini 1.5 Pro یک مدل چندوجهی با اندازه متوسط ​​است که برای طیف وسیعی از وظایف استدلالی مانند:

  • تولید کد
  • تولید متن
  • ویرایش متن
  • حل مسئله
  • تولید توصیه ها
  • استخراج اطلاعات
  • استخراج یا تولید داده ها
  • ایجاد عوامل هوش مصنوعی

1.5 Pro می تواند حجم زیادی از داده ها را به طور همزمان پردازش کند، از جمله 1 ساعت ویدیو، 9.5 ساعت صدا، پایگاه های کد با بیش از 30000 خط کد یا بیش از 700000 کلمه.

1.5 Pro قادر به انجام وظایف یادگیری صفر، یک و چند شات است.

جزئیات مدل

ویژگی شرح
کد مدل models/gemini-1.5-pro-latest
ورودی ها صوت، تصاویر و متن
خروجی متن
روش های تولید پشتیبانی شده generateContent
محدودیت رمز ورودی [**] 1,048,576
محدودیت نشانه خروجی [**] 8,192
حداکثر تعداد تصاویر در هر درخواست 3600
حداکثر طول ویدیو 1 ساعت
حداکثر طول صدا تقریبا 9.5 ساعت
حداکثر تعداد فایل های صوتی در هر درخواست 1
ایمنی مدل تنظیمات ایمنی به صورت خودکار اعمال می شود که توسط توسعه دهندگان قابل تنظیم است. برای جزئیات بیشتر به صفحه ما در مورد تنظیمات ایمنی مراجعه کنید.
محدودیت نرخ [*]
رایگان:
  • 2 دور در دقیقه
  • 32000 TPM
  • 50 RPD
  • 46,080,000 TPD
پرداخت به موقع:
  • 360 دور در دقیقه
  • 10 میلیون TPM
  • 10000 RPD
  • 14,400,000,000 TPD
زمینه دو میلیونی:
  • 1 دور در دقیقه
  • 2 میلیون TPM
  • 50 RPD
دستورالعمل های سیستم پشتیبانی
حالت JSON پشتیبانی
آخرین نسخه gemini-1.5-pro-latest
آخرین نسخه پایدار gemini-1.5-pro
آخرین به روز رسانی آوریل 2024

فلش Gemini 1.5 (پیش نمایش)

Gemini 1.5 Flash یک مدل چندوجهی سریع و همه کاره برای مقیاس‌بندی وظایف مختلف است.

جزئیات مدل

ویژگی شرح
کد مدل gemini-1.5-flash
ورودی(های) صوت، تصاویر و متن
خروجی متن
روش های تولید پشتیبانی شده generateContent
محدودیت رمز ورودی [**] 1,048,576
محدودیت نشانه خروجی [**] 8,192
حداکثر تعداد تصاویر در هر درخواست 3600
حداکثر طول ویدیو 1 ساعت
حداکثر طول صدا تقریبا 9.5 ساعت
حداکثر تعداد فایل های صوتی در هر درخواست 1
ایمنی مدل تنظیمات ایمنی به صورت خودکار اعمال می شود که توسط توسعه دهندگان قابل تنظیم است. برای جزئیات بیشتر به صفحه تنظیمات ایمنی ما مراجعه کنید.
محدودیت نرخ [*]
رایگان:
  • 15 دور در دقیقه
  • 1 میلیون TPM
  • 1500 RPD
پرداخت به موقع:
  • 360 دور در دقیقه
  • 10 میلیون TPM
  • 10000 RPD
دستورالعمل های سیستم پشتیبانی
حالت JSON پشتیبانی
آخرین نسخه gemini-1.5-flash-latest
آخرین نسخه پایدار gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro یک مدل NLP است که وظایفی مانند چت متنی و کد چند نوبتی و تولید کد را انجام می دهد.

1.0 Pro قادر به انجام وظایف یادگیری صفر، یک و چند شات است.

جزئیات مدل

ویژگی شرح
کد مدل models/gemini-pro
ورودی متن
خروجی متن
روش های تولید پشتیبانی شده
پایتون: generate_content
REST: generateContent
محدودیت نرخ [*]
رایگان:
  • 15 دور در دقیقه
  • 32000 TPM
  • 1500 RPD
  • 46,080,000 TPD
پرداخت به موقع:
  • 360 دور در دقیقه
  • 120000 TPM
  • 30000 RPD
  • 172,800,000 TPD
دستورالعمل های سیستم پشتیبانی نمی شود
حالت JSON پشتیبانی نمی شود
آخرین نسخه gemini-1.0-pro-latest
آخرین نسخه پایدار gemini-1.0-pro
نسخه های پایدار gemini-1.0-pro-001
آخرین به روز رسانی فوریه 2024

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision یک مدل چندوجهی بهینه سازی شده برای عملکرد است که می تواند وظایف مربوط به بصری را انجام دهد. به عنوان مثال، 1.0 Pro Vision می تواند توضیحات تصویر را تولید کند، اشیاء موجود در تصاویر را شناسایی کند، اطلاعاتی در مورد مکان ها یا اشیاء موجود در تصاویر ارائه دهد و موارد دیگر.

1.0 Pro Vision قادر به انجام وظایف صفر، یک و چند شات است.

جزئیات مدل

ویژگی شرح
کد مدل models/gemini-pro-vision
ورودی ها متن و تصاویر
خروجی متن
روش های تولید پشتیبانی شده
پایتون: generate_content
REST: generateContent
محدودیت رمز ورودی [*] 12288
محدودیت رمز خروجی [*] 4,096
حداکثر اندازه تصویر بدون محدودیت
حداکثر تعداد تصاویر در هر درخواست 16
حداکثر طول ویدیو 2 دقیقه
حداکثر تعداد ویدیو در هر درخواست 1
ایمنی مدل تنظیمات ایمنی به صورت خودکار اعمال می شود که توسط توسعه دهندگان قابل تنظیم است. برای جزئیات بیشتر به صفحه تنظیمات ایمنی ما مراجعه کنید.
حد نرخ [*] 60 درخواست در دقیقه
آخرین نسخه gemini-1.0-pro-vision-latest
آخرین نسخه پایدار gemini-1.0-pro-vision
آخرین به روز رسانی دسامبر 2023

جاسازی و جاسازی متن

جاسازی متن

شما می توانید از مدل Text Embedding برای ایجاد جاسازی متن برای متن ورودی استفاده کنید. برای اطلاعات بیشتر در مورد مدل جاسازی متن، از مستندات هوش مصنوعی Generative on Vertex AI در مورد جاسازی متن دیدن کنید.

مدل Text Embedding برای ایجاد جاسازی با 768 بعد برای متن تا 2048 توکن بهینه شده است. Text Embedding اندازه‌های جاسازی الاستیک را زیر 768 ارائه می‌دهد. می‌توانید از جاسازی‌های الاستیک برای تولید ابعاد خروجی کوچک‌تر استفاده کنید و به طور بالقوه در هزینه‌های محاسباتی و ذخیره‌سازی با کاهش عملکرد جزئی صرفه‌جویی کنید.

جزئیات مدل
ویژگی شرح
کد مدل models/text-embedding-004 ( text-embedding-preview-0409 in Vertex AI )
ورودی متن
خروجی جاسازی متن
محدودیت رمز ورودی 2,048
اندازه ابعاد خروجی 768
روش های تولید پشتیبانی شده
پایتون: embed_content
REST: embedContent
ایمنی مدل بدون تنظیمات ایمنی قابل تنظیم
حد نرخ [*] 1500 درخواست در دقیقه
آخرین به روز رسانی آوریل 2024

جاسازی

می توانید از مدل Embedding برای ایجاد جاسازی متن برای متن ورودی استفاده کنید.

مدل Embedding برای ایجاد جاسازی با 768 بعد برای متن تا 2048 توکن بهینه شده است.

تعبیه جزئیات مدل
ویژگی شرح
کد مدل models/embedding-001
ورودی متن
خروجی جاسازی متن
محدودیت رمز ورودی 2,048
اندازه ابعاد خروجی 768
روش های تولید پشتیبانی شده
پایتون: embed_content
REST: embedContent
ایمنی مدل بدون تنظیمات ایمنی قابل تنظیم
حد نرخ [*] 1500 درخواست در دقیقه
آخرین به روز رسانی دسامبر 2023

AQA

می توانید از مدل AQA برای انجام وظایف مرتبط با پرسش و پاسخ نسبت داده شده (AQA) در یک سند، مجموعه یا مجموعه ای از متن ها استفاده کنید. مدل AQA به سوالاتی که در منابع ارائه شده پایه گذاری شده اند، به همراه تخمین احتمال پاسخگو پاسخ می دهد.

جزئیات مدل

ویژگی شرح
کد مدل models/aqa
ورودی متن
خروجی متن
روش های تولید پشتیبانی شده
Python: GenerateAnswerRequest
REST: generateAnswer
زبان های پشتیبانی شده انگلیسی
محدودیت رمز ورودی [**] 7,168
محدودیت نشانه خروجی [**] 1024
ایمنی مدل تنظیمات ایمنی به صورت خودکار اعمال می شود که توسط توسعه دهندگان قابل تنظیم است. برای جزئیات بیشتر به صفحه تنظیمات ایمنی ما مراجعه کنید.
حد نرخ [*] 60 درخواست در دقیقه
آخرین به روز رسانی دسامبر 2023

برای کشف قابلیت‌های این مدل‌ها به مثال‌ها مراجعه کنید.

[*] یک نشانه برای مدل های Gemini معادل حدود 4 کاراکتر است. 100 توکن حدود 60-80 کلمه انگلیسی است.

[**] RPM: درخواست در دقیقه
TPM: توکن در دقیقه
RPD: درخواست در روز
TPD: توکن در روز

به دلیل محدودیت ظرفیت، حداکثر نرخ تعیین شده تضمین نمی شود.

الگوهای نام نسخه مدل

مدل‌های Gemini در نسخه‌های پیش‌نمایش یا پایدار موجود هستند. در کد خود می توانید از یکی از فرمت های نام مدل زیر استفاده کنید تا مشخص کنید از کدام مدل و نسخه می خواهید استفاده کنید.

  • آخرین: به نسخه پیشرفته مدل برای یک نسل و تنوع مشخص اشاره می کند. مدل اصلی به طور منظم به روز می شود و ممکن است یک نسخه پیش نمایش باشد. فقط برنامه های آزمایش اکتشافی و نمونه های اولیه باید از این نام مستعار استفاده کنند.

    برای تعیین آخرین نسخه، از الگوی زیر استفاده کنید: <model>-<generation>-<variation>-latest . به عنوان مثال، gemini-1.0-pro-latest .

  • آخرین نسخه پایدار: به آخرین نسخه پایدار منتشر شده برای نسل و تنوع مدل مشخص شده اشاره می کند.

    برای تعیین آخرین نسخه پایدار، از الگوی زیر استفاده کنید: <model>-<generation>-<variation> . به عنوان مثال، gemini-1.0-pro .

  • پایدار: به یک مدل پایدار خاص اشاره می کند. مدل های پایدار تغییر نمی کنند. اکثر برنامه های تولیدی باید از یک مدل پایدار خاص استفاده کنند.

    برای تعیین یک نسخه پایدار، از الگوی زیر استفاده کنید: <model>-<generation>-<variation>-<version> . به عنوان مثال، gemini-1.0-pro-001 .