Variantes del modelo
La API de Gemini ofrece diferentes modelos que están optimizados para usos específicos diferentes. Esta es una descripción general breve de las variantes de Gemini disponibles:
Variante del modelo | Entradas | Salida | Optimizado para |
---|---|---|---|
Gemini 1.5
gemini-1.5-flash |
Audio, imágenes, videos y texto | Texto | Rendimiento rápido y versátil en una gran variedad de tareas |
Gemini 1.5 Pro
gemini-1.5-pro |
Audio, imágenes, videos y texto | Texto | Tareas de razonamiento complejas, como la generación de código y texto edición de texto, resolución de problemas, extracción y generación de datos |
Gemini 1.0 Pro
gemini-1.0-pro |
Texto | Texto | Tareas de lenguaje natural, chat de código y texto de varios turnos, y código generación |
Incorporación de texto
text-embedding-004 |
Texto | Incorporaciones de texto | Medir la relación de las cadenas de texto |
AQA
aqa |
Texto | Texto | Brindar respuestas fundamentadas a las preguntas |
En la siguiente tabla, se describen los atributos de los modelos de Gemini que son comunes a todas las variantes del modelo:
Atributo | Descripción |
---|---|
Datos de entrenamiento | El límite de conocimiento de Gemini es noviembre de 2023. El conocimiento sobre los eventos posteriores a ese tiempo es limitado. |
Idiomas admitidos | Consulta los idiomas disponibles |
Parámetros configurables del modelo |
|
Consulta los parámetros del modelo de la y los modelos generativos para obtener información sobre cada uno de estos parámetros.
Gemini 1.5 Flash
Gemini 1.5 Flash es un modelo multimodal rápido y versátil para escalar tareas diversas.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código de modelo | models/gemini-1.5-flash |
Tipos de datos admitidos |
Entradas Audio, imágenes, video y texto Resultado Texto |
[*] | Límites de tokens
Límite de tokens de entrada 1.048.576 Límite de tokens de salida 8,192 |
Especificaciones audiovisual |
Cantidad máxima de imágenes por instrucción 3,600 Duración máxima del video 1 hora Duración máxima del audio Aproximadamente 9.5 horas |
[**] | Límites de frecuencia
|
Capabilities |
Instrucciones del sistema Admitido Modo JSON Admitido Esquema de JSON Admitido Configuración de seguridad ajustable Admitido Almacenamiento en caché Admitido Ajuste Admitido Llamada a función Admitido Configuración de llamadas a funciones Admitido Ejecución de código Admitido |
Versiones |
|
Última actualización | Mayo de 2024 |
Gemini 1.5 Pro
Gemini 1.5 Pro es un modelo multimodal de tamaño medio optimizado para una amplia gama de tareas de razonamiento. 1.5 Pro puede procesar grandes cantidades de datos a la vez, lo que incluye 2 horas de video, 19 horas de audio, bases de código con 60,000 líneas de código o 2,000 páginas de texto.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código de modelo | models/gemini-1.5-pro |
Tipos de datos admitidos |
Entradas Audio, imágenes, video y texto Resultado Texto |
[*] | Límites de tokens
Límite de tokens de entrada 2.097.152 Límite de tokens de salida 8,192 |
Especificaciones audiovisual |
Cantidad máxima de imágenes por instrucción 7,200 Duración máxima del video 2 horas Duración máxima del audio Aproximadamente 19 horas |
[**] | Límites de frecuencia
|
Capabilities |
Instrucciones del sistema Admitido Modo JSON Admitido Esquema de JSON Admitido Configuración de seguridad ajustable Admitido Almacenamiento en caché Admitido Ajuste No compatible Llamada a función Admitido Configuración de llamadas a funciones Admitido Ejecución de código Admitido |
Versiones |
|
Última actualización | Mayo de 2024 |
Gemini 1.0 Pro
Gemini 1.0 Pro es un modelo de PLN que maneja tareas como texto de varios turnos y el chat de código y la generación de código.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código de modelo | models/gemini-1.0-pro |
Tipos de datos admitidos |
Entrada Texto Resultado Texto |
[**] | Límites de frecuencia
|
Capabilities |
Instrucciones del sistema No compatible Modo JSON No compatible Esquema de JSON No compatible Configuración de seguridad ajustable Admitido Almacenamiento en caché No compatible Ajuste Admitido Llamada a función Admitido Configuración de llamadas a funciones No compatible Ejecución de código No compatible |
Versiones |
|
Última actualización | Febrero de 2024 |
Incorporación de texto
Incorporación de texto
Las incorporaciones de texto se usan para medir la relación de las cadenas y se usan ampliamente en muchas aplicaciones de la IA.
text-embedding-004
logra un rendimiento de recuperación más sólido y supera el rendimiento de los modelos existentes
con dimensiones comparables, en las comparativas de incorporaciones estándar de MTEB.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código de modelo |
API de Gemini
|
Tipos de datos admitidos |
Entrada Texto Resultado Incorporaciones de texto |
[*] | Límites de tokens
Límite de tokens de entrada 2,048 Tamaño de la dimensión de salida 768 |
[**] | Límites de frecuencia1,500 solicitudes por minuto |
Configuración de seguridad ajustable | No compatible |
Última actualización | Abril de 2024 |
Incorporación
Puedes usar el modelo de incorporación para generar incorporaciones de texto para texto de entrada.
El modelo de incorporación está optimizado para crear incorporaciones con 768 dimensiones para texto de hasta 2,048 tokens.
Detalles del modelo de incorporación
Propiedad | Descripción |
---|---|
Código de modelo |
models/embedding-001
|
Tipos de datos admitidos |
Entrada Texto Resultado Incorporaciones de texto |
[*] | Límites de tokens
Límite de tokens de entrada 2,048 Tamaño de la dimensión de salida 768 |
[**] | Límites de frecuencia1,500 solicitudes por minuto |
Configuración de seguridad ajustable | No compatible |
Última actualización | Diciembre de 2023 |
AQA
Puedes usar el modelo AQA para realizar Preguntas atribuidas (AQA) sobre un documento, un corpus o un conjunto de pasajes. El AQA modelo devuelve respuestas a preguntas que se basan en las fuentes proporcionadas, y la estimación de probabilidades de respuesta.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código de modelo | models/aqa |
Tipos de datos admitidos |
Entrada Texto Resultado Texto |
Idioma admitido | Inglés |
[*] | Límites de tokens
Límite de tokens de entrada 7,168 Límite de tokens de salida 1,024 |
[**] | Límites de frecuencia1,500 solicitudes por minuto |
Configuración de seguridad ajustable | Admitido |
Última actualización | Diciembre de 2023 |
Consulta los ejemplos para explorar las capacidades de estos modelos. variaciones.
[*] Un token equivale a aproximadamente 4 caracteres en los modelos de Gemini. 100 tokens hay entre 60 y 80 palabras en inglés.
[**] RPM: Solicitudes por minuto
TPM: Tokens por minuto
RPD: Solicitudes por día
TPD: Tokens por día
Debido a las limitaciones de capacidad, no se especifican los límites de frecuencia máxima
garantizada.
Patrones de nombre de versión del modelo
Los modelos de Gemini están disponibles en versiones de vista previa o estable. En tu código, puedes usar uno de los siguientes formatos de nombre de modelo para especificar y la versión que quieres usar.
Más reciente: Apunta a la versión de vanguardia del modelo para un determinado generación y variación. El modelo subyacente se actualiza con regularidad y podría ser una versión preliminar. Solo se deben realizar pruebas exploratorias de apps y prototipos usa este alias.
Para especificar la última versión, usa el siguiente patrón:
<model>-<generation>-<variation>-latest
Por ejemplo,gemini-1.0-pro-latest
Estable más reciente: Hace referencia a la versión estable más reciente que se lanzó para el la generación y variación del modelo especificado.
Para especificar la versión estable más reciente, usa el siguiente patrón:
<model>-<generation>-<variation>
Por ejemplo,gemini-1.0-pro
Estable: Apunta a un modelo estable específico. Los modelos estables no cambian. La mayoría de las apps de producción deberían usar un modelo estable específico.
Para especificar una versión estable, usa el siguiente patrón:
<model>-<generation>-<variation>-<version>
Por ejemplo,gemini-1.0-pro-001
Experimental: Apunta a un modelo experimental disponible en versión preliminar. tal como se define en las Condiciones, es decir, no es para uso en producción. Lanzamos modelos experimentales para recopilar comentarios, pon las actualizaciones más recientes a disposición de los desarrolladores rápidamente y destacar el ritmo de innovación de Google. Qué que aprendemos de los lanzamientos experimentales determina cómo lanzamos los modelos ampliamente. Un modelo experimental se puede cambiar por otro sin previo aviso. No garantizamos que un modelo experimental se convierta estable en el futuro.
Para especificar una versión experimental, usa el siguiente patrón:
<model>-<generation>-<variation>-<version>
Por ejemplo,gemini-1.5-pro-exp-0801
Idiomas disponibles
Los modelos de Gemini se entrenan para funcionar con los siguientes lenguajes:
- Árabe (
ar
) - Bengalí (
bn
) - Búlgaro (
bg
) - Chino simplificado y tradicional (
zh
) - Croata (
hr
) - Checo (
cs
) - Danés (
da
) - Neerlandés (
nl
) - Inglés (
en
) - Estonio (
et
) - Finés (
fi
) - Francés (
fr
) - Alemán (
de
) - Griego (
el
) - Hebreo (
iw
) - Hindi (
hi
) - Húngaro (
hu
) - Indonesio (
id
) - Italiano (
it
) - Japonés (
ja
) - Coreano (
ko
) - Letón (
lv
) - Lituano (
lt
) - Noruego (
no
) - Polaco (
pl
) - Portugués (
pt
) - Rumano (
ro
) - Ruso (
ru
) - Serbio (
sr
) - Eslovaco (
sk
) - Esloveno (
sl
) - Español (
es
) - Suajili (
sw
) - Sueco (
sv
) - Tailandés (
th
) - Turco (
tr
) - Ucraniano (
uk
) - Vietnamita (
vi
)