Flash 2.0
Nuestro modelo multimodal más reciente, con funciones de nueva generación y capacidades mejoradas
- Ingresa audio, imágenes, video y texto para obtener respuestas de texto, imagen y audio
- Ofrece interacciones conversacionales de baja latencia con nuestra API de Multimodal Live
Variantes del modelo
La API de Gemini ofrece diferentes modelos optimizados para casos de uso específicos. A continuación, se incluye una breve descripción general de las variantes de Gemini disponibles:
Variante del modelo | Entradas | Salida | Optimizado para |
---|---|---|---|
Gemini 2.0 Flash
gemini-2.0-flash-exp |
Audio, imágenes, videos y texto | Texto, imágenes (próximamente) y audio (próximamente) | Funciones, velocidad y generación multimodal de nueva generación para una amplia variedad de tareas |
Gemini 1.5 Flash
gemini-1.5-flash |
Audio, imágenes, videos y texto | Texto | Rendimiento rápido y versátil en una amplia variedad de tareas |
Gemini 1.5 Flash-8B
gemini-1.5-flash-8b |
Audio, imágenes, videos y texto | Texto | Tareas de alto volumen y menor inteligencia |
Gemini 1.5 Pro
gemini-1.5-pro |
Audio, imágenes, videos y texto | Texto | Tareas de razonamiento complejas que requieren más inteligencia |
(Obsoleto a partir del 15/2/2025) Gemini 1.0 Pro
gemini-1.0-pro |
Texto | Texto | Tareas de lenguaje natural, chat de código y texto de varios turnos, y generación de código |
Incorporación de texto
text-embedding-004 |
Texto | Incorporaciones de texto | Cómo medir la relación entre cadenas de texto |
AQA
aqa |
Texto | Texto | Proporcionar respuestas a preguntas basadas en fuentes |
(Experimental) Gemini 2.0 Flash
Gemini 2.0 Flash ofrece funciones de nueva generación y capacidades mejoradas, como velocidad superior, uso de herramientas nativas, generación multimodal y una ventana de contexto de 1 millón de tokens. Obtén más información sobre Gemini 2.0 Flash en nuestra página de descripción general.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código de modelo | models/gemini-2.0-flash-exp |
Tipos de datos admitidos |
Entradas Audio, imágenes, video y texto Resultado Audio (próximamente), imágenes (próximamente) y texto |
[*] | Límites de tokens
Límite de tokens de entrada 1,048,576 Límite de tokens de salida 8,192 |
[**] | Límites de frecuencia
|
Funciones de |
Resultados estructurados Admitido Almacenamiento en caché No compatible Ajuste No compatible Llamada a función Admitido Ejecución de código Admitido Buscar Admitido Generación de imágenes Admitido Uso de herramientas nativas Admitido Generación de audio Admitido |
Versiones |
|
Última actualización | Diciembre de 2024 |
Gemini 1.5 Flash
Gemini 1.5 Flash es un modelo multimodal rápido y versátil para escalar en diversas tareas.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código de modelo | models/gemini-1.5-flash |
Tipos de datos admitidos |
Entradas Audio, imágenes, video y texto Resultado Texto |
[*] | Límites de tokens
Límite de tokens de entrada 1,048,576 Límite de tokens de salida 8,192 |
Especificaciones de audio y video |
Cantidad máxima de imágenes por instrucción 3,600 Duración máxima del video 1 hora Duración máxima del audio Aproximadamente 9.5 horas |
[**] | Límites de frecuencia
|
Funciones de |
Instrucciones del sistema Admitido Modo JSON Admitido Esquema JSON Admitido Configuración de seguridad ajustable Admitido Almacenamiento en caché Admitido Ajuste Admitido Llamada a función Admitido Ejecución de código Admitido Transmisión bidireccional No compatible |
Versiones |
|
Última actualización | Septiembre de 2024 |
Gemini 1.5 Flash-8B
Gemini 1.5 Flash-8B es un modelo pequeño diseñado para tareas de menor inteligencia.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código de modelo | models/gemini-1.5-flash-8b |
Tipos de datos admitidos |
Entradas Audio, imágenes, video y texto Resultado Texto |
[*] | Límites de tokens
Límite de tokens de entrada 1,048,576 Límite de tokens de salida 8,192 |
Especificaciones de audio y video |
Cantidad máxima de imágenes por instrucción 3,600 Duración máxima del video 1 hora Duración máxima del audio Aproximadamente 9.5 horas |
[**] | Límites de frecuencia
|
Funciones de |
Instrucciones del sistema Admitido Modo JSON Admitido Esquema JSON Admitido Configuración de seguridad ajustable Admitido Almacenamiento en caché Admitido Ajuste Admitido Llamada a función Admitido Ejecución de código Admitido Transmisión bidireccional No compatible |
Versiones |
|
Última actualización | Octubre de 2024 |
Gemini 1.5 Pro
Gemini 1.5 Pro es un modelo multimodal de tamaño mediano que está optimizado para una amplia variedad de tareas de razonamiento. La versión 1.5 Pro puede procesar grandes cantidades de datos a la vez, incluidas 2 horas de video, 19 horas de audio, bases de código con 60,000 líneas de código o 2,000 páginas de texto.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código de modelo | models/gemini-1.5-pro |
Tipos de datos admitidos |
Entradas Audio, imágenes, video y texto Resultado Texto |
[*] | Límites de tokens
Límite de tokens de entrada 2,097,152 Límite de tokens de salida 8,192 |
Especificaciones de audio y video |
Cantidad máxima de imágenes por instrucción 7,200 Duración máxima del video 2 horas Duración máxima del audio Aproximadamente 19 horas |
[**] | Límites de frecuencia
|
Funciones de |
Instrucciones del sistema Admitido Modo JSON Admitido Esquema JSON Admitido Configuración de seguridad ajustable Admitido Almacenamiento en caché Admitido Ajuste No compatible Llamada a función Admitido Ejecución de código Admitido Transmisión bidireccional No compatible |
Versiones |
|
Última actualización | Septiembre de 2024 |
(Obsoleto) Gemini 1.0 Pro
Gemini 1.0 Pro es un modelo de PLN que controla tareas como el chat de código y texto de varios turnos, y la generación de código.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código de modelo | models/gemini-1.0-pro |
Tipos de datos admitidos |
Entrada Texto Resultado Texto |
[**] | Límites de frecuencia
|
Funciones de |
Instrucciones del sistema No compatible Modo JSON No compatible Esquema JSON No compatible Configuración de seguridad ajustable Admitido Almacenamiento en caché No compatible Ajuste Admitido Llamada a función Admitido Configuración de llamadas a función No compatible Ejecución de código No compatible Transmisión bidireccional No compatible |
Versiones |
|
Actualización más reciente | Febrero de 2024 |
Incorporación de texto y de embeddings
Incorporación de texto
Las incorporaciones de texto se usan para medir la relación entre cadenas y se usan ampliamente en muchas aplicaciones de IA.
text-embedding-004
logra un rendimiento de recuperación más sólido y supera a los modelos existentes con dimensiones comparables en las comparativas de incorporación de MTEB estándar.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código de modelo |
API de Gemini
|
Tipos de datos admitidos |
Entrada Texto Resultado Incorporaciones de texto |
[*] | Límites de tokens
Límite de tokens de entrada 2,048 Tamaño de la dimensión de salida 768 |
[**] | Límites de frecuencia1,500 solicitudes por minuto |
Configuración de seguridad ajustable | No compatible |
Última actualización | Abril de 2024 |
Embedding
Puedes usar el modelo de incorporación para generar incorporaciones de texto para el texto de entrada.
El modelo de incorporación está optimizado para crear incorporaciones con 768 dimensiones para texto de hasta 2,048 tokens.
Detalles del modelo de incorporación
Propiedad | Descripción |
---|---|
Código de modelo |
models/embedding-001
|
Tipos de datos admitidos |
Entrada Texto Resultado Incorporaciones de texto |
[*] | Límites de tokens
Límite de tokens de entrada 2,048 Tamaño de la dimensión de salida 768 |
[**] | Límites de frecuencia1,500 solicitudes por minuto |
Configuración de seguridad ajustable | No compatible |
Última actualización | Diciembre de 2023 |
AQA
Puedes usar el modelo de AQA para realizar tareas relacionadas con la respuesta a preguntas atribuidas (AQA) en un documento, un corpus o un conjunto de pasajes. El modelo de AQA muestra respuestas a preguntas que se basan en las fuentes proporcionadas, junto con la estimación de la probabilidad de respuesta.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código de modelo | models/aqa |
Tipos de datos admitidos |
Entrada Texto Resultado Texto |
Idioma admitido | Inglés |
[*] | Límites de tokens
Límite de tokens de entrada 7,168 Límite de tokens de salida 1,024 |
[**] | Límites de frecuencia1,500 solicitudes por minuto |
Configuración de seguridad ajustable | Admitido |
Actualización más reciente | Diciembre de 2023 |
Consulta los ejemplos para explorar las capacidades de estas variaciones de modelos.
[*] Un token equivale a aproximadamente 4 caracteres para los modelos de Gemini. 100 tokens son entre 60 y 80 palabras en inglés.
[**] RPM: Solicitudes por minuto
TPM: Tokens por minuto
RPD: Solicitudes por día
TPD: Tokens por día
Debido a las limitaciones de capacidad, no se garantizan los límites máximos de frecuencia especificados.
Patrones de nombres de versiones de modelos
Los modelos de Gemini están disponibles en versiones preliminares o estables. En tu código, puedes usar uno de los siguientes formatos de nombre de modelo para especificar qué modelo y versión deseas usar.
Más reciente: Indica la versión más reciente del modelo para una generación y una variación especificadas. El modelo subyacente se actualiza con regularidad y podría ser una versión preliminar. Solo las apps y los prototipos de pruebas exploratorias deben usar este alias.
Para especificar la versión más reciente, usa el siguiente patrón:
<model>-<generation>-<variation>-latest
. Por ejemplo,gemini-1.0-pro-latest
Versión estable más reciente: Hace referencia a la versión estable más reciente que se lanzó para la generación y variación de modelos especificadas.
Para especificar la versión estable más reciente, usa el siguiente patrón:
<model>-<generation>-<variation>
. Por ejemplo,gemini-1.0-pro
Estable: Hace referencia a un modelo estable específico. Los modelos estables no cambian. La mayoría de las apps de producción deben usar un modelo estable específico.
Para especificar una versión estable, usa el siguiente patrón:
<model>-<generation>-<variation>-<version>
. Por ejemplo,gemini-1.0-pro-001
Experimental: Hace referencia a un modelo experimental disponible en la versión preliminar, como se define en los Términos, lo que significa que no es para uso en producción. Lanzamos modelos experimentales para recopilar comentarios, poner nuestras actualizaciones más recientes en manos de los desarrolladores rápidamente y destacar el ritmo de innovación que se lleva a cabo en Google. Lo que aprendemos de los lanzamientos experimentales nos permite lanzar los modelos de forma más amplia. Un modelo experimental se puede intercambiar por otro sin aviso previo. No garantizamos que un modelo experimental se convierta en un modelo estable en el futuro.
Para especificar una versión experimental, usa el siguiente patrón:
<model>-<generation>-<variation>-<version>
. Por ejemplo,gemini-exp-1121
Idiomas disponibles
Los modelos de Gemini se entrenan para funcionar con los siguientes idiomas:
- Árabe (
ar
) - Bengalí (
bn
) - Búlgaro (
bg
) - Chino simplificado y tradicional (
zh
) - Croata (
hr
) - Checo (
cs
) - Danés (
da
) - Neerlandés (
nl
) - Inglés (
en
) - Estonio (
et
) - Finés (
fi
) - Francés (
fr
) - Alemán (
de
) - Griego (
el
) - Hebreo (
iw
) - Hindi (
hi
) - Húngaro (
hu
) - Indonesio (
id
) - Italiano (
it
) - Japonés (
ja
) - Coreano (
ko
) - Letón (
lv
) - Lituano (
lt
) - Noruego (
no
) - Polaco (
pl
) - Portugués (
pt
) - Rumano (
ro
) - Ruso (
ru
) - Serbio (
sr
) - Eslovaco (
sk
) - Esloveno (
sl
) - Español (
es
) - Suajili (
sw
) - Sueco (
sv
) - Tailandés (
th
) - Turco (
tr
) - Ucraniano (
uk
) - Vietnamita (
vi
)