Gemini es una familia de modelos de IA generativa que les permite a los desarrolladores generar contenido y resolver problemas. Estos modelos están diseñados y entrenados para manejar imágenes y texto como entrada. En esta guía, se proporciona información sobre cada variante del modelo para ayudarte a decidir cuál es la mejor opción para tu caso de uso.
Seguridad y uso previsto
Los modelos de inteligencia artificial generativa son herramientas potentes, pero no están sin sus limitaciones. Su versatilidad y aplicabilidad a veces pueden conducir a resultados inesperados, como resultados imprecisos, ofensivos o sesgados. El posprocesamiento y la evaluación manual rigurosa son esenciales para limitar el riesgo de daños a partir de estos resultados. Consulta la guía de seguridad para obtener sugerencias adicionales de uso seguro.
Los modelos que proporciona la API de Gemini se pueden usar para una amplia variedad de aplicaciones de IA generativa y procesamiento de lenguaje natural (PLN). El uso de estas funciones solo está disponible a través de la API de Gemini o la app web de Google AI Studio. El uso de la API de Gemini también está sujeto a la Política de Uso Prohibido de IA Generativas y a las Condiciones del Servicio de la API de Gemini.
Variantes del modelo
La API de Gemini ofrece diferentes modelos optimizados para casos de uso específicos. A continuación, se incluye una breve descripción general de las variantes disponibles de Gemini:
Variante del modelo | Entrada(s) | Salida | Optimizado para |
---|---|---|---|
Gemini 1.5 Pro (versión preliminar) | Audio, imágenes y texto | Texto | Tareas de razonamiento, incluidas, sin limitaciones, la generación de código y texto, edición de texto, resolución de problemas, extracción y generación de datos |
Gemini 1.5 Flash (versión preliminar) | Audio, imágenes y texto | Texto | Rendimiento rápido y versátil en una amplia variedad de tareas |
Gemini 1.0 Pro | Texto | Texto | Tareas de lenguaje natural, chat de texto y código de varios turnos, y generación de código |
Gemini 1.0 Pro Vision | Imágenes y texto | Texto | Rendimiento optimizado para tareas visuales, como la generación de descripciones de imágenes o la identificación de objetos en imágenes |
Incorporación de texto | Texto | Incorporaciones de texto | Genera incorporaciones de texto elásticas de hasta 768 dimensiones para texto de hasta 2,048 tokens. |
Incorporación | Texto | Incorporaciones de texto | Genera incorporaciones de texto con 768 dimensiones para texto de hasta 2,048 tokens |
AQA | Texto | Texto | Realizar tareas atribuidas relacionadas con respuestas de preguntas en el texto proporcionado |
En la siguiente tabla, se describen los atributos de los modelos de Gemini que son comunes a todas las variantes de los modelos:
Atributo | Descripción |
---|---|
Datos de entrenamiento | El límite de conocimiento de Gemini se produce a principios de 2023. El conocimiento sobre los eventos después de ese tiempo es limitado. |
Idiomas compatibles | Consulta los idiomas disponibles |
Parámetros de modelo configurables |
|
Consulta la sección de parámetros del modelo de la guía de modelos generativos para obtener información sobre cada uno de estos parámetros.
Gemini 1.5 Pro (versión preliminar)
Gemini 1.5 Pro es un modelo multimodal de tamaño mediano optimizado para una amplia gama de tareas de razonamiento, como las siguientes:
- Generación de código
- Generación de texto
- Edición de texto
- Solución de problemas
- Generación de recomendaciones
- Extracción de información
- Extracción o generación de datos
- Creación de agentes de IA
1.5 Pro puede procesar grandes cantidades de datos a la vez, lo que incluye 1 hora de video, 9.5 horas de audio, bases de código con más de 30,000 líneas de código o más de 700,000 palabras.
1.5 Pro puede controlar tareas de aprendizaje sin ejemplos, con uno o con pocos intentos.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código del modelo | models/gemini-1.5-pro-latest |
Entradas | Audio, imágenes y texto |
Salida | Texto |
Métodos de generación compatibles |
generateContent
|
Límite de tokens de entrada[**] | 1.048.576 |
Límite de tokens de salida[**] | 8,192 |
Cantidad máxima de imágenes por instrucción | 3,600 |
Duración máxima del video | 1 hora |
Duración máxima del audio | Aproximadamente 9.5 horas |
Cantidad máxima de archivos de audio por instrucción | 1 |
Seguridad del modelo | Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta la página sobre la configuración de seguridad para obtener más detalles. |
Límites de frecuencia[*] |
|
Instrucciones del sistema | Admitido |
Modo JSON | Admitido |
Última versión | gemini-1.5-pro-latest |
Versión estable más reciente | gemini-1.5-pro |
Actualización más reciente | Abril de 2024 |
Gemini 1.5 Flash (versión preliminar)
Gemini 1.5 Flash es un modelo multimodal rápido y versátil para escalar en diversas tareas.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código del modelo | gemini-1.5-flash |
Entrada(s) | Audio, imágenes y texto |
Salida | Texto |
Métodos de generación compatibles |
generateContent
|
Límite de tokens de entrada[**] | 1.048.576 |
Límite de tokens de salida[**] | 8,192 |
Cantidad máxima de imágenes por instrucción | 3,600 |
Duración máxima del video | 1 hora |
Duración máxima del audio | Aproximadamente 9.5 horas |
Cantidad máxima de archivos de audio por instrucción | 1 |
Seguridad del modelo | Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta la página sobre la configuración de seguridad para obtener más detalles. |
Límites de frecuencia[*] |
|
Instrucciones del sistema | Admitido |
Modo JSON | Admitido |
Última versión | gemini-1.5-flash-latest |
Versión estable más reciente | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro es un modelo de PLN que controla tareas como el chat de código y texto de varios turnos, y la generación de código.
1.0 Pro puede controlar tareas de aprendizaje sin ejemplos, con uno o con pocos intentos.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código del modelo | models/gemini-pro |
Entrada | Texto |
Salida | Texto |
Métodos de generación compatibles |
generate_content
generateContent
|
Límites de frecuencia[*] |
|
Instrucciones del sistema | No compatible |
Modo JSON | No compatible |
Última versión | gemini-1.0-pro-latest |
Versión estable más reciente | gemini-1.0-pro |
Versiones estables | gemini-1.0-pro-001 |
Actualización más reciente | February 2024 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision es un modelo multimodal optimizado para el rendimiento que puede realizar tareas relacionadas con las vistas. Por ejemplo, 1.0 Pro Vision puede generar descripciones de imágenes, identificar objetos presentes en imágenes, proporcionar información sobre objetos o lugares presentes en las imágenes, y mucho más.
1.0 Pro Vision es capaz de realizar tareas sin ejemplos, con un solo resultado y con pocos intentos.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código del modelo | models/gemini-pro-vision |
Entradas | Imágenes y texto |
Salida | Texto |
Métodos de generación compatibles |
generate_content
generateContent
|
Límite de tokens de entrada[*] | 12,288 |
Límite de tokens de salida[*] | 4,096 |
Tamaño máximo de la imagen | Sin límite |
Cantidad máxima de imágenes por instrucción | 16 |
Duración máxima del video | 2 minutos |
Cantidad máxima de videos por instrucción | 1 |
Seguridad del modelo | Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta la página sobre la configuración de seguridad para obtener más detalles. |
Límite de frecuencia[*] | 60 solicitudes por minuto |
Última versión | gemini-1.0-pro-vision-latest |
Versión estable más reciente | gemini-1.0-pro-vision |
Actualización más reciente | Diciembre de 2023 |
Incorporación de texto
Incorporación de texto
Puedes usar el modelo de incorporación de texto a fin de generar incorporaciones de texto para texto de entrada. Para obtener más información sobre el modelo de incorporación de texto, consulta la documentación de IA generativa en Vertex AI sobre las incorporaciones de texto.
El modelo de incorporación de texto está optimizado para crear incorporaciones con 768 dimensiones para texto de hasta 2,048 tokens. La incorporación de texto ofrece tamaños de incorporación elásticos inferiores a 768. Puedes usar incorporaciones elásticas para generar dimensiones de salida más pequeñas y, posiblemente, ahorrar costos de procesamiento y almacenamiento con una pequeña pérdida de rendimiento.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código del modelo |
models/text-embedding-004
(text-embedding-preview-0409 en
Vertex AI)
|
Entrada | Texto |
Salida | Incorporaciones de texto |
Límite de tokens de entrada | 2,048 |
Tamaño de la dimensión del resultado | 768 |
Métodos de generación compatibles |
embed_content
embedContent
|
Seguridad del modelo | No hay parámetros de configuración de seguridad ajustables. |
Límite de frecuencia[*] | 1,500 solicitudes por minuto |
Actualización más reciente | Abril de 2024 |
Incorporación
Puedes usar el modelo de incorporación para generar incorporaciones de texto para texto de entrada.
El modelo de incorporación está optimizado para crear incorporaciones con 768 dimensiones para texto de hasta 2,048 tokens.
Detalles del modelo de incorporación
Propiedad | Descripción |
---|---|
Código del modelo | models/embedding-001 |
Entrada | Texto |
Salida | Incorporaciones de texto |
Límite de tokens de entrada | 2,048 |
Tamaño de la dimensión del resultado | 768 |
Métodos de generación compatibles |
embed_content
embedContent
|
Seguridad del modelo | No hay parámetros de configuración de seguridad ajustables. |
Límite de frecuencia[*] | 1,500 solicitudes por minuto |
Actualización más reciente | Diciembre de 2023 |
ICA
Puedes usar el modelo de AQA para realizar tareas relacionadas con las respuestas de preguntas atribuidas (AQA) en un documento, corpus o un conjunto de pasajes. El modelo de AQA muestra respuestas a preguntas que se basan en las fuentes proporcionadas, junto con una estimación de la probabilidad de respuesta.
Detalles del modelo
Propiedad | Descripción |
---|---|
Código del modelo | models/aqa |
Entrada | Texto |
Salida | Texto |
Métodos de generación compatibles |
GenerateAnswerRequest
generateAnswer
|
Idiomas compatibles | Inglés |
Límite de tokens de entrada[**] | 7,168 |
Límite de tokens de salida[**] | 1,024 |
Seguridad del modelo | Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta la página sobre la configuración de seguridad para obtener más detalles. |
Límite de frecuencia[*] | 60 solicitudes por minuto |
Actualización más reciente | Diciembre de 2023 |
Consulta los ejemplos para explorar las capacidades de estas variaciones del modelo.
[*] Un token es equivalente a, aproximadamente, 4 caracteres en los modelos de Gemini. 100 tokens son entre 60 y 80 palabras en inglés.
[**] RPM: Solicitudes por minuto
TPM: Tokens por minuto
RPD: Solicitudes por día
TPD: Tokens por día
Debido a limitaciones de capacidad, los límites de frecuencia máximo especificados no están garantizados.
Patrones de nombres de versiones del modelo
Los modelos de Gemini están disponibles en versiones de vista previa o estable. En tu código, puedes usar uno de los siguientes formatos de nombre de modelo para especificar qué modelo y versión deseas usar.
Última: Apunta a la versión de vanguardia del modelo para una generación y variación especificadas. El modelo subyacente se actualiza con regularidad y puede ser una versión de vista previa. Solo las apps y los prototipos de pruebas de exploración deben usar este alias.
Para especificar la última versión, usa el siguiente patrón:
<model>-<generation>-<variation>-latest
. Por ejemplo,gemini-1.0-pro-latest
Última versión estable: Apunta a la versión estable más reciente que se lanzó para la generación y variación del modelo especificada.
Para especificar la versión estable más reciente, usa el siguiente patrón:
<model>-<generation>-<variation>
. Por ejemplo,gemini-1.0-pro
Estable: Apunta a un modelo estable específico. Los modelos estables no cambian. La mayoría de las apps de producción deben usar un modelo estable específico.
Para especificar una versión estable, usa el siguiente patrón:
<model>-<generation>-<variation>-<version>
. Por ejemplo,gemini-1.0-pro-001