Modelos de Gemini

Gemini es una familia de modelos de IA generativa que permite a los desarrolladores generar contenido y resolver problemas. Estos modelos se diseñan y entrenan para manejar imágenes y texto como entrada. En esta guía, se proporciona información sobre cada variante del modelo para ayudarte a decidir cuál es la mejor opción para tu caso de uso.

A continuación, se muestra un breve resumen de los modelos disponibles y sus capacidades:

ajustables Entrada Salida
Gemini
  • Gemini 1.5 Pro (solo versión preliminar)
Imágenes y texto Texto
  • Gemini 1.0 Pro
Texto Texto
  • Gemini 1.0 Pro Vision
Imágenes y texto Texto
Incorporaciones
  • Incorporación
Texto Incorporaciones de texto
Recuperación
  • ICA
Texto Texto

Seguridad y uso previsto

Los modelos de inteligencia artificial generativa son herramientas potentes, pero no están sin sus limitaciones. Su versatilidad y aplicabilidad a veces pueden conducir a resultados inesperados, como resultados imprecisos, ofensivos o sesgados. El posprocesamiento y la evaluación manual rigurosa son esenciales para limitar el riesgo de daños a partir de estos resultados. Consulta la guía de seguridad para obtener sugerencias adicionales de uso seguro.

Los modelos que proporciona la API de Gemini se pueden usar para una amplia variedad de aplicaciones de IA generativa y procesamiento de lenguaje natural (PLN). El uso de estas funciones solo está disponible a través de la API de Gemini o la app web de Google AI Studio. El uso de la API de Gemini también está sujeto a la Política de Uso Prohibido de IA Generativas y a las Condiciones del Servicio de la API de Gemini.

Tamaños del modelo

En la siguiente tabla, se muestran los tamaños disponibles y su significado en relación con los demás.

Tamaño del modelo Descripción Servicios
Gemini 1.0 Pro El tamaño de un modelo que equilibra la capacidad y la eficiencia.
  • text
  • chatear

Versiones del modelo

Los modelos de Gemini están disponibles en versiones de vista previa o estable. En tu código, puedes usar uno de los siguientes formatos de nombre de modelo para especificar qué modelo y versión deseas usar.

  • Última: Apunta a la versión de vanguardia del modelo para una generación y variación especificadas. El modelo subyacente se actualiza con regularidad y puede ser una versión de vista previa. Solo las apps y los prototipos de pruebas de exploración deben usar este alias.

    Para especificar la última versión, usa el siguiente patrón: <model>-<generation>-<variation>-latest. Por ejemplo, gemini-1.0-pro-latest

  • Última versión estable: Apunta a la versión estable más reciente que se lanzó para la generación y variación del modelo especificada.

    Para especificar la versión estable más reciente, usa el siguiente patrón: <model>-<generation>-<variation>. Por ejemplo, gemini-1.0-pro

  • Estable: Apunta a un modelo estable específico. Los modelos estables no cambian. La mayoría de las apps de producción deben usar un modelo estable específico.

    Para especificar una versión estable, usa el siguiente patrón: <model>-<generation>-<variation>-<version>. Por ejemplo, gemini-1.0-pro-001

Para los modelos que tienen una versión estable, consulta la fila “Nombres de modelos” del modelo en Variaciones del modelo.

Variaciones del modelo

La API de Gemini ofrece diferentes modelos optimizados para casos de uso específicos. En la siguiente tabla, se describen los atributos de cada una.

Variedad Atributo Descripción
Gemini 1.5 Pro (solo versión preliminar) Última actualización del modelo Abril de 2024
Código del modelo models/gemini-1.5-pro-latest
Capacidades del modelo
  • Entrada: audio, imagen, texto
  • Resultado: texto
  • Optimizado para tareas de lenguaje como las siguientes:
    • Generación de código
    • Generación de texto
    • Edición de texto
    • Solución de problemas
    • Generación de recomendaciones
    • Extracción de información
    • Extracción o generación de datos
    • Agente de IA
  • Puede controlar tareas con cero, uno y pocos intentos.
Métodos de generación compatibles generateContent
Límite de tokens de entrada 1048576
Límite de tokens de salida 8192
Seguridad del modelo Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta el tema Configuración de seguridad para obtener más detalles.
Límite de frecuencia 2 consultas por minuto, 1,000 consultas por día [1]
Gemini Pro Última actualización del modelo Febrero de 2024
Código del modelo models/gemini-pro
Capacidades del modelo
  • Entrada: texto
  • Resultado: texto
  • Genera texto.
  • Puede manejar un formato de conversación de varios turnos.
  • Puede controlar tareas con cero, uno y pocos intentos.
Métodos de generación compatibles generateContent
Límite de tokens de entrada 30720
Límite de tokens de salida 2,048
Seguridad del modelo Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta el tema Configuración de seguridad para obtener más detalles.
Límite de frecuencia 60 solicitudes por minuto[1]
Nombres de modelos
  • Última versión: gemini-1.0-pro-latest
  • Versión estable más reciente: gemini-1.0-pro
  • Versiones estables:
    • gemini-1.0-pro-001
Gemini 1.0 Pro Vision Última actualización del modelo Diciembre de 2023
Código del modelo models/gemini-pro-vision
Capacidades del modelo
  • Entrada: imágenes y texto
  • Resultado: texto
  • Puede tomar entradas multimodales, texto e imagen.
  • Puede controlar tareas con cero, uno y pocos intentos.
Métodos de generación compatibles generateContent
Límite de tokens de entrada 12288
Límite de tokens de salida 4,096
Seguridad del modelo Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta el tema Configuración de seguridad para obtener más detalles.
Límite de frecuencia 60 solicitudes por minuto[1]
Incorporación Última actualización del modelo Diciembre de 2023
Código del modelo models/embedding-001
Capacidades del modelo
  • Entrada: texto
  • Resultado: texto
  • Genera incorporaciones de texto para el texto de entrada.
  • Optimizado para crear incorporaciones para texto de hasta 2,048 tokens.
Métodos de generación compatibles embedContent
Seguridad del modelo No hay parámetros de configuración de seguridad ajustables.
Límite de frecuencia 1,500 solicitudes por minuto[1]
Incorporación de texto Última actualización del modelo Abril de 2024
Código del modelo models/text-embedding-004 (text-embedding-preview-0409 en Vertex AI)
Capacidades del modelo
  • Entrada: texto
  • Resultado: texto
  • Genera incorporaciones de texto para el texto de entrada.
  • Admite tamaños de incorporación elásticos inferiores a 768.
Métodos de generación compatibles embedContent
Seguridad del modelo No hay parámetros de configuración de seguridad ajustables.
Límite de frecuencia 1,500 solicitudes por minuto[1]
ICA Última actualización del modelo Diciembre de 2023
Código del modelo models/aqa
Capacidades del modelo
  • Entrada: texto
  • Resultado: texto
  • Modelo que realiza respuestas de preguntas atribuidas.
  • Modelo entrenado para devolver respuestas a preguntas que se basan en fuentes proporcionadas, junto con estimar la probabilidad de respuesta.
Métodos de generación compatibles generateAnswer
Idiomas compatibles Inglés
Límite de tokens de entrada 7168
Límite de tokens de salida 1024
Seguridad del modelo Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta el tema Configuración de seguridad para obtener más detalles.
Límite de frecuencia 60 solicitudes por minuto[1]

Consulta los ejemplos para explorar las capacidades de estas variaciones del modelo.

Metadatos del modelo

Usa la API de ModelService para obtener metadatos adicionales sobre los modelos más recientes, como los límites de tokens de entrada y salida. En la siguiente tabla, se muestran los metadatos de la variante del modelo Gemini Pro.

Atributo Valor
Nombre visible Gemini 1.0 Pro
Código del modelo models/gemini-1.0-pro
Descripción Modelo orientado a la generación de texto
Métodos de generación compatibles generateContent
Temperatura 0.9
top_p 1
top_k 1

Atributos del modelo

En la siguiente tabla, se describen los atributos de los modelos de Gemini que son comunes a todas las variaciones de modelos.

Atributo Descripción
Datos de entrenamiento El límite de conocimiento de Gemini se produce a principios de 2023. El conocimiento sobre los eventos después de ese tiempo es limitado.
Idiomas compatibles Consulta los idiomas disponibles
Parámetros de modelo configurables
  • P superior
  • K superior
  • Temperatura
  • Secuencia de detención
  • Longitud máxima de salida
  • Cantidad de candidatos de respuesta

[1] Debido a limitaciones de capacidad, los límites de frecuencia máximo especificados no están garantizados.

Consulta la sección Parámetros del modelo de la guía Introducción a los LLM para obtener información sobre cada uno de estos parámetros.

Próximos pasos