Versión preliminar de Gemini 3.1 Flash-Lite

Nuestro modelo multimodal más rentable, que ofrece el rendimiento más rápido para tareas ligeras y de alta frecuencia. Gemini 3.1 Flash-Lite es ideal para tareas de agente de gran volumen, extracción de datos simple y aplicaciones de latencia extremadamente baja en las que el presupuesto y la velocidad son las principales limitaciones.

gemini-3.1-flash-lite-preview

Propiedad Descripción
Código del modelo gemini-3.1-flash-lite-preview
Tipos de datos admitidos

Entradas

Texto, imágenes, videos, audio y PDF

Resultado

Texto

Límites de tokens[*]

Límite de tokens de entrada

1,048,576

Límite de tokens de salida

65,536

Funciones

Generación de audio

No compatible

API de Batch

Admitido

Almacenamiento en caché

Admitido

Ejecución de código

Admitido

Uso de la computadora

No compatible

Búsqueda de archivos

Admitido

Llamada a función

Admitido

Fundamentación con Google Maps

No compatible

Generación de imágenes

No compatible

API de Live

No compatible

Fundamentación de la búsqueda

Admitido

Resultados estructurados

Admitido

Pensamiento

Admitido

Contexto de la URL

Admitido

Versiones
Lee los patrones de versiones de modelos para obtener más detalles.
  • Preview: gemini-3.1-flash-lite-preview
Última actualización Marzo de 2026
Fecha límite de conocimiento Enero de 2025

Guía para desarrolladores

Gemini 3.1 Flash-Lite es el mejor modelo para manejar tareas sencillas a gran escala. Estos son algunos casos de uso más adecuados para Gemini 3.1 Flash-Lite:

  • Traducción: Traducción rápida, económica y de gran volumen, como el procesamiento a gran escala de mensajes de chat, opiniones y tickets de asistencia. Puedes usar instrucciones del sistema para limitar la salida solo al texto traducido sin comentarios adicionales:

    text = "Hey, are you down to grab some pizza later? I'm starving!"
    
    response = client.models.generate_content(
        model="gemini-3.1-flash-lite-preview",
        config={
            "system_instruction": "Only output the translated text"
        },
        contents=f"Translate the following text to German: {text}"
    )
    
    print(response.text)
    
  • Transcripción: Procesa grabaciones, notas de voz o cualquier contenido de audio en el que necesites una transcripción de texto sin tener que crear una canalización de voz a texto independiente. Admite entradas multimodales, por lo que puedes pasar archivos de audio directamente para la transcripción:

    # URL = "https://storage.googleapis.com/generativeai-downloads/data/State_of_the_Union_Address_30_January_1961.mp3"
    
    # Upload the audio file to the GenAI File API
    uploaded_file = client.files.upload(file='sample.mp3')
    
    prompt = 'Generate a transcript of the audio.'
    
    response = client.models.generate_content(
      model="gemini-3.1-flash-lite-preview",
      contents=[prompt, uploaded_file]
    )
    
    print(response.text)
    
  • Tareas de agente y extracción de datos ligeras: Se admiten la extracción de entidades, la clasificación y las canalizaciones de procesamiento de datos ligeras con salida JSON estructurada. Por ejemplo, extraer datos estructurados de una opinión de un cliente de comercio electrónico:

    from pydantic import BaseModel, Field
    
    prompt = "Analyze the user review and determine the aspect, sentiment score, summary quote, and return risk"
    input_text = "The boots look amazing and the leather is high quality, but they run way too small. I'm sending them back."
    
    class ReviewAnalysis(BaseModel):
        aspect: str = Field(description="The feature mentioned (e.g., Price, Comfort, Style, Shipping)")
        summary_quote: str = Field(description="The specific phrase from the review about this aspect")
        sentiment_score: int = Field(description="1 to 5 (1=worst, 5=best)")
        is_return_risk: bool = Field(description="True if the user mentions returning the item")
    
    response = client.models.generate_content(
        model="gemini-3.1-flash-lite-preview",
        contents=[prompt, input_text],
        config={
            "response_mime_type": "application/json",
            "response_json_schema": ReviewAnalysis.model_json_schema(),
        },
    )
    
    print(response.text)
    
  • Procesamiento y resumen de documentos: Analiza archivos PDF y devuelve resúmenes concisos, como para compilar una canalización de procesamiento de documentos o priorizar rápidamente los archivos entrantes:

    import httpx
    
    # Download a sample PDF document
    doc_url = "https://storage.googleapis.com/generativeai-downloads/data/med_gemini.pdf"
    doc_data = httpx.get(doc_url).content
    
    prompt = "Summarize this document"
    response = client.models.generate_content(
        model="gemini-3.1-flash-lite-preview",
        contents=[
            types.Part.from_bytes(
                data=doc_data,
                mime_type='application/pdf',
            ),
            prompt
        ]
    )
    
    print(response.text)
    
  • Enrutamiento de modelos: Usa un modelo de baja latencia y bajo costo como clasificador que enruta las búsquedas al modelo adecuado según la complejidad de la tarea. Este es un patrón real en producción: la CLI de Gemini de código abierto usa Flash-Lite para clasificar la complejidad de las tareas y enrutar a Flash o Pro según corresponda.

    FLASH_MODEL = 'flash'
    PRO_MODEL = 'pro'
    
    CLASSIFIER_SYSTEM_PROMPT = f"""
    You are a specialized Task Routing AI. Your sole function is to analyze the user's request and classify its complexity. Choose between `{FLASH_MODEL}` (SIMPLE) or `{PRO_MODEL}` (COMPLEX).
    1.  `{FLASH_MODEL}`: A fast, efficient model for simple, well-defined tasks.
    2.  `{PRO_MODEL}`: A powerful, advanced model for complex, open-ended, or multi-step tasks.
    
    A task is COMPLEX if it meets ONE OR MORE of the following criteria:
    1.  High Operational Complexity (Est. 4+ Steps/Tool Calls)
    2.  Strategic Planning and Conceptual Design
    3.  High Ambiguity or Large Scope
    4.  Deep Debugging and Root Cause Analysis
    
    A task is SIMPLE if it is highly specific, bounded, and has Low Operational Complexity (Est. 1-3 tool calls).
    """
    
    user_input = "I'm getting an error 'Cannot read property 'map' of undefined' when I click the save button. Can you fix it?"
    
    response_schema = {
      "type": "object",
      "properties": {
        "reasoning": {
          "type": "string",
          "description": "A brief, step-by-step explanation for the model choice, referencing the rubric."
        },
        "model_choice": {
          "type": "string",
          "enum": [FLASH_MODEL, PRO_MODEL]
        }
      },
      "required": ["reasoning", "model_choice"]
    }
    
    response = client.models.generate_content(
        model="gemini-3.1-flash-lite-preview",
        contents=user_input,
        config={
            "system_instruction": CLASSIFIER_SYSTEM_PROMPT,
            "response_mime_type": "application/json",
            "response_json_schema": response_schema
        },
    )
    
    print(response.text)
    
  • Pensamiento: Para mejorar la precisión en las tareas que se benefician del razonamiento paso a paso, configura el pensamiento de modo que el modelo dedique recursos de procesamiento adicionales al razonamiento interno antes de producir el resultado final:

    response = client.models.generate_content(
        model="gemini-3.1-flash-lite-preview",
        contents="How does AI work?",
        config=types.GenerateContentConfig(
            thinking_config=types.ThinkingConfig(thinking_level="high")
        ),
    )
    
    print(response.text)