O Deep Research do Gemini já está disponível em pré-lançamento com planejamento colaborativo, visualização, suporte a MCP e muito mais.

Pré-lançamento do Gemini 3.1 Flash Lite

Nosso modelo multimodal mais econômico, que oferece a performance mais rápida para tarefas leves e de alta frequência. O Gemini 3.1 Flash-Lite é ideal para tarefas de agente de alto volume, extração de dados simples e aplicativos de latência extremamente baixa em que o orçamento e a velocidade são as principais restrições.

Testar no Google AI Studio

gemini-3.1-flash-lite-preview

Propriedade	Descrição
Código do modelo	`gemini-3.1-flash-lite-preview`
Tipos de dados aceitos	Entradas (link em inglês) Texto, imagem, vídeo, áudio e PDF Saída Texto
Limites de token^[*]	Limite de tokens de entrada 1.048.576 Limite de token de saída 65.536
Recursos	Geração de áudio incompatível API Batch Compatível Armazenamento em cache Compatível Execução de código Compatível Uso do computador incompatível Pesquisa de arquivos Compatível Inferência flexível Compatível Chamadas de função Compatível Embasamento com o Google Maps Compatível Geração de imagens incompatível API Live incompatível Inferência de prioridade Compatível Embasamento da pesquisa Compatível Saídas estruturadas Compatível Raciocínio Compatível Contexto do URL Compatível
Versões do	Leia os padrões de versão do modelo para mais detalhes. `Preview: gemini-3.1-flash-lite-preview`
Última atualização	Março de 2026
Limite de conhecimento	Janeiro de 2025

Guia para desenvolvedores

O Gemini 3.1 Flash-Lite é o melhor para lidar com tarefas simples em grande escala. Confira alguns casos de uso mais adequados para o Gemini 3.1 Flash-Lite:

Tradução: tradução rápida, barata e de alto volume, como o processamento de mensagens de chat, avaliações e tíquetes de suporte em grande escala. Você pode usar instruções do sistema para restringir a saída apenas ao texto traduzido, sem comentários extras:

text = "Hey, are you down to grab some pizza later? I'm starving!"

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    config={
        "system_instruction": "Only output the translated text"
    },
    contents=f"Translate the following text to German: {text}"
)

print(response.text)

Transcrição: processe gravações, notas de voz ou qualquer conteúdo de áudio em que você precise de uma transcrição de texto sem criar um pipeline separado de conversão de voz em texto. Compatível com entradas multimodais, para que você possa transmitir arquivos de áudio diretamente para transcrição:

# URL = "https://storage.googleapis.com/generativeai-downloads/data/State_of_the_Union_Address_30_January_1961.mp3"

# Upload the audio file to the GenAI File API
uploaded_file = client.files.upload(file='sample.mp3')

prompt = 'Generate a transcript of the audio.'

response = client.models.generate_content(
  model="gemini-3.1-flash-lite-preview",
  contents=[prompt, uploaded_file]
)

print(response.text)

Tarefas de agente e extração de dados leves: extração de entidades, classificação e pipelines de processamento de dados leves com saída JSON estruturada. Por exemplo, extrair dados estruturados de uma avaliação do cliente de e-commerce:

from pydantic import BaseModel, Field

prompt = "Analyze the user review and determine the aspect, sentiment score, summary quote, and return risk"
input_text = "The boots look amazing and the leather is high quality, but they run way too small. I'm sending them back."

class ReviewAnalysis(BaseModel):
    aspect: str = Field(description="The feature mentioned (e.g., Price, Comfort, Style, Shipping)")
    summary_quote: str = Field(description="The specific phrase from the review about this aspect")
    sentiment_score: int = Field(description="1 to 5 (1=worst, 5=best)")
    is_return_risk: bool = Field(description="True if the user mentions returning the item")

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents=[prompt, input_text],
    config={
        "response_mime_type": "application/json",
        "response_json_schema": ReviewAnalysis.model_json_schema(),
    },
)

print(response.text)

Processamento e resumo de documentos: analise PDFs e retorne resumos concisos, como para criar um pipeline de processamento de documentos ou triar rapidamente arquivos recebidos:

import httpx

# Download a sample PDF document
doc_url = "https://storage.googleapis.com/generativeai-downloads/data/med_gemini.pdf"
doc_data = httpx.get(doc_url).content

prompt = "Summarize this document"
response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents=[
        types.Part.from_bytes(
            data=doc_data,
            mime_type='application/pdf',
        ),
        prompt
    ]
)

print(response.text)

Roteamento de modelo: use um modelo de baixa latência e baixo custo como um classificador que roteia consultas para o modelo apropriado com base na complexidade da tarefa. Esse é um padrão real em produção. A CLI do Gemini de código aberto usa o Flash-Lite para classificar a complexidade das tarefas e encaminhar para o Flash ou o Pro de acordo com a necessidade.

FLASH_MODEL = 'flash'
PRO_MODEL = 'pro'

CLASSIFIER_SYSTEM_PROMPT = f"""
You are a specialized Task Routing AI. Your sole function is to analyze the user's request and classify its complexity. Choose between `{FLASH_MODEL}` (SIMPLE) or `{PRO_MODEL}` (COMPLEX).
1.  `{FLASH_MODEL}`: A fast, efficient model for simple, well-defined tasks.
2.  `{PRO_MODEL}`: A powerful, advanced model for complex, open-ended, or multi-step tasks.

A task is COMPLEX if it meets ONE OR MORE of the following criteria:
1.  High Operational Complexity (Est. 4+ Steps/Tool Calls)
2.  Strategic Planning and Conceptual Design
3.  High Ambiguity or Large Scope
4.  Deep Debugging and Root Cause Analysis

A task is SIMPLE if it is highly specific, bounded, and has Low Operational Complexity (Est. 1-3 tool calls).
"""

user_input = "I'm getting an error 'Cannot read property 'map' of undefined' when I click the save button. Can you fix it?"

response_schema = {
  "type": "object",
  "properties": {
    "reasoning": {
      "type": "string",
      "description": "A brief, step-by-step explanation for the model choice, referencing the rubric."
    },
    "model_choice": {
      "type": "string",
      "enum": [FLASH_MODEL, PRO_MODEL]
    }
  },
  "required": ["reasoning", "model_choice"]
}

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents=user_input,
    config={
        "system_instruction": CLASSIFIER_SYSTEM_PROMPT,
        "response_mime_type": "application/json",
        "response_json_schema": response_schema
    },
)

print(response.text)

Raciocínio: para melhorar a acurácia de tarefas que se beneficiam do raciocínio detalhado, configure o raciocínio para que o modelo gaste mais computação no raciocínio interno antes de produzir a saída final:

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="How does AI work?",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="high")
    ),
)

print(response.text)