Nosso modelo multimodal mais econômico, que oferece a performance mais rápida para tarefas leves e de alta frequência. O Gemini 3.1 Flash-Lite é ideal para tarefas de grande volume de agentes, extração de dados simples e aplicativos de latência extremamente baixa em que o orçamento e a velocidade são as principais restrições.
gemini-3.1-flash-lite-preview
| Propriedade | Descrição |
|---|---|
| Código do modelo | gemini-3.1-flash-lite-preview |
| Tipos de dados aceitos |
Entradas (link em inglês) Texto, imagem, vídeo, áudio e PDF Saída Texto |
| Limites de token[*] |
Limite de tokens de entrada 1.048.576 Limite de token de saída 65.536 |
| Recursos |
Geração de áudio incompatível API Batch Compatível Armazenamento em cache Compatível Execução de código Compatível Uso do computador incompatível Pesquisa de arquivos Compatível Chamadas de função Compatível Embasamento com o Google Maps incompatível Geração de imagens incompatível API Live incompatível Pesquisar conteúdo de embasamento Compatível Respostas estruturadas Compatível Pensamento Compatível Contexto do URL Compatível |
| Versões |
|
| Última atualização | Março de 2026 |
| Limite de conhecimento | Janeiro de 2025 |
Guia para desenvolvedores
O Gemini 3.1 Flash Lite é ideal para lidar com tarefas simples em grande escala. Confira alguns casos de uso mais adequados para o Gemini 3.1 Flash-Lite:
Tradução: tradução rápida, barata e de alto volume, como o processamento de mensagens de chat, avaliações e tíquetes de suporte em grande escala. Você pode usar instruções do sistema para restringir a saída apenas ao texto traduzido, sem comentários extras:
text = "Hey, are you down to grab some pizza later? I'm starving!" response = client.models.generate_content( model="gemini-3.1-flash-lite-preview", config={ "system_instruction": "Only output the translated text" }, contents=f"Translate the following text to German: {text}" ) print(response.text)Transcrição: processe gravações, notas de voz ou qualquer conteúdo de áudio em que você precise de uma transcrição de texto sem criar um pipeline separado de conversão de voz em texto. Compatível com entradas multimodais, para que você possa transmitir arquivos de áudio diretamente para transcrição:
# URL = "https://storage.googleapis.com/generativeai-downloads/data/State_of_the_Union_Address_30_January_1961.mp3" # Upload the audio file to the GenAI File API uploaded_file = client.files.upload(file='sample.mp3') prompt = 'Generate a transcript of the audio.' response = client.models.generate_content( model="gemini-3.1-flash-lite-preview", contents=[prompt, uploaded_file] ) print(response.text)Tarefas de agente e extração de dados leves: extração de entidades, classificação e pipelines de processamento de dados leves compatíveis com saída JSON estruturada. Por exemplo, extrair dados estruturados de uma avaliação de cliente de e-commerce:
from pydantic import BaseModel, Field prompt = "Analyze the user review and determine the aspect, sentiment score, summary quote, and return risk" input_text = "The boots look amazing and the leather is high quality, but they run way too small. I'm sending them back." class ReviewAnalysis(BaseModel): aspect: str = Field(description="The feature mentioned (e.g., Price, Comfort, Style, Shipping)") summary_quote: str = Field(description="The specific phrase from the review about this aspect") sentiment_score: int = Field(description="1 to 5 (1=worst, 5=best)") is_return_risk: bool = Field(description="True if the user mentions returning the item") response = client.models.generate_content( model="gemini-3.1-flash-lite-preview", contents=[prompt, input_text], config={ "response_mime_type": "application/json", "response_json_schema": ReviewAnalysis.model_json_schema(), }, ) print(response.text)Processamento e resumo de documentos: analise PDFs e retorne resumos concisos, como para criar um pipeline de processamento de documentos ou triar rapidamente arquivos recebidos:
import httpx # Download a sample PDF document doc_url = "https://storage.googleapis.com/generativeai-downloads/data/med_gemini.pdf" doc_data = httpx.get(doc_url).content prompt = "Summarize this document" response = client.models.generate_content( model="gemini-3.1-flash-lite-preview", contents=[ types.Part.from_bytes( data=doc_data, mime_type='application/pdf', ), prompt ] ) print(response.text)Roteamento de modelo: use um modelo de baixa latência e baixo custo como um classificador que roteia consultas para o modelo apropriado com base na complexidade da tarefa. Esse é um padrão real em produção. A CLI do Gemini de código aberto usa o Flash-Lite para classificar a complexidade das tarefas e encaminhar para o Flash ou o Pro de acordo com a necessidade.
FLASH_MODEL = 'flash' PRO_MODEL = 'pro' CLASSIFIER_SYSTEM_PROMPT = f""" You are a specialized Task Routing AI. Your sole function is to analyze the user's request and classify its complexity. Choose between `{FLASH_MODEL}` (SIMPLE) or `{PRO_MODEL}` (COMPLEX). 1. `{FLASH_MODEL}`: A fast, efficient model for simple, well-defined tasks. 2. `{PRO_MODEL}`: A powerful, advanced model for complex, open-ended, or multi-step tasks. A task is COMPLEX if it meets ONE OR MORE of the following criteria: 1. High Operational Complexity (Est. 4+ Steps/Tool Calls) 2. Strategic Planning and Conceptual Design 3. High Ambiguity or Large Scope 4. Deep Debugging and Root Cause Analysis A task is SIMPLE if it is highly specific, bounded, and has Low Operational Complexity (Est. 1-3 tool calls). """ user_input = "I'm getting an error 'Cannot read property 'map' of undefined' when I click the save button. Can you fix it?" response_schema = { "type": "object", "properties": { "reasoning": { "type": "string", "description": "A brief, step-by-step explanation for the model choice, referencing the rubric." }, "model_choice": { "type": "string", "enum": [FLASH_MODEL, PRO_MODEL] } }, "required": ["reasoning", "model_choice"] } response = client.models.generate_content( model="gemini-3.1-flash-lite-preview", contents=user_input, config={ "system_instruction": CLASSIFIER_SYSTEM_PROMPT, "response_mime_type": "application/json", "response_json_schema": response_schema }, ) print(response.text)Raciocínio: para melhorar a precisão em tarefas que se beneficiam de um raciocínio detalhado, configure o raciocínio para que o modelo gaste mais computação em raciocínio interno antes de produzir a saída final:
response = client.models.generate_content( model="gemini-3.1-flash-lite-preview", contents="How does AI work?", config=types.GenerateContentConfig( thinking_config=types.ThinkingConfig(thinking_level="high") ), ) print(response.text)