Gemini 3.1 Flash-Lite (Vorabversion)

Unser kostengünstigstes multimodales Modell mit der schnellsten Leistung für häufige, einfache Aufgaben. Gemini 3.1 Flash-Lite eignet sich am besten für umfangreiche Agentenaufgaben, einfache Datenextraktion und Anwendungen mit extrem niedriger Latenz, bei denen Budget und Geschwindigkeit die wichtigsten Einschränkungen sind.

gemini-3.1-flash-lite-preview

Attribut Beschreibung
Modellcode gemini-3.1-flash-lite-preview
Unterstützte Datentypen

Eingaben

Text, Bild, Video, Audio und PDF

Ausgabe

Text

Token limits[*]

Tokenlimit für Eingaben

1.048.576

Tokenlimit für Ausgaben

65.536

Funktionen

Audioerstellung

Nicht unterstützt

Batch API

Unterstützt

Caching

Unterstützt

Codeausführung

Unterstützt

Computerverwendung

Nicht unterstützt

Dateisuche

Unterstützt

Flex-Inferenz

Unterstützt

Funktionsaufrufe

Unterstützt

Fundierung mit Google Maps

Unterstützt

Bildgenerierung

Nicht unterstützt

Live API

Nicht unterstützt

Prioritätsinferenz

Unterstützt

Suchfundierung

Unterstützt

Strukturierte Ausgaben

Unterstützt

Überlegung

Unterstützt

URL-Kontext

Unterstützt

Versionen
Weitere Informationen finden Sie unter Modellversionsmuster.
  • Preview: gemini-3.1-flash-lite-preview
Letzte Aktualisierung März 2026
Wissensstichtag Januar 2025

Entwicklerleitfaden

Gemini 3.1 Flash-Lite eignet sich am besten für die Verarbeitung einfacher Aufgaben in großem Umfang. Hier sind einige Anwendungsfälle, die sich am besten für Gemini 3.1 Flash-Lite eignen:

  • Übersetzung: Schnelle, kostengünstige Übersetzung großer Mengen, z. B. Verarbeitung von Chatnachrichten, Rezensionen und Supporttickets in großem Umfang. Mit Systemanweisungen können Sie die Ausgabe auf den übersetzten Text ohne zusätzliche Kommentare beschränken:

    text = "Hey, are you down to grab some pizza later? I'm starving!"
    
    response = client.models.generate_content(
        model="gemini-3.1-flash-lite-preview",
        config={
            "system_instruction": "Only output the translated text"
        },
        contents=f"Translate the following text to German: {text}"
    )
    
    print(response.text)
    
  • Transkription: Verarbeiten Sie Aufnahmen, Sprachnotizen oder beliebige Audioinhalte für die Sie ein Texttranskript benötigen, ohne eine separate Speech-to-Text-Pipeline zu erstellen. Unterstützt multimodale Eingaben, sodass Sie Audiodateien direkt zur Transkription übergeben können:

    # URL = "https://storage.googleapis.com/generativeai-downloads/data/State_of_the_Union_Address_30_January_1961.mp3"
    
    # Upload the audio file to the GenAI File API
    uploaded_file = client.files.upload(file='sample.mp3')
    
    prompt = 'Generate a transcript of the audio.'
    
    response = client.models.generate_content(
      model="gemini-3.1-flash-lite-preview",
      contents=[prompt, uploaded_file]
    )
    
    print(response.text)
    
  • Einfache Agentenaufgaben und Datenextraktion: Entitätsextraktion, Klassifizierung und einfache Datenverarbeitungspipelines werden mit strukturierter JSON-Ausgabe unterstützt. Beispiel: Extrahieren strukturierter Daten aus einer E-Commerce-Kundenrezension:

    from pydantic import BaseModel, Field
    
    prompt = "Analyze the user review and determine the aspect, sentiment score, summary quote, and return risk"
    input_text = "The boots look amazing and the leather is high quality, but they run way too small. I'm sending them back."
    
    class ReviewAnalysis(BaseModel):
        aspect: str = Field(description="The feature mentioned (e.g., Price, Comfort, Style, Shipping)")
        summary_quote: str = Field(description="The specific phrase from the review about this aspect")
        sentiment_score: int = Field(description="1 to 5 (1=worst, 5=best)")
        is_return_risk: bool = Field(description="True if the user mentions returning the item")
    
    response = client.models.generate_content(
        model="gemini-3.1-flash-lite-preview",
        contents=[prompt, input_text],
        config={
            "response_mime_type": "application/json",
            "response_json_schema": ReviewAnalysis.model_json_schema(),
        },
    )
    
    print(response.text)
    
  • Dokumentverarbeitung und Zusammenfassung: PDFs parsen und prägnante Zusammenfassungen zurückgeben, z. B. zum Erstellen einer Dokumentverarbeitungspipeline oder zum schnellen Triage eingehender Dateien:

    import httpx
    
    # Download a sample PDF document
    doc_url = "https://storage.googleapis.com/generativeai-downloads/data/med_gemini.pdf"
    doc_data = httpx.get(doc_url).content
    
    prompt = "Summarize this document"
    response = client.models.generate_content(
        model="gemini-3.1-flash-lite-preview",
        contents=[
            types.Part.from_bytes(
                data=doc_data,
                mime_type='application/pdf',
            ),
            prompt
        ]
    )
    
    print(response.text)
    
  • Modellrouting: Verwenden Sie ein Modell mit niedriger Latenz und geringen Kosten als Klassifikator, der Abfragen basierend auf der Aufgabenkomplexität an das entsprechende Modell weiterleitet. Dies ist ein echtes Muster in der Produktion. Die Open-Source-Gemini CLI verwendet Flash-Lite, um die Aufgabenkomplexität zu klassifizieren und Anfragen entsprechend an Flash oder Pro weiterzuleiten.

    FLASH_MODEL = 'flash'
    PRO_MODEL = 'pro'
    
    CLASSIFIER_SYSTEM_PROMPT = f"""
    You are a specialized Task Routing AI. Your sole function is to analyze the user's request and classify its complexity. Choose between `{FLASH_MODEL}` (SIMPLE) or `{PRO_MODEL}` (COMPLEX).
    1.  `{FLASH_MODEL}`: A fast, efficient model for simple, well-defined tasks.
    2.  `{PRO_MODEL}`: A powerful, advanced model for complex, open-ended, or multi-step tasks.
    
    A task is COMPLEX if it meets ONE OR MORE of the following criteria:
    1.  High Operational Complexity (Est. 4+ Steps/Tool Calls)
    2.  Strategic Planning and Conceptual Design
    3.  High Ambiguity or Large Scope
    4.  Deep Debugging and Root Cause Analysis
    
    A task is SIMPLE if it is highly specific, bounded, and has Low Operational Complexity (Est. 1-3 tool calls).
    """
    
    user_input = "I'm getting an error 'Cannot read property 'map' of undefined' when I click the save button. Can you fix it?"
    
    response_schema = {
      "type": "object",
      "properties": {
        "reasoning": {
          "type": "string",
          "description": "A brief, step-by-step explanation for the model choice, referencing the rubric."
        },
        "model_choice": {
          "type": "string",
          "enum": [FLASH_MODEL, PRO_MODEL]
        }
      },
      "required": ["reasoning", "model_choice"]
    }
    
    response = client.models.generate_content(
        model="gemini-3.1-flash-lite-preview",
        contents=user_input,
        config={
            "system_instruction": CLASSIFIER_SYSTEM_PROMPT,
            "response_mime_type": "application/json",
            "response_json_schema": response_schema
        },
    )
    
    print(response.text)
    
  • Überlegung: Um die Genauigkeit bei Aufgaben zu verbessern, die von einer schrittweisen Argumentation profitieren, konfigurieren Sie die Überlegung so, dass das Modell zusätzliche Rechenleistung für die interne Argumentation aufwendet, bevor es die endgültige Ausgabe erstellt:

    response = client.models.generate_content(
        model="gemini-3.1-flash-lite-preview",
        contents="How does AI work?",
        config=types.GenerateContentConfig(
            thinking_config=types.ThinkingConfig(thinking_level="high")
        ),
    )
    
    print(response.text)