Gemini 3.1 Flash-Lite 프리뷰

가장 비용 효율적인 멀티모달 모델로, 빈도가 높고 가벼운 작업에 가장 빠른 성능을 제공합니다. Gemini 3.1 Flash-Lite는 대량의 에이전트 작업, 간단한 데이터 추출, 예산과 속도가 기본 제약 조건인 매우 짧은 지연 시간 애플리케이션에 가장 적합합니다.

gemini-3.1-flash-lite-preview

속성 설명
모델 코드 gemini-3.1-flash-lite-preview
지원되는 데이터 유형

입력

텍스트, 이미지, 동영상, 오디오, PDF

출력

텍스트

토큰 한도[*]

입력 토큰 한도

1,048,576

출력 토큰 한도

65,536

기능

오디오 생성

지원되지 않음

Batch API

지원됨

캐싱

지원됨

코드 실행

지원됨

컴퓨터 사용

지원되지 않음

파일 검색

지원됨

함수 호출

지원됨

Google 지도 그라운딩

지원되지 않음

이미지 생성

지원되지 않음

Live API

지원되지 않음

검색 그라운딩

지원됨

구조화된 출력

지원됨

사고

지원됨

URL 컨텍스트

지원됨

버전
자세한 내용은 모델 버전 패턴을 참고하세요.
  • Preview: gemini-3.1-flash-lite-preview
최신 업데이트 2026년 3월
지식 단절 2025년 1월

개발자 가이드

Gemini 3.1 Flash-Lite는 대규모의 간단한 작업을 처리하는 데 가장 적합합니다. 다음은 Gemini 3.1 Flash-Lite에 가장 적합한 사용 사례입니다.

  • 번역: 대규모로 채팅 메시지, 리뷰, 지원 티켓을 처리하는 등 빠르고 저렴하며 대량의 번역 시스템 명령어를 사용하여 추가 해설 없이 번역된 텍스트만 출력하도록 제한할 수 있습니다.

    text = "Hey, are you down to grab some pizza later? I'm starving!"
    
    response = client.models.generate_content(
        model="gemini-3.1-flash-lite-preview",
        config={
            "system_instruction": "Only output the translated text"
        },
        contents=f"Translate the following text to German: {text}"
    )
    
    print(response.text)
    
  • 스크립트 작성: 별도의 음성-텍스트 파이프라인을 실행하지 않고 텍스트 스크립트가 필요한 녹음 파일, 음성 메모 또는 오디오 콘텐츠를 처리합니다. 멀티모달 입력을 지원하므로 스크립트 작성을 위해 오디오 파일을 직접 전달할 수 있습니다.

    # URL = "https://storage.googleapis.com/generativeai-downloads/data/State_of_the_Union_Address_30_January_1961.mp3"
    
    # Upload the audio file to the GenAI File API
    uploaded_file = client.files.upload(file='sample.mp3')
    
    prompt = 'Generate a transcript of the audio.'
    
    response = client.models.generate_content(
      model="gemini-3.1-flash-lite-preview",
      contents=[prompt, uploaded_file]
    )
    
    print(response.text)
    
  • 경량 에이전트 작업 및 데이터 추출: 구조화된 JSON 출력을 통해 지원되는 엔티티 추출, 분류, 경량 데이터 처리 파이프라인 예를 들어 전자상거래 고객 리뷰에서 구조화된 데이터를 추출하는 경우:

    from pydantic import BaseModel, Field
    
    prompt = "Analyze the user review and determine the aspect, sentiment score, summary quote, and return risk"
    input_text = "The boots look amazing and the leather is high quality, but they run way too small. I'm sending them back."
    
    class ReviewAnalysis(BaseModel):
        aspect: str = Field(description="The feature mentioned (e.g., Price, Comfort, Style, Shipping)")
        summary_quote: str = Field(description="The specific phrase from the review about this aspect")
        sentiment_score: int = Field(description="1 to 5 (1=worst, 5=best)")
        is_return_risk: bool = Field(description="True if the user mentions returning the item")
    
    response = client.models.generate_content(
        model="gemini-3.1-flash-lite-preview",
        contents=[prompt, input_text],
        config={
            "response_mime_type": "application/json",
            "response_json_schema": ReviewAnalysis.model_json_schema(),
        },
    )
    
    print(response.text)
    
  • 문서 처리 및 요약: PDF를 파싱하고 간결한 요약을 반환합니다. 문서 처리 파이프라인을 빌드하거나 수신 파일을 빠르게 분류하는 데 유용합니다.

    import httpx
    
    # Download a sample PDF document
    doc_url = "https://storage.googleapis.com/generativeai-downloads/data/med_gemini.pdf"
    doc_data = httpx.get(doc_url).content
    
    prompt = "Summarize this document"
    response = client.models.generate_content(
        model="gemini-3.1-flash-lite-preview",
        contents=[
            types.Part.from_bytes(
                data=doc_data,
                mime_type='application/pdf',
            ),
            prompt
        ]
    )
    
    print(response.text)
    
  • 모델 라우팅: 작업 복잡성에 따라 쿼리를 적절한 모델로 라우팅하는 분류자로 지연 시간이 짧고 비용이 저렴한 모델을 사용합니다. 이는 프로덕션의 실제 패턴입니다. 오픈소스 Gemini CLI는 Flash-Lite를 사용하여 작업 복잡성을 분류하고 이에 따라 Flash 또는 Pro로 라우팅합니다.

    FLASH_MODEL = 'flash'
    PRO_MODEL = 'pro'
    
    CLASSIFIER_SYSTEM_PROMPT = f"""
    You are a specialized Task Routing AI. Your sole function is to analyze the user's request and classify its complexity. Choose between `{FLASH_MODEL}` (SIMPLE) or `{PRO_MODEL}` (COMPLEX).
    1.  `{FLASH_MODEL}`: A fast, efficient model for simple, well-defined tasks.
    2.  `{PRO_MODEL}`: A powerful, advanced model for complex, open-ended, or multi-step tasks.
    
    A task is COMPLEX if it meets ONE OR MORE of the following criteria:
    1.  High Operational Complexity (Est. 4+ Steps/Tool Calls)
    2.  Strategic Planning and Conceptual Design
    3.  High Ambiguity or Large Scope
    4.  Deep Debugging and Root Cause Analysis
    
    A task is SIMPLE if it is highly specific, bounded, and has Low Operational Complexity (Est. 1-3 tool calls).
    """
    
    user_input = "I'm getting an error 'Cannot read property 'map' of undefined' when I click the save button. Can you fix it?"
    
    response_schema = {
      "type": "object",
      "properties": {
        "reasoning": {
          "type": "string",
          "description": "A brief, step-by-step explanation for the model choice, referencing the rubric."
        },
        "model_choice": {
          "type": "string",
          "enum": [FLASH_MODEL, PRO_MODEL]
        }
      },
      "required": ["reasoning", "model_choice"]
    }
    
    response = client.models.generate_content(
        model="gemini-3.1-flash-lite-preview",
        contents=user_input,
        config={
            "system_instruction": CLASSIFIER_SYSTEM_PROMPT,
            "response_mime_type": "application/json",
            "response_json_schema": response_schema
        },
    )
    
    print(response.text)
    
  • 사고: 단계별 추론의 이점을 누릴 수 있는 작업의 정확성을 높이려면 모델이 최종 출력을 생성하기 전에 내부 추론에 추가 컴퓨팅을 사용하도록 사고를 구성하세요.

    response = client.models.generate_content(
        model="gemini-3.1-flash-lite-preview",
        contents="How does AI work?",
        config=types.GenerateContentConfig(
            thinking_config=types.ThinkingConfig(thinking_level="high")
        ),
    )
    
    print(response.text)