Gemini की Deep Research की सुविधा अब झलक के तौर पर उपलब्ध है. इसमें साथ मिलकर प्लान बनाने, विज़ुअलाइज़ेशन, एमसीपी के साथ काम करने की सुविधा वगैरह शामिल है.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini 3.5 Flash में नया क्या है

ध्यान दें: आपको इस पेज का generateContent वर्शन दिख रहा है. नए प्रोजेक्ट के लिए, हमारा सुझाव है कि आप नए Interactions API (बीटा वर्शन) का इस्तेमाल करें. इसे एजेंटिक वर्कफ़्लो, बैकग्राउंड टास्क, और Gemini की आने वाली सुविधाओं के लिए बनाया गया है.

Gemini 3.5 Flash, सामान्य रूप से उपलब्ध (जीए) है. यह स्टेबल है और बड़े पैमाने पर प्रोडक्शन के लिए तैयार है. यह हमारा सबसे इंटेलिजेंट Flash मॉडल है. यह एजेंटिक एक्ज़ीक्यूशन, कोडिंग, और लंबे समय तक चलने वाले कामों में, बड़े पैमाने पर बेहतरीन परफ़ॉर्मेंस देता है.

इस गाइड में, Gemini 3.5 Flash में किए गए सुधारों, एपीआई में हुए बदलावों, और माइग्रेशन के बारे में जानकारी दी गई है.

नया मॉडल

मॉडल	मॉडल आईडी	ब्यौरा
Gemini 3.5 Flash	`gemini-3.5-flash`	यह हमारा सबसे बेहतरीन मॉडल है. यह एजेंटिक और कोडिंग से जुड़े कामों को लगातार बेहतर तरीके से पूरा करता है.

Gemini 3.5 Flash में 10 लाख टोकन वाली कॉन्टेक्स्ट विंडो और ज़्यादा से ज़्यादा 65 हज़ार आउटपुट टोकन इस्तेमाल किए जा सकते हैं. साथ ही, इसमें सोचने की क्षमता और Gemini 3 Flash की तरह ही टूल और प्लैटफ़ॉर्म की सुविधाएं मिलती हैं. फ़िलहाल, कंप्यूटर का इस्तेमाल करने की सुविधा उपलब्ध नहीं है.

पूरी जानकारी के लिए, मॉडल की खास जानकारी देखें. कीमत की जानकारी के लिए, कीमत तय करने से जुड़ा पेज देखें.

क्विकस्टार्ट

इस गाइड में दिए गए सभी उदाहरणों में, GenerateContent API का इस्तेमाल किया गया है. इंटरैक्शन एपीआई भी काम करता है. इसके लिए, कॉन्फ़िगरेशन के वही विकल्प और सुझाव लागू होते हैं.

Python

from google import genai

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Explain how parallel agentic execution works in three sentences.",
)
print(response.text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const response = await ai.models.generateContent({
    model: "gemini-3.5-flash",
    contents: "Explain how parallel agentic execution works in three sentences.",
  });
  console.log(response.text);
}

main();

REST

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [{
      "parts": [{"text": "Explain how parallel agentic execution works in three sentences."}]
    }]
  }'

नया क्या है

बेहतरीन परफ़ॉर्मेंस: हमारा सबसे बेहतरीन Flash मॉडल, एजेंटिक और कोडिंग से जुड़े कामों को बड़े पैमाने पर करने के लिए ऑप्टिमाइज़ किया गया है.
एजेंट की तरह काम करना: सब-एजेंट को डिप्लॉय करना, समस्याओं को हल करना, और बड़े पैमाने पर एजेंट की तरह काम करने वाले लूप को तेज़ी से लागू करना.
कोडिंग: कोडिंग के साइकल को दोहराना, तेज़ी से एक्सप्लोर करना, और प्रोटोटाइप बनाना, ताकि अलग-अलग पाथ को टेस्ट किया जा सके और डाइनैमिक तरीके से समाधानों को एक्सप्लोर किया जा सके.
लंबे समय तक: कई चरणों वाले वर्कफ़्लो और बड़े पैमाने पर टूल का इस्तेमाल.
सोच को बनाए रखना: मॉडल, कई बार की गई बातचीत के दौरान, बीच-बीच में की गई तर्कों को अपने-आप बनाए रखता है. इसके लिए, एपीआई में कोई बदलाव करने की ज़रूरत नहीं होती.
डिफ़ॉल्ट तौर पर सेट किया गया नया एफर्ट लेवल: डिफ़ॉल्ट थिंकिंग एफर्ट लेवल को high से बदलकर medium कर दिया गया है. ज़्यादा जानकारी के लिए, डिफ़ॉल्ट तौर पर सेट किया गया नया एफर्ट लेवल देखें.
low की सोचने की क्षमता में सुधार: low की सोचने की क्षमता में अब काफ़ी सुधार हुआ है. यह कोड और एजेंट से जुड़े ऐसे टास्क के लिए बेहतर है जिन्हें पूरा करने के लिए कम चरणों की ज़रूरत होती है. यह कम समय और लागत में बेहतर क्वालिटी देता है.
जीए रिलीज़: बड़े पैमाने पर प्रोडक्शन के लिए स्टेबल मॉडल.

सही फ़्लैश मॉडल चुनना

Gemini 3.5 Flash, हमारा सबसे ऐडवांस और बेहतरीन Flash मॉडल है. हालांकि, अलग-अलग इस्तेमाल के मामलों में, लागत और इंतज़ार के समय से जुड़ी अलग-अलग ज़रूरतें हो सकती हैं.

Gemini 3.1 Flash-Lite: कम लागत वाले, ज़्यादा वॉल्यूम वाले कामों के लिए जिनमें 3.5 Flash की तरह ऐडवांस रीज़निंग की गहराई की ज़रूरत नहीं होती, हमारा सुझाव है कि आप Gemini 3.1 Flash-Lite का इस्तेमाल करें. यह एक भरोसेमंद, लंबे समय तक काम करने वाला मॉडल है जिसे बेहतर तरीके से काम करने के लिए ऑप्टिमाइज़ किया गया है. ज़्यादा जानकारी के लिए, Flash-Lite डेवलपर गाइड देखें.
Gemini 3 Flash की झलक: हम सुझाव देते हैं कि आप 3.5 Flash पर माइग्रेट करें, ताकि आपको GA की स्थिरता और बेहतर तर्क क्षमता मिल सके. हालांकि, Gemini 3 Flash (Preview) उन डेवलपर के लिए उपलब्ध रहेगा जो झलक वाले मॉडल के साथ टेस्टिंग जारी रखना चाहते हैं.

व्यवहार में बदलाव

डिफ़ॉल्ट तौर पर तय किया गया नया प्रयास लेवल: `medium`

सोचने की डिफ़ॉल्ट क्षमता अब medium है. Gemini 3 Flash Preview में यह high थी. medium, कई तरह के टास्क के लिए बहुत अच्छे नतीजे देता है. साथ ही, यह ज़्यादा तेज़ और किफ़ायती है. मुश्किल समस्याओं के लिए, high मॉडल को ज़्यादा गहराई से सोचने के लिए बढ़ावा देता है.

कोशिश का लेवल	कब इस्तेमाल करें
`minimal`	जवाब देने में लगने वाले समय को कम करने के लिए ऑप्टिमाइज़ किया गया है. चैट जैसे इस्तेमाल के उदाहरण, तथ्यों के बारे में तुरंत जवाब पाना, टूल कॉल को आसान बनाना.
`low`	कोडिंग और एजेंटिक टास्क के लिए, जिसमें इंतज़ार का समय कम हो और कम चरणों में काम पूरा हो जाए. यह विश्लेषण और लिखने से जुड़े उन टास्क के लिए भी अच्छी तरह से काम करता है जिनमें कुछ सोचने की ज़रूरत होती है.
`medium` (डिफ़ॉल्ट)	ज़्यादातर टास्क के लिए सबसे अच्छी क्वालिटी. इसका सुझाव, जटिल कोड और एजेंटिक इस्तेमाल के उदाहरणों के लिए दिया जाता है.
`high`	यह मॉडल को गहराई से सोचने की प्रोसेस और टूल इस्तेमाल करने की ज़्यादा से ज़्यादा क्षमता देता है. यह मुश्किल गहराई से विश्लेषण, कठिन गणित के सवालों, और सबसे मुश्किल कोडिंग या एजेंट टास्क के लिए सबसे अच्छा है. इससे, एक्सटेंडेड थॉट और फ़ंक्शन कॉल की अनुमति मिलती है.

डिफ़ॉल्ट सेटिंग बदलने के लिए, अपने कॉन्फ़िगरेशन में thinking_level सेट करें:

Python

from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Prove that the square root of 2 is irrational.",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="high")
    ),
)

print(response.text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const response = await ai.models.generateContent({
    model: "gemini-3.5-flash",
    contents: "Prove that the square root of 2 is irrational.",
    config: {
      thinkingConfig: {
        thinkingLevel: "HIGH",
      },
    },
  });
  console.log(response.text);
}

main();

REST

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [{
      "parts": [{"text": "Prove that the square root of 2 is irrational."}]
    }],
    "generationConfig": {
      "thinkingConfig": {
        "thinkingLevel": "HIGH"
      }
    }
  }'

सलाह: medium से शुरुआत करें. यह ज़्यादातर टास्क के लिए सबसे अच्छी क्वालिटी देता है. बेहतर क्वालिटी के साथ तेज़ी से और कम कीमत में वीडियो जनरेट करने के लिए, low आज़माएं. रीज़निंग वाले मुश्किल सवालों के जवाब पाने, गणित के मुश्किल सवालों को हल करने या कोडिंग से जुड़ी मुश्किल चुनौतियों को हल करने के लिए, high पर स्विच करें. आसान क्वेरी में तेज़ी से जवाब पाने के लिए, minimal का इस्तेमाल करें.

इस टेबल में दिखाया गया है कि हर मॉडल के साथ, किस तरह की सोच का इस्तेमाल किया जा सकता है:

सोचने का लेवल	Gemini 3.5 Flash	Gemini 3.1 Pro	Gemini 3.1 Flash-Lite	Gemini 3 Flash	ब्यौरा
`minimal`	काम करता है	काम नहीं करता है	काम करता है (डिफ़ॉल्ट)	काम करता है	यह सेटिंग, ज़्यादातर क्वेरी के लिए "सोचने की ज़रूरत नहीं है" सेटिंग से मेल खाती है. ध्यान दें कि इस बात की गारंटी नहीं देता कि सोचने की प्रोसेस बंद है. मॉडल, मुश्किल कामों के लिए बहुत कम सोच-विचार कर सकता है.`minimal`
`low`	काम करता है	काम करता है	काम करता है	काम करता है	इससे इंतज़ार का समय और लागत कम हो जाती है.
`medium`	काम करता है (डिफ़ॉल्ट)	काम करता है	काम करता है	काम करता है	ज़्यादातर कामों के लिए, सोच-समझकर जवाब देता है.
`high`	काम करता है (डाइनैमिक)	काम करता है (डिफ़ॉल्ट, डाइनैमिक)	काम करता है (डाइनैमिक)	काम करता है (डिफ़ॉल्ट, डाइनैमिक)	इससे जवाब में ज़्यादा से ज़्यादा जानकारी शामिल की जा सकती है.

सोच को बनाए रखना

यह मॉडल, कई बार की गई बातचीत के दौरान, बीच-बीच में अपने-आप तर्क देता रहता है. बातचीत के इतिहास में मौजूद होने पर, तर्क से जुड़े कॉन्टेक्स्ट को आगे बढ़ाया जाता है. इससे, कई चरणों वाले मुश्किल टास्क को पूरा करने में मदद मिलती है. जैसे, बार-बार डीबग करना और कोड को फिर से व्यवस्थित करना. एपीआई में कोई बदलाव करने की ज़रूरत नहीं है:

इंटरैक्शन एपीआई: इसमें, बातचीत अपने-आप सेव हो जाती है. इसके काम करने के तरीके में कोई बदलाव नहीं हुआ है.
GenerateContent API: Gemini 3.5 Flash से शुरू होने वाले मॉडल, बातचीत के इतिहास में मौजूद थॉट सिग्नेचर के आधार पर, पिछले सभी टर्न के तर्क के कॉन्टेक्स्ट का इस्तेमाल करते हैं. इसे चालू करने के लिए, contents में बातचीत का पूरा इतिहास (इसमें थॉट सिग्नेचर भी शामिल हैं) पास करें. एसडीके, इसे अपने-आप हैंडल करते हैं.

Gemini 3.x में पैरामीटर से जुड़े अपडेट और सबसे सही तरीके

ये बातें, Gemini 3.5 Flash के साथ-साथ Gemini 3.x के सभी मॉडल पर लागू होती हैं.

temperature, top_p, top_k: हम डिफ़ॉल्ट वैल्यू में बदलाव न करने का सुझाव देते हैं. Gemini 3 की तर्क करने की क्षमताओं को डिफ़ॉल्ट सेटिंग के लिए ऑप्टिमाइज़ किया गया है.
thinking_budget के बजाय, thinking_level का इस्तेमाल करें.
फ़ंक्शन कॉल करने के जवाब का मेल खाना: id, name, और जवाब की संख्या, पिछले कॉल से मेल खानी चाहिए.
मल्टीमोडल फ़ंक्शन के जवाब: मल्टीमोडल कॉन्टेंट को फ़ंक्शन के जवाब में शामिल करें, न कि उसके बाहर.
फ़ंक्शन के जवाबों में इनलाइन निर्देश: इन्हें फ़ंक्शन के जवाब वाले टेक्स्ट में जोड़ा जाता है, अलग-अलग हिस्सों में नहीं.
ज़रूरत से ज़्यादा टूल कॉल कम करें: एजेंटिक वर्कफ़्लो में टूल कॉल कम करने के लिए, कम थिंकिंग लेवल का इस्तेमाल करें या सिस्टम के निर्देशों के साथ एक्सपेरिमेंट करें.

अपने कोड को अपडेट करने का तरीका जानने के लिए, यहां दिए गए सेक्शन देखें.

सैंपलिंग पैरामीटर (अब इस्तेमाल करने का सुझाव नहीं दिया जाता)

temperature, top_p, और top_k को अब Gemini 3.x के सभी मॉडल के लिए इस्तेमाल करने का सुझाव नहीं दिया जाता. Gemini 3 की तर्क करने की क्षमताओं को डिफ़ॉल्ट सेटिंग के लिए ऑप्टिमाइज़ किया गया है. सभी अनुरोधों से इन पैरामीटर को हटाएं.

# ⚠️ Remove these parameters (not recommended)
config = types.GenerateContentConfig(
    temperature=0.7,
    top_p=0.9,
    top_k=40
)

निश्चितता बनाए रखने के लिए, हमारा सुझाव है कि आप अपने इस्तेमाल के खास उदाहरण के लिए, साफ़ तौर पर नियमों के साथ सिस्टम के निर्देश तय करें.

`thinking_budget` (अब इसका सुझाव नहीं दिया जाता)

अब Gemini 3.x के सभी मॉडल में, रॉ न्यूमेरिक thinking_budget पैरामीटर का इस्तेमाल करने का सुझाव नहीं दिया जाता. इसके बजाय, thinking_level स्ट्रिंग एनम का इस्तेमाल करें.

# ⚠️ Before (not recommended)
config = types.GenerateContentConfig(
    thinking_config=types.ThinkingConfig(thinking_budget=7500)
)

# ✅ After
config = types.GenerateContentConfig(
    thinking_config=types.ThinkingConfig(thinking_level="medium")
)

उपलब्ध वैल्यू: minimal, low, medium (डिफ़ॉल्ट), और high.

फ़ंक्शन कॉलिंग: जवाब का सटीक मिलान

फ़ंक्शन के जवाबों के मेल न खाने पर, Interactions API में पहले से ही गड़बड़ी का मैसेज दिखता है. GenerateContent API में अब तक कोई गड़बड़ी नहीं हुई है. हालांकि, जवाबों के मेल न खाने की वजह से, मॉडल ज़्यादातर मामलों में finish_reason: STOP के साथ खाली जवाब देता है. हमेशा इन तरीकों का पालन करें:

आवश्यकता	विवरण
`id` को शामिल करें	हर `FunctionResponse` में, उससे जुड़े `FunctionCall` का `id` शामिल होना चाहिए
मैच `name`	जवाब में मौजूद `name`, कॉल में मौजूद `name` से मेल खाना चाहिए
मिलते-जुलते एलिमेंट की संख्या	हर `FunctionCall` के लिए, ठीक एक `FunctionResponse` वापस करें

Python

# ✅ Include matching id and name in the function response
final_response = client.models.generate_content(
    model="gemini-3.5-flash",
    config=config,
    contents=[
        *previous_contents,
        response.candidates[0].content,
        types.Content(role="user", parts=[
            types.Part.from_function_response(
                name=tool_call.name,
                response={"result": result},
                id=tool_call.id,
            )
        ]),
    ],
)

JavaScript

// ✅ Include matching id and name in the function response
const functionResponsePart = {
  functionResponse: {
    name: toolCall.name,
    response: { result: result },
    id: toolCall.id,
  },
};

const finalResponse = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: [
    ...previousContents,
    { role: "model", parts: [{ functionCall: toolCall }] },
    { role: "user", parts: [functionResponsePart] },
  ],
  config: config,
});

REST

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {"role": "user", "parts": [{"text": "..."}]},
      {"role": "model", "parts": [{"functionCall": {"name": "my_function", "args": {...}}}]},
      {"role": "user", "parts": [{"functionResponse": {"name": "my_function", "id": "call_id", "response": {"result": "..."}}}]}
    ]
  }'

टेक्स्ट, इमेज, और वीडियो वगैरह का इस्तेमाल करके की गई क्वेरी के जवाब

हम अक्सर देखते हैं कि क्लाइंट, फ़ंक्शन के जवाब के बाहर इमेज उपलब्ध कराते हैं. इससे मॉडल का व्यवहार अप्रत्याशित हो सकता है.जैसे, थॉट लीकेज. साथ ही, इससे आउटपुट की क्वालिटी भी खराब हो सकती है. इसके बजाय, मल्टीमॉडल फ़ंक्शन रिस्पॉन्स एपीआई के दस्तावेज़ में दिए गए सुझाव का पालन करें. साथ ही, फ़ंक्शन रिस्पॉन्स के उन हिस्सों में मल्टीमॉडल कॉन्टेंट शामिल करें जिन्हें आपको मॉडल को भेजना है. मॉडल, इस मल्टीमॉडल कॉन्टेंट को अपने अगले टर्न में प्रोसेस कर सकता है, ताकि ज़्यादा जानकारी वाला जवाब दिया जा सके.

Python

# ✅ Include multimodal content in the function response
final_response = client.models.generate_content(
    model="gemini-3.5-flash",
    config=config,
    contents=[
        *previous_contents,
        response.candidates[0].content,
        types.Content(role="user", parts=[
            types.Part.from_function_response(
                name=tool_call.name,
                response={
                    "result": "instrument.jpg",
                    "image": base64_image_data,
                },
                id=tool_call.id,
            )
        ]),
    ],
)

JavaScript

// ✅ Include multimodal content in the function response
const finalResponse = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: [
    ...previousContents,
    { role: "model", parts: [{ functionCall: toolCall }] },
    {
      role: "user",
      parts: [{
        functionResponse: {
          name: toolCall.name,
          id: toolCall.id,
          response: {
            result: "instrument.jpg",
            image: base64ImageData,
          },
        },
      }],
    },
  ],
  config: config,
});

फ़ंक्शन के जवाबों में इनलाइन निर्देश

हम अक्सर देखते हैं कि क्लाइंट, फ़ंक्शन के जवाबों के साथ-साथ Parts के तौर पर अतिरिक्त निर्देश देते हैं. इससे मॉडल का व्यवहार अप्रत्याशित हो सकता है. उदाहरण के लिए, थॉट लीकेज और इससे आउटपुट की क्वालिटी कम हो सकती है. इसके बजाय, फ़ंक्शन के जवाब के टेक्स्ट के आखिर में, दो नई लाइनों से अलग किए गए अतिरिक्त निर्देश जोड़ें.

Python

# ✅ Append inline instructions to the end of the function response separated by two newlines
result_text = f"{json.dumps(result)}\n\n<your inline instructions>"

final_response = client.models.generate_content(
    model="gemini-3.5-flash",
    config=config,
    contents=[
        *previous_contents,
        response.candidates[0].content,
        types.Content(role="user", parts=[
            types.Part.from_function_response(
                name=tool_call.name,
                response={"result": result_text},
                id=tool_call.id,
            )
        ]),
    ],
)

JavaScript

// ✅ Append inline instructions to the end of the function response separated by two newlines
const resultText = `${JSON.stringify(result)}\n\n<your inline instructions>`;

const finalResponse = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: [
    ...previousContents,
    { role: "model", parts: [{ functionCall: toolCall }] },
    {
      role: "user",
      parts: [{
        functionResponse: {
          name: toolCall.name,
          id: toolCall.id,
          response: { result: resultText },
        },
      }],
    },
  ],
  config: config,
});

ग़ैर-ज़रूरी टूल कॉल कम करना

अगर आपको टूल कॉल का ज़्यादा इस्तेमाल करने की समस्या आ रही है, तो इन दो तकनीकों से इसे कम किया जा सकता है:

सोचने के लेवल को कम करके शुरू करें (medium, low या minimal): सोचने के लेवल को ज़्यादा रखने पर, मॉडल को एक्सप्लोर करने और पुष्टि करने के लिए ज़्यादा टूल इस्तेमाल करने के लिए बढ़ावा मिलता है. इसलिए, लेवल को कम करने से टूल कॉल कम हो सकते हैं.
सिस्टम के लिए निर्देश जोड़ें: अगर सोचने के लेवल को अडजस्ट करने के बाद भी टूल का ज़्यादा इस्तेमाल जारी रहता है, तो ऐसा प्रॉम्प्ट इस्तेमाल करें जिससे टूल के इस्तेमाल पर पाबंदी लगाई जा सके. उदाहरण के लिए:
```
You have a limited action budget of <n> tool calls. Use them efficiently.
```

माइग्रेशन की चेकलिस्ट

Gemini 3 Flash की झलक आज़माने की सुविधा से माइग्रेट करना

मॉडल का नाम अपडेट करें: gemini-3-flash-preview → gemini-3.5-flash
कीमत देखें. Gemini 3.5 Flash, Gemini 3 Flash के मुकाबले ज़्यादा महंगा है प्रीव्यू. अगर आपको कम कीमत में मॉडल चाहिए, तो Gemini 3.1 Flash-Lite पर माइग्रेट करें. ज़्यादा जानकारी के लिए, कीमत की जानकारी देने वाला पेज देखें.
अपने कॉन्फ़िगरेशन से temperature, top_p, top_k हटाएं. अब इनका इस्तेमाल करने का सुझाव नहीं दिया जाता.
thinking_budget को thinking_level से बदलें.
FunctionResponse के सभी हिस्सों में id और उससे मिलता-जुलता name जोड़ें.
अपने प्रॉम्प्ट की जांच करें. डिफ़ॉल्ट कोशिश को high → medium में बदल दिया गया है; क्वालिटी, स्पीड, और लागत की पुष्टि करें.
सोच को बनाए रखने की सुविधा, अब डिफ़ॉल्ट रूप से चालू होती है. जवाब देने के लिए इस्तेमाल किया गया कॉन्टेक्स्ट, हर बार के जवाब में शामिल होता है. इससे परफ़ॉर्मेंस बेहतर होती है, लेकिन टोकन का इस्तेमाल बढ़ सकता है.
ज़रूरत से ज़्यादा टूल कॉल कम करें: इसके लिए, सबसे पहले सोचने के लेवल को कम करें (medium, low या minimal); अगर टूल का इस्तेमाल ज़्यादा हो रहा है, तो टूल के इस्तेमाल को सीमित करने के लिए सिस्टम निर्देश जोड़ें.
फ़िलहाल, Gemini 3.5 Flash में कंप्यूटर का इस्तेमाल मौजूद नहीं है. कंप्यूटर का इस्तेमाल करने से जुड़े वर्कलोड के लिए, Gemini 3 Flash Preview का इस्तेमाल जारी रखें.

Gemini 2.5 से माइग्रेट करना

ऊपर दी गई सभी सुविधाएं. साथ ही:

प्रॉम्प्ट को आसान बनाएं. अगर आपने सोच-समझकर एक-एक करके जवाब देने के लिए, प्रॉम्प्ट इंजीनियरिंग का इस्तेमाल किया है, तो इसके बजाय आसान प्रॉम्प्ट के साथ thinking_level: "medium" या "high" का इस्तेमाल करें.
PDF और मीडिया वर्कलोड की जांच करें. अगर आपने डेंस दस्तावेज़ पार्स करने के लिए किसी खास व्यवहार का इस्तेमाल किया है, तो media_resolution_high सेटिंग की जांच करें. इससे यह पक्का किया जा सकेगा कि नतीजे अब भी सटीक हैं. Gemini 3 के डिफ़ॉल्ट वर्शन पर माइग्रेट करने से, PDF के लिए टोकन का इस्तेमाल बढ़ सकता है. हालांकि, वीडियो के लिए यह कम हो सकता है. अगर अनुरोध, कॉन्टेक्स्ट विंडो से ज़्यादा हैं, तो media_resolution को साफ़ तौर पर कम करें. ज़्यादा जानकारी के लिए, मीडिया रिज़ॉल्यूशन से जुड़े दस्तावेज़ देखें.
एक साथ कई टूल इस्तेमाल करने की सुविधा का फ़ायदा पाएं. एक ही अनुरोध में, Google Search, यूआरएल कॉन्टेक्स्ट, कोड एक्ज़ीक्यूशन, और कस्टम फ़ंक्शन का इस्तेमाल किया जा सकता है.
अगर मल्टीमोडल फ़ंक्शन के जवाबों का इस्तेमाल किया जा रहा है, तो मल्टीमोडल कॉन्टेंट को फ़ंक्शन के जवाब वाले हिस्सों में डालें, न कि उनके साथ.
फ़ंक्शन के जवाबों के साथ इनलाइन निर्देशों का इस्तेमाल करते समय, उन्हें अलग-अलग हिस्सों के तौर पर नहीं, बल्कि दो नई लाइनों से अलग किए गए फ़ंक्शन के जवाब वाले टेक्स्ट में जोड़ें.
Gemini 3.x में इमेज सेगमेंटेशन की सुविधा काम नहीं करती. सेगमेंटेशन से जुड़े वर्कलोड के लिए, सूझ-बूझ वाली सुविधा बंद करके Gemini 2.5 Flash का इस्तेमाल जारी रखें या Gemini Robotics-ER 1.6 का इस्तेमाल करें.
अपने कॉन्फ़िगरेशन से candidate_count को हटाएं (Gemini 3.x में मौजूद नहीं है)

Gemini 3 की फ़ैमिली प्लान वाली सुविधाएं

Gemini 3.5 Flash में, Gemini 3 मॉडल फ़ैमिली की सभी क्षमताओं को शामिल किया गया है. हालांकि, इसमें कंप्यूटर इस्तेमाल करने की सुविधा नहीं है. Gemini 3 में लॉन्च की गई ये सुविधाएं, Gemini 3.5 Flash में भी उपलब्ध हैं:

सोचना: एपीआई कॉल के दौरान, एन्क्रिप्ट (सुरक्षित) किए गए तर्क के कॉन्टेक्स्ट को सुरक्षित रखा जाता है. यह सुविधा, Interactions API में अपने-आप चालू होती है. GenerateContent में यह सुविधा डिफ़ॉल्ट रूप से चालू होती है.
टूल के साथ स्ट्रक्चर्ड आउटपुट: JSON मोड को बिल्ट-इन टूल (खोज, यूआरएल कॉन्टेक्स्ट, कोड एक्ज़ीक्यूट करना, फ़ंक्शन कॉल करना) के साथ कंबाइन करें.
कई मोड में फ़ंक्शन के जवाब: फ़ंक्शन कॉल के नतीजों में इमेज, ऑडियो, और अन्य मीडिया दिखाएं.
इमेज के साथ कोड को एक्ज़ीक्यूट करना: इमेज को प्रोसेस करने और जनरेट करने वाले कोड को एक्ज़ीक्यूट करें.
एक साथ कई टूल का इस्तेमाल करना: एक ही अनुरोध में, पहले से मौजूद टूल और कस्टम फ़ंक्शन कॉलिंग का इस्तेमाल करें.
मीडिया रिज़ॉल्यूशन: इमेज, वीडियो, और PDF इनपुट के लिए टोकन के बंटवारे पर बेहतर कंट्रोल. Gemini 3 मॉडल, अलग-अलग क्वालिटी वाले कॉन्टेंट के लिए, हर कॉन्टेंट आइटम के हिसाब से रिज़ॉल्यूशन सेटिंग (low, medium, high, ultra_high) की सुविधा देते हैं.
थॉट सिग्नेचर: ये मॉडल की अंदरूनी तर्क क्षमता के एन्क्रिप्ट (सुरक्षित) किए गए वर्शन होते हैं. इनका इस्तेमाल, फ़ंक्शन को कई बार कॉल करने के लिए किया जाता है. इन्हें आधिकारिक SDK अपने-आप मैनेज करते हैं.

प्रॉम्प्ट लिखने के सबसे सही तरीके

Gemini 3.x मॉडल, रीज़निंग मॉडल हैं. इसलिए, आपको प्रॉम्प्ट देने के तरीके में बदलाव करना होगा.

सटीक निर्देश: कम से कम शब्दों में निर्देश दें. Gemini 3.x, सीधे और साफ़ तौर पर दिए गए निर्देशों का सबसे अच्छा जवाब देता है. ज़्यादा जानकारी देने वाली या मुश्किल प्रॉम्प्ट इंजीनियरिंग की ऐसी तकनीकें जो पुराने मॉडल के लिए डिज़ाइन की गई हैं उनकी वजह से, मॉडल ज़्यादा विश्लेषण कर सकता है.
जवाब में शब्दों की संख्या: डिफ़ॉल्ट रूप से, Gemini 3.x में जवाब में शब्दों की संख्या कम होती है. यह सीधे और असरदार तरीके से जवाब देता है. अगर आपको बातचीत वाली टोन में जवाब चाहिए, तो अपने प्रॉम्प्ट में मॉडल को साफ़ तौर पर निर्देश दें. उदाहरण के लिए, "इसे एक दोस्ताना, बातचीत करने वाले असिस्टेंट के तौर पर समझाओ".
कॉन्टेक्स्ट मैनेजमेंट: बड़े डेटासेट (जैसे, पूरी किताबें, कोडबेस या लंबे वीडियो) के साथ काम करते समय, अपने खास निर्देश या सवाल, प्रॉम्प्ट के आखिर में रखें. ऐसा डेटा के कॉन्टेक्स्ट के बाद करें. अपने सवाल की शुरुआत ऐसे वाक्यांश से करें जिससे मॉडल को जवाब देने के लिए, पहले दी गई जानकारी का इस्तेमाल करने के लिए कहा जा सके. जैसे, "ऊपर दी गई जानकारी के आधार पर...".

प्रॉम्प्ट इंजीनियरिंग गाइड में, प्रॉम्प्ट डिज़ाइन करने की रणनीतियों के बारे में ज़्यादा जानें.

सीमाएं

Gemini 3.x में इमेज सेगमेंटेशन की सुविधा काम नहीं करती. सेगमेंटेशन से जुड़े वर्कलोड के लिए, सूझ-बूझ वाली सुविधा बंद करके Gemini 2.5 Flash का इस्तेमाल जारी रखें या Gemini Robotics-ER 1.6 का इस्तेमाल करें.

अक्सर पूछे जाने वाले सवाल

Gemini 3.5 Flash के लिए, जानकारी अपडेट होने की आखिरी तारीख क्या है? Gemini 3.5 Flash के पास जनवरी 2025 तक का डेटा है. ज़्यादा नई जानकारी के लिए, खोज के नतीजों से जानकारी पाने वाले टूल का इस्तेमाल करें.
कॉन्टेक्स्ट विंडो की सीमाएं क्या हैं? Gemini 3.5 Flash, 10 लाख टोकन वाली कॉन्टेक्स्ट विंडो और 65 हज़ार आउटपुट टोकन के साथ काम करता है.
क्या मेरा पुराना thinking_budget कोड अब भी काम करेगा? हां, thinking_budget अब भी पुराने सिस्टम के साथ काम करता है. हालांकि, हम बेहतर परफ़ॉर्मेंस के लिए, thinking_level पर माइग्रेट करने का सुझाव देते हैं. एक ही अनुरोध में दोनों का इस्तेमाल न करें.
क्या Gemini 3.5 Flash, Batch API के साथ काम करता है? हां. ज़्यादा जानकारी के लिए, Batch API गाइड देखें.
क्या कॉन्टेक्स्ट को कैश मेमोरी में सेव करने की सुविधा काम करती है? हां, कॉन्टेक्स्ट को कैश मेमोरी में सेव करने की सुविधा काम करती है.
कौनसे टूल इस्तेमाल किए जा सकते हैं? Gemini 3.5 Flash में ये टूल इस्तेमाल किए जा सकते हैं: Google Search, Google Maps से जानकारी पाना, फ़ाइलें खोजना, कोड एक्ज़ीक्यूट करना, यूआरएल से जानकारी पाना, और स्टैंडर्ड फ़ंक्शन कॉलिंग. इनमें एक साथ कई टूल इस्तेमाल करना भी शामिल है. Gemini 3.5 Flash में कंप्यूटर का इस्तेमाल नहीं किया जा सकता.

अगले चरण

प्रॉम्प्ट इंजीनियरिंग गाइड में, प्रॉम्प्ट डिज़ाइन करने की रणनीतियों के बारे में ज़्यादा जानें.
Gemini 3 Cookbook का इस्तेमाल शुरू करना
Gemini API के ऑप्टिमाइज़ेशन और अनुमान लगाने की सुविधा के बारे में जानें

Gemini 3.5 Flash में नया क्या है

नया मॉडल

क्विकस्टार्ट

Python

JavaScript

REST

नया क्या है

सही फ़्लैश मॉडल चुनना

व्यवहार में बदलाव

डिफ़ॉल्ट तौर पर तय किया गया नया प्रयास लेवल: medium

Python

JavaScript

REST

सोच को बनाए रखना

Gemini 3.x में पैरामीटर से जुड़े अपडेट और सबसे सही तरीके

सैंपलिंग पैरामीटर (अब इस्तेमाल करने का सुझाव नहीं दिया जाता)

thinking_budget (अब इसका सुझाव नहीं दिया जाता)

फ़ंक्शन कॉलिंग: जवाब का सटीक मिलान

Python

JavaScript

REST

टेक्स्ट, इमेज, और वीडियो वगैरह का इस्तेमाल करके की गई क्वेरी के जवाब

Python

JavaScript

फ़ंक्शन के जवाबों में इनलाइन निर्देश

Python

JavaScript

ग़ैर-ज़रूरी टूल कॉल कम करना

माइग्रेशन की चेकलिस्ट

Gemini 3 Flash की झलक आज़माने की सुविधा से माइग्रेट करना

Gemini 2.5 से माइग्रेट करना

Gemini 3 की फ़ैमिली प्लान वाली सुविधाएं

प्रॉम्प्ट लिखने के सबसे सही तरीके

सीमाएं

अक्सर पूछे जाने वाले सवाल

अगले चरण

डिफ़ॉल्ट तौर पर तय किया गया नया प्रयास लेवल: `medium`

`thinking_budget` (अब इसका सुझाव नहीं दिया जाता)