Çfarë ka të re në Gemini 3.5 Flash

Gemini 3.5 Flash është përgjithësisht i disponueshëm (GA) , i qëndrueshëm dhe gati për përdorim në prodhim në shkallë të gjerë. Si modeli ynë më inteligjent i Flash, ai ofron performancë të qëndrueshme dhe të nivelit të lartë në ekzekutimin e agjentëve, kodimin dhe detyrat afatgjata në shkallë të gjerë.

Ky udhëzues përmban një përmbledhje të përmirësimeve, ndryshimeve të API-t dhe udhëzimeve për migrimin për Gemini 3.5 Flash.

Model i ri

Model ID e modelit Përshkrimi
Binjakët 3.5 Flash gemini-3.5-flash Modeli ynë më inteligjent për performancë të qëndrueshme në kufijtë e detyrave agjentike dhe të kodimit.

Gemini 3.5 Flash mbështet dritaren e kontekstit prej 1 milion tokenësh, 65 mijë tokenësh daljeje maksimale, të menduarit dhe të njëjtin grup mjetesh dhe veçorish të platformës si Gemini 3 Flash. Përdorimi i kompjuterit nuk mbështetet për momentin.

Për specifikimet e plota, shihni përmbledhjen e modeleve . Për çmimet, shihni faqen e çmimeve .

Nisje e shpejtë

Të gjitha shembujt në këtë udhëzues përdorin GenerateContent API. Mbështetet gjithashtu edhe Interactions API; zbatohen të njëjtat opsione dhe rekomandime konfigurimi.

Python

from google import genai

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Explain how parallel agentic execution works in three sentences.",
)
print(response.text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const response = await ai.models.generateContent({
    model: "gemini-3.5-flash",
    contents: "Explain how parallel agentic execution works in three sentences.",
  });
  console.log(response.text);
}

main();

PUSHTIM

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [{
      "parts": [{"text": "Explain how parallel agentic execution works in three sentences."}]
    }]
  }'

Çfarë ka të re

  • Performancë e qëndrueshme në nivel të lartë: Modeli ynë më inteligjent Flash, i optimizuar për detyra agjentike dhe kodimi në shkallë të gjerë.
  • Ekzekutimi agjentik: Vendosja e nënagjentëve, zgjidhja e problemeve dhe sythe të shpejta agjentike në shkallë të gjerë.
  • Kodimi: Ciklet e kodimit përsëritës, eksplorimi i shpejtë dhe prototipimi për të testuar shtigje alternative dhe për të eksploruar në mënyrë dinamike zgjidhjet.
  • Horizont i gjatë: Rrjedha pune me shumë hapa dhe përdorim i mjeteve në shkallë të gjerë.
  • Ruajtja e mendimit: Modeli ruan automatikisht arsyetimin e ndërmjetëm në bisedat me shumë kthesa. Nuk nevojiten ndryshime në API.
  • Niveli i ri i parazgjedhur i përpjekjes: Përpjekja e parazgjedhur e të menduarit ndryshoi nga highmedium . Shihni Niveli i ri i parazgjedhur i përpjekjes për detaje.
  • Përmirësim i të menduarit low : low tani është përmirësuar ndjeshëm për detyrat e kodit dhe ato agjentike që kërkojnë më pak hapa, duke ofruar cilësi të fortë me vonesë dhe kosto më të ulët.
  • Publikimi i GA: Model i qëndrueshëm për përdorim në prodhim të shkallëzuar.

Ndryshime në sjellje

Niveli i ri i parazgjedhur i përpjekjes: medium

Përpjekja e parazgjedhur e të menduarit tani është medium , e ndryshuar nga high në Gemini 3 Flash Preview. medium jep rezultate shumë të mira në një gamë të gjerë detyrash, ndërkohë që është më e shpejtë dhe më ekonomike nga ana e kostos. Për problemet komplekse, high e inkurajon modelin të mendojë më thellë.

Niveli i përpjekjes Kur të përdoret
minimal I optimizuar për shpejtësinë e përgjigjes. Raste përdorimi të ngjashme me bisedën, përgjigje të shpejta faktike, thirrje mjetesh më të thjeshta.
low Detyra kodi dhe agjentësh që kërkojnë vonesë më të ulët dhe më pak hapa. Gjithashtu funksionon mirë për detyrat e analizës dhe shkrimit që kërkojnë pak mendim.
medium (parazgjedhur) Cilësia më e mirë për shumicën e detyrave. Rekomandohet për raste komplekse përdorimi të kodit dhe agjentëve.
high Maksimizon aftësinë e modelit për të menduar dhe përdorur mjete. Më e mira për arsyetim kompleks, matematikë të vështirë dhe detyrat më të vështira të kodit ose agjentit. Lejon mendime të zgjeruara dhe thirrje funksionesh.

Për të anashkaluar vlerën e parazgjedhur, vendosni thinking_level në konfigurimin tuaj:

Python

from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Prove that the square root of 2 is irrational.",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="high")
    ),
)

print(response.text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const response = await ai.models.generateContent({
    model: "gemini-3.5-flash",
    contents: "Prove that the square root of 2 is irrational.",
    config: {
      thinkingConfig: {
        thinkingLevel: "HIGH",
      },
    },
  });
  console.log(response.text);
}

main();

PUSHTIM

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [{
      "parts": [{"text": "Prove that the square root of 2 is irrational."}]
    }],
    "generationConfig": {
      "thinkingConfig": {
        "thinkingLevel": "HIGH"
      }
    }
  }'

Ruajtja e mendimit

Modeli ruan automatikisht arsyetimin e ndërmjetëm në bisedat me shumë kthesa. Kur është i pranishëm në historikun e bisedës, konteksti i arsyetimit vazhdon përpara, gjë që përmirëson performancën në detyra komplekse me shumë hapa, si debugging përsëritës dhe rifaktorizim i kodit. Nuk nevojiten ndryshime në API:

  • API-ja e Ndërveprimeve : Mendimet ruhen automatikisht. Asnjë ndryshim në sjellje.
  • GenerateContent API : Duke filluar me Gemini 3.5 Flash, modeli përdor kontekstin e arsyetimit nga të gjitha kthesat e mëparshme kur nënshkrimet e mendimit janë të pranishme në historikun e bisedës. Për ta aktivizuar këtë, kaloni historikun e plotë dhe të pamodifikuar të bisedës (duke përfshirë nënshkrimet e mendimit ) në contents . SDK-të e trajtojnë këtë automatikisht.

Përditësimet e parametrave dhe praktikat më të mira në Gemini 3.x

Sa vijon vlen për të gjitha modelet Gemini 3.x , përfshirë Gemini 3.5 Flash.

  • temperature , top_p , top_k : ne rekomandojmë fuqimisht të mos ndryshoni vlerat fillestare. Aftësitë e arsyetimit të Gemini 3 janë të optimizuara për cilësimet fillestare.
  • Përdorni thinking_level në vend të thinking_budget .
  • Përputhja e përgjigjes që thirr funksionin : id , name dhe response count duhet të përputhen me thirrjet paraprake.
  • Përgjigjet e funksionit multimodal : përfshijnë përmbajtje multimodale brenda përgjigjes së funksionit, jo jashtë saj.
  • Udhëzime të brendshme në përgjigjet e funksionit : shtohen në tekstin e përgjigjes së funksionit, jo si pjesë të ndara.
  • Zvogëloni thirrjet e panevojshme të mjeteve : Përdorni nivele më të ulëta të të menduarit ose eksperimentoni me udhëzimet e sistemit për të zvogëluar thirrjet e mjeteve në rrjedhat e punës të agjentëve.

Shihni seksionet më poshtë për mënyrën e përditësimit të kodit tuaj.

Parametrat e marrjes së mostrave (nuk rekomandohen më)

temperature , top_p dhe top_k nuk rekomandohen më për të gjitha modelet Gemini 3.x. Aftësitë e arsyetimit të Gemini 3 janë optimizuar për cilësimet fillestare. Hiqni këto parametra nga të gjitha kërkesat.

# ⚠️ Remove these parameters (not recommended)
config = types.GenerateContentConfig(
    temperature=0.7,
    top_p=0.9,
    top_k=40
)

Për të siguruar determinizëm, ne rekomandojmë përcaktimin e një udhëzimi sistemi me rregulla të qarta për rastin tuaj specifik të përdorimit.

thinking_budget (nuk rekomandohet më)

Parametri numerik i papërpunuar thinking_budget nuk rekomandohet më në të gjitha modelet Gemini 3.x. Në vend të kësaj, përdorni enum-in e vargut thinking_level .

# ⚠️ Before (not recommended)
config = types.GenerateContentConfig(
    thinking_config=types.ThinkingConfig(thinking_budget=7500)
)

# ✅ After
config = types.GenerateContentConfig(
    thinking_config=types.ThinkingConfig(thinking_level="medium")
)

Vlerat e disponueshme: minimal , low , medium (parazgjedhur) dhe high .

Thirrja e funksionit: përputhje e rreptë e përgjigjes

API-ja e Interactions tashmë gabon në përgjigjet e funksioneve që nuk përputhen. API-ja e GenerateContent ende nuk gabon, por përgjigjet e papërputhshme bëjnë që modeli të kthejë përgjigje boshe me finish_reason: STOP në shumicën e rasteve. Ndiqni gjithmonë këto konventa:

Kërkesë Detajet
Përfshi id Çdo FunctionResponse duhet të përfshijë id nga FunctionCall përkatëse.
name i përputhjes name në përgjigje duhet të përputhet me name në thirrje
Numërimi i ndeshjeve Kthen saktësisht një FunctionResponse për çdo FunctionCall të marrë

Python

# ✅ Include matching id and name in the function response
final_response = client.models.generate_content(
    model="gemini-3.5-flash",
    config=config,
    contents=[
        *previous_contents,
        response.candidates[0].content,
        types.Content(role="user", parts=[
            types.Part.from_function_response(
                name=tool_call.name,
                response={"result": result},
                id=tool_call.id,
            )
        ]),
    ],
)

JavaScript

// ✅ Include matching id and name in the function response
const functionResponsePart = {
  functionResponse: {
    name: toolCall.name,
    response: { result: result },
    id: toolCall.id,
  },
};

const finalResponse = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: [
    ...previousContents,
    { role: "model", parts: [{ functionCall: toolCall }] },
    { role: "user", parts: [functionResponsePart] },
  ],
  config: config,
});

PUSHTIM

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {"role": "user", "parts": [{"text": "..."}]},
      {"role": "model", "parts": [{"functionCall": {"name": "my_function", "args": {...}}}]},
      {"role": "user", "parts": [{"functionResponse": {"name": "my_function", "id": "call_id", "response": {"result": "..."}}}]}
    ]
  }'

Përgjigjet e funksionit multimodal

Shpesh shohim klientë që ofrojnë imazhe jashtë përgjigjes së funksionit. Kjo mund të çojë në sjellje të papritur të modelit (p.sh. rrjedhje mendimi) dhe të rezultojë në rezultate me cilësi më të ulët. Në vend të kësaj, ndiqni rekomandimin në dokumentet e API-t të Përgjigjeve të Funksionit Multimodal dhe përfshini përmbajtje multimodale në pjesët e përgjigjes së funksionit që i dërgoni modelit. Modeli mund ta përpunojë këtë përmbajtje multimodale në kthesën e tij të radhës për të prodhuar një përgjigje më të informuar.

Python

# ✅ Include multimodal content in the function response
final_response = client.models.generate_content(
    model="gemini-3.5-flash",
    config=config,
    contents=[
        *previous_contents,
        response.candidates[0].content,
        types.Content(role="user", parts=[
            types.Part.from_function_response(
                name=tool_call.name,
                response={
                    "result": "instrument.jpg",
                    "image": base64_image_data,
                },
                id=tool_call.id,
            )
        ]),
    ],
)

JavaScript

// ✅ Include multimodal content in the function response
const finalResponse = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: [
    ...previousContents,
    { role: "model", parts: [{ functionCall: toolCall }] },
    {
      role: "user",
      parts: [{
        functionResponse: {
          name: toolCall.name,
          id: toolCall.id,
          response: {
            result: "instrument.jpg",
            image: base64ImageData,
          },
        },
      }],
    },
  ],
  config: config,
});

Udhëzime të integruara në përgjigjet e funksioneve

Shpesh shohim klientë që ofrojnë udhëzime shtesë së bashku me përgjigjet e funksionit si Parts pasuese. Kjo mund të çojë në sjellje të papritur të modelit (p.sh. rrjedhje mendimi) dhe të rezultojë në rezultate me cilësi më të ulët. Në vend të kësaj, shtoni çdo udhëzim shtesë në fund të tekstit të përgjigjes së funksionit të ndarë nga dy rreshta të rinj.

Python

# ✅ Append inline instructions to the end of the function response separated by two newlines
result_text = f"{json.dumps(result)}\n\n<your inline instructions>"

final_response = client.models.generate_content(
    model="gemini-3.5-flash",
    config=config,
    contents=[
        *previous_contents,
        response.candidates[0].content,
        types.Content(role="user", parts=[
            types.Part.from_function_response(
                name=tool_call.name,
                response={"result": result_text},
                id=tool_call.id,
            )
        ]),
    ],
)

JavaScript

// ✅ Append inline instructions to the end of the function response separated by two newlines
const resultText = `${JSON.stringify(result)}\n\n<your inline instructions>`;

const finalResponse = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: [
    ...previousContents,
    { role: "model", parts: [{ functionCall: toolCall }] },
    {
      role: "user",
      parts: [{
        functionResponse: {
          name: toolCall.name,
          id: toolCall.id,
          response: { result: resultText },
        },
      }],
    },
  ],
  config: config,
});

Zvogëlimi i thirrjeve të panevojshme për mjetet

Nëse përjetoni një përdorim të tepruar të thirrjeve të mjeteve, dy teknika ndihmojnë në minimizimin e tyre:

  1. Filloni duke ulur nivelin e të menduarit ( medium , low ose minimal ): Nivelet më të larta të të menduarit e inkurajojnë modelin të përdorë më shumë mjete për të eksploruar dhe verifikuar, kështu që ulja e nivelit mund të zvogëlojë thirrjet e mjeteve.

  2. Shtoni një udhëzim sistemi: Nëse përdorimi i tepërt vazhdon pas rregullimit të nivelit të të menduarit, merrni në konsideratë një kërkesë që kufizon përdorimin e mjetit. Për shembull:

    You have a limited action budget of <n> tool calls. Use them efficiently.
    

Lista e kontrollit të migrimit për migrimin

Migroni nga Gemini 3 Flash Preview

  • Përditëso emrin e modelit: gemini-3-flash-previewgemini-3.5-flash
  • Rishikoni çmimet. Gemini 3.5 Flash është më i shtrenjtë se Gemini 3 Flash Preview. Shihni faqen e çmimeve për detaje.
  • Hiqni temperature , top_p , top_k nga konfigurimi juaj (nuk rekomandohet më).
  • Zëvendëso thinking_budget me thinking_level .
  • Shto id dhe name përputhës në të gjitha pjesët e FunctionResponse .
  • Testoni kërkesat tuaja. Përpjekja e parazgjedhur ndryshoi nga highmedium ; verifikoni cilësinë, shpejtësinë dhe koston.
  • Ruajtja e mendimit tani është aktive si parazgjedhje. Konteksti i arsyetimit vazhdon nëpër raunde, gjë që përmirëson performancën, por mund të rrisë përdorimin e tokenëve.
  • Zvogëloni thirrjet e panevojshme të mjeteve: filloni duke ulur nivelin e të menduarit ( medium , low ose minimal ); shtoni një udhëzim sistemi për të kufizuar përdorimin e mjeteve nëse përdorimi i tepërt vazhdon.
  • Përdorimi i kompjuterit nuk mbështetet në Gemini 3.5 Flash për momentin. Për ngarkesat e punës së përdorimit të kompjuterit, vazhdoni të përdorni Gemini 3 Flash Preview.

Migroni nga Binjakët 2.5

Të gjitha sa më sipër, plus:

  • Thjeshtoni pyetjet. Nëse keni përdorur inxhinieri të pyetjeve të zinxhirit të mendimit për të detyruar arsyetimin, provoni thinking_level: "medium" ose "high" me pyetje më të thjeshta në vend të tyre.
  • Testoni ngarkesat e punës në PDF dhe media. Nëse jeni mbështetur në sjellje specifike për analizimin e dendur të dokumenteve, testoni cilësimin media_resolution_high për të siguruar saktësi të vazhdueshme. Migrimi në vlerat fillestare të Gemini 3 mund të rrisë gjithashtu përdorimin e token-ave për PDF-të, por ta ulë atë për videon; nëse kërkesat tejkalojnë dritaren e kontekstit, zvogëloni në mënyrë të qartë media_resolution . Shihni dokumentet e rezolucionit të medias për detaje.
  • Shfrytëzoni përdorimin e kombinuar të mjeteve . Kërkimi në Google, konteksti i URL-së, ekzekutimi i kodit dhe funksionet e personalizuara mund të përdoren në të njëjtën kërkesë.
  • Nëse përdorni përgjigje të funksioneve multimodale, zhvendosni përmbajtjen multimodale brenda pjesëve të përgjigjes së funksionit, jo përgjatë tyre.
  • Nëse përdorni udhëzime brenda rreshtit me përgjigje të funksionit, shtoji ato në tekstin e përgjigjes së funksionit të ndara nga dy rreshta të rinj, jo si pjesë të ndara.
  • Segmentimi i imazhit nuk mbështetet në Gemini 3.x. Për ngarkesat e punës së segmentimit, vazhdoni të përdorni Gemini 2.5 Flash me thinking off ose Gemini Robotics-ER 1.6 .

Karakteristikat e familjes Binjakët 3

Gemini 3.5 Flash trashëgon të gjitha aftësitë e familjes Gemini 3 përveç Përdorimit të Kompjuterit. Karakteristikat e prezantuara në Gemini 3 që vazhdojnë:

Hapat e ardhshëm