Çfarë ka të re në Gemini 3.5 Flash
Gemini 3.5 Flash është përgjithësisht i disponueshëm (GA) , i qëndrueshëm dhe gati për përdorim në prodhim në shkallë të gjerë. Si modeli ynë më inteligjent i Flash, ai ofron performancë të qëndrueshme dhe të nivelit të lartë në ekzekutimin e agjentëve, kodimin dhe detyrat afatgjata në shkallë të gjerë.
Ky udhëzues përmban një përmbledhje të përmirësimeve, ndryshimeve të API-t dhe udhëzimeve për migrimin për Gemini 3.5 Flash.
Model i ri
| Model | ID e modelit | Përshkrimi |
|---|---|---|
| Binjakët 3.5 Flash | gemini-3.5-flash | Modeli ynë më inteligjent për performancë të qëndrueshme në kufijtë e detyrave agjentike dhe të kodimit. |
Gemini 3.5 Flash mbështet dritaren e kontekstit prej 1 milion tokenësh, 65 mijë tokenësh daljeje maksimale, të menduarit dhe të njëjtin grup mjetesh dhe veçorish të platformës si Gemini 3 Flash. Përdorimi i kompjuterit nuk mbështetet për momentin.
Për specifikimet e plota, shihni përmbledhjen e modeleve . Për çmimet, shihni faqen e çmimeve .
Nisje e shpejtë
Të gjitha shembujt në këtë udhëzues përdorin GenerateContent API. Mbështetet gjithashtu edhe Interactions API; zbatohen të njëjtat opsione dhe rekomandime konfigurimi.
Python
from google import genai
client = genai.Client()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Explain how parallel agentic execution works in three sentences.",
)
print(response.text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const response = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Explain how parallel agentic execution works in three sentences.",
});
console.log(response.text);
}
main();
PUSHTIM
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [{
"parts": [{"text": "Explain how parallel agentic execution works in three sentences."}]
}]
}'
Çfarë ka të re
- Performancë e qëndrueshme në nivel të lartë: Modeli ynë më inteligjent Flash, i optimizuar për detyra agjentike dhe kodimi në shkallë të gjerë.
- Ekzekutimi agjentik: Vendosja e nënagjentëve, zgjidhja e problemeve dhe sythe të shpejta agjentike në shkallë të gjerë.
- Kodimi: Ciklet e kodimit përsëritës, eksplorimi i shpejtë dhe prototipimi për të testuar shtigje alternative dhe për të eksploruar në mënyrë dinamike zgjidhjet.
- Horizont i gjatë: Rrjedha pune me shumë hapa dhe përdorim i mjeteve në shkallë të gjerë.
- Ruajtja e mendimit: Modeli ruan automatikisht arsyetimin e ndërmjetëm në bisedat me shumë kthesa. Nuk nevojiten ndryshime në API.
- Niveli i ri i parazgjedhur i përpjekjes: Përpjekja e parazgjedhur e të menduarit ndryshoi nga
highnëmedium. Shihni Niveli i ri i parazgjedhur i përpjekjes për detaje. - Përmirësim i të menduarit
low:lowtani është përmirësuar ndjeshëm për detyrat e kodit dhe ato agjentike që kërkojnë më pak hapa, duke ofruar cilësi të fortë me vonesë dhe kosto më të ulët. - Publikimi i GA: Model i qëndrueshëm për përdorim në prodhim të shkallëzuar.
Ndryshime në sjellje
Niveli i ri i parazgjedhur i përpjekjes: medium
Përpjekja e parazgjedhur e të menduarit tani është medium , e ndryshuar nga high në Gemini 3 Flash Preview. medium jep rezultate shumë të mira në një gamë të gjerë detyrash, ndërkohë që është më e shpejtë dhe më ekonomike nga ana e kostos. Për problemet komplekse, high e inkurajon modelin të mendojë më thellë.
| Niveli i përpjekjes | Kur të përdoret |
|---|---|
minimal | I optimizuar për shpejtësinë e përgjigjes. Raste përdorimi të ngjashme me bisedën, përgjigje të shpejta faktike, thirrje mjetesh më të thjeshta. |
low | Detyra kodi dhe agjentësh që kërkojnë vonesë më të ulët dhe më pak hapa. Gjithashtu funksionon mirë për detyrat e analizës dhe shkrimit që kërkojnë pak mendim. |
medium (parazgjedhur) | Cilësia më e mirë për shumicën e detyrave. Rekomandohet për raste komplekse përdorimi të kodit dhe agjentëve. |
high | Maksimizon aftësinë e modelit për të menduar dhe përdorur mjete. Më e mira për arsyetim kompleks, matematikë të vështirë dhe detyrat më të vështira të kodit ose agjentit. Lejon mendime të zgjeruara dhe thirrje funksionesh. |
Për të anashkaluar vlerën e parazgjedhur, vendosni thinking_level në konfigurimin tuaj:
Python
from google import genai
from google.genai import types
client = genai.Client()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Prove that the square root of 2 is irrational.",
config=types.GenerateContentConfig(
thinking_config=types.ThinkingConfig(thinking_level="high")
),
)
print(response.text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const response = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Prove that the square root of 2 is irrational.",
config: {
thinkingConfig: {
thinkingLevel: "HIGH",
},
},
});
console.log(response.text);
}
main();
PUSHTIM
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [{
"parts": [{"text": "Prove that the square root of 2 is irrational."}]
}],
"generationConfig": {
"thinkingConfig": {
"thinkingLevel": "HIGH"
}
}
}'
Ruajtja e mendimit
Modeli ruan automatikisht arsyetimin e ndërmjetëm në bisedat me shumë kthesa. Kur është i pranishëm në historikun e bisedës, konteksti i arsyetimit vazhdon përpara, gjë që përmirëson performancën në detyra komplekse me shumë hapa, si debugging përsëritës dhe rifaktorizim i kodit. Nuk nevojiten ndryshime në API:
- API-ja e Ndërveprimeve : Mendimet ruhen automatikisht. Asnjë ndryshim në sjellje.
- GenerateContent API : Duke filluar me Gemini 3.5 Flash, modeli përdor kontekstin e arsyetimit nga të gjitha kthesat e mëparshme kur nënshkrimet e mendimit janë të pranishme në historikun e bisedës. Për ta aktivizuar këtë, kaloni historikun e plotë dhe të pamodifikuar të bisedës (duke përfshirë nënshkrimet e mendimit ) në
contents. SDK-të e trajtojnë këtë automatikisht.
Përditësimet e parametrave dhe praktikat më të mira në Gemini 3.x
Sa vijon vlen për të gjitha modelet Gemini 3.x , përfshirë Gemini 3.5 Flash.
-
temperature,top_p,top_k: ne rekomandojmë fuqimisht të mos ndryshoni vlerat fillestare. Aftësitë e arsyetimit të Gemini 3 janë të optimizuara për cilësimet fillestare. - Përdorni
thinking_levelnë vend tëthinking_budget. - Përputhja e përgjigjes që thirr funksionin :
id,namedhe response count duhet të përputhen me thirrjet paraprake. - Përgjigjet e funksionit multimodal : përfshijnë përmbajtje multimodale brenda përgjigjes së funksionit, jo jashtë saj.
- Udhëzime të brendshme në përgjigjet e funksionit : shtohen në tekstin e përgjigjes së funksionit, jo si pjesë të ndara.
- Zvogëloni thirrjet e panevojshme të mjeteve : Përdorni nivele më të ulëta të të menduarit ose eksperimentoni me udhëzimet e sistemit për të zvogëluar thirrjet e mjeteve në rrjedhat e punës të agjentëve.
Shihni seksionet më poshtë për mënyrën e përditësimit të kodit tuaj.
Parametrat e marrjes së mostrave (nuk rekomandohen më)
temperature , top_p dhe top_k nuk rekomandohen më për të gjitha modelet Gemini 3.x. Aftësitë e arsyetimit të Gemini 3 janë optimizuar për cilësimet fillestare. Hiqni këto parametra nga të gjitha kërkesat.
# ⚠️ Remove these parameters (not recommended)
config = types.GenerateContentConfig(
temperature=0.7,
top_p=0.9,
top_k=40
)
Për të siguruar determinizëm, ne rekomandojmë përcaktimin e një udhëzimi sistemi me rregulla të qarta për rastin tuaj specifik të përdorimit.
thinking_budget (nuk rekomandohet më)
Parametri numerik i papërpunuar thinking_budget nuk rekomandohet më në të gjitha modelet Gemini 3.x. Në vend të kësaj, përdorni enum-in e vargut thinking_level .
# ⚠️ Before (not recommended)
config = types.GenerateContentConfig(
thinking_config=types.ThinkingConfig(thinking_budget=7500)
)
# ✅ After
config = types.GenerateContentConfig(
thinking_config=types.ThinkingConfig(thinking_level="medium")
)
Vlerat e disponueshme: minimal , low , medium (parazgjedhur) dhe high .
Thirrja e funksionit: përputhje e rreptë e përgjigjes
API-ja e Interactions tashmë gabon në përgjigjet e funksioneve që nuk përputhen. API-ja e GenerateContent ende nuk gabon, por përgjigjet e papërputhshme bëjnë që modeli të kthejë përgjigje boshe me finish_reason: STOP në shumicën e rasteve. Ndiqni gjithmonë këto konventa:
| Kërkesë | Detajet |
|---|---|
Përfshi id | Çdo FunctionResponse duhet të përfshijë id nga FunctionCall përkatëse. |
name i përputhjes | name në përgjigje duhet të përputhet me name në thirrje |
| Numërimi i ndeshjeve | Kthen saktësisht një FunctionResponse për çdo FunctionCall të marrë |
Python
# ✅ Include matching id and name in the function response
final_response = client.models.generate_content(
model="gemini-3.5-flash",
config=config,
contents=[
*previous_contents,
response.candidates[0].content,
types.Content(role="user", parts=[
types.Part.from_function_response(
name=tool_call.name,
response={"result": result},
id=tool_call.id,
)
]),
],
)
JavaScript
// ✅ Include matching id and name in the function response
const functionResponsePart = {
functionResponse: {
name: toolCall.name,
response: { result: result },
id: toolCall.id,
},
};
const finalResponse = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: [
...previousContents,
{ role: "model", parts: [{ functionCall: toolCall }] },
{ role: "user", parts: [functionResponsePart] },
],
config: config,
});
PUSHTIM
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [
{"role": "user", "parts": [{"text": "..."}]},
{"role": "model", "parts": [{"functionCall": {"name": "my_function", "args": {...}}}]},
{"role": "user", "parts": [{"functionResponse": {"name": "my_function", "id": "call_id", "response": {"result": "..."}}}]}
]
}'
Përgjigjet e funksionit multimodal
Shpesh shohim klientë që ofrojnë imazhe jashtë përgjigjes së funksionit. Kjo mund të çojë në sjellje të papritur të modelit (p.sh. rrjedhje mendimi) dhe të rezultojë në rezultate me cilësi më të ulët. Në vend të kësaj, ndiqni rekomandimin në dokumentet e API-t të Përgjigjeve të Funksionit Multimodal dhe përfshini përmbajtje multimodale në pjesët e përgjigjes së funksionit që i dërgoni modelit. Modeli mund ta përpunojë këtë përmbajtje multimodale në kthesën e tij të radhës për të prodhuar një përgjigje më të informuar.
Python
# ✅ Include multimodal content in the function response
final_response = client.models.generate_content(
model="gemini-3.5-flash",
config=config,
contents=[
*previous_contents,
response.candidates[0].content,
types.Content(role="user", parts=[
types.Part.from_function_response(
name=tool_call.name,
response={
"result": "instrument.jpg",
"image": base64_image_data,
},
id=tool_call.id,
)
]),
],
)
JavaScript
// ✅ Include multimodal content in the function response
const finalResponse = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: [
...previousContents,
{ role: "model", parts: [{ functionCall: toolCall }] },
{
role: "user",
parts: [{
functionResponse: {
name: toolCall.name,
id: toolCall.id,
response: {
result: "instrument.jpg",
image: base64ImageData,
},
},
}],
},
],
config: config,
});
Udhëzime të integruara në përgjigjet e funksioneve
Shpesh shohim klientë që ofrojnë udhëzime shtesë së bashku me përgjigjet e funksionit si Parts pasuese. Kjo mund të çojë në sjellje të papritur të modelit (p.sh. rrjedhje mendimi) dhe të rezultojë në rezultate me cilësi më të ulët. Në vend të kësaj, shtoni çdo udhëzim shtesë në fund të tekstit të përgjigjes së funksionit të ndarë nga dy rreshta të rinj.
Python
# ✅ Append inline instructions to the end of the function response separated by two newlines
result_text = f"{json.dumps(result)}\n\n<your inline instructions>"
final_response = client.models.generate_content(
model="gemini-3.5-flash",
config=config,
contents=[
*previous_contents,
response.candidates[0].content,
types.Content(role="user", parts=[
types.Part.from_function_response(
name=tool_call.name,
response={"result": result_text},
id=tool_call.id,
)
]),
],
)
JavaScript
// ✅ Append inline instructions to the end of the function response separated by two newlines
const resultText = `${JSON.stringify(result)}\n\n<your inline instructions>`;
const finalResponse = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: [
...previousContents,
{ role: "model", parts: [{ functionCall: toolCall }] },
{
role: "user",
parts: [{
functionResponse: {
name: toolCall.name,
id: toolCall.id,
response: { result: resultText },
},
}],
},
],
config: config,
});
Zvogëlimi i thirrjeve të panevojshme për mjetet
Nëse përjetoni një përdorim të tepruar të thirrjeve të mjeteve, dy teknika ndihmojnë në minimizimin e tyre:
Filloni duke ulur nivelin e të menduarit (
medium,lowoseminimal): Nivelet më të larta të të menduarit e inkurajojnë modelin të përdorë më shumë mjete për të eksploruar dhe verifikuar, kështu që ulja e nivelit mund të zvogëlojë thirrjet e mjeteve.Shtoni një udhëzim sistemi: Nëse përdorimi i tepërt vazhdon pas rregullimit të nivelit të të menduarit, merrni në konsideratë një kërkesë që kufizon përdorimin e mjetit. Për shembull:
You have a limited action budget of <n> tool calls. Use them efficiently.
Lista e kontrollit të migrimit për migrimin
Migroni nga Gemini 3 Flash Preview
- Përditëso emrin e modelit:
gemini-3-flash-preview→gemini-3.5-flash - Rishikoni çmimet. Gemini 3.5 Flash është më i shtrenjtë se Gemini 3 Flash Preview. Shihni faqen e çmimeve për detaje.
- Hiqni
temperature,top_p,top_knga konfigurimi juaj (nuk rekomandohet më). - Zëvendëso
thinking_budgetmethinking_level. - Shto
iddhenamepërputhës në të gjitha pjesët eFunctionResponse. - Testoni kërkesat tuaja. Përpjekja e parazgjedhur ndryshoi nga
high→medium; verifikoni cilësinë, shpejtësinë dhe koston. - Ruajtja e mendimit tani është aktive si parazgjedhje. Konteksti i arsyetimit vazhdon nëpër raunde, gjë që përmirëson performancën, por mund të rrisë përdorimin e tokenëve.
- Zvogëloni thirrjet e panevojshme të mjeteve: filloni duke ulur nivelin e të menduarit (
medium,lowoseminimal); shtoni një udhëzim sistemi për të kufizuar përdorimin e mjeteve nëse përdorimi i tepërt vazhdon. - Përdorimi i kompjuterit nuk mbështetet në Gemini 3.5 Flash për momentin. Për ngarkesat e punës së përdorimit të kompjuterit, vazhdoni të përdorni Gemini 3 Flash Preview.
Migroni nga Binjakët 2.5
Të gjitha sa më sipër, plus:
- Thjeshtoni pyetjet. Nëse keni përdorur inxhinieri të pyetjeve të zinxhirit të mendimit për të detyruar arsyetimin, provoni
thinking_level: "medium"ose"high"me pyetje më të thjeshta në vend të tyre. - Testoni ngarkesat e punës në PDF dhe media. Nëse jeni mbështetur në sjellje specifike për analizimin e dendur të dokumenteve, testoni cilësimin
media_resolution_highpër të siguruar saktësi të vazhdueshme. Migrimi në vlerat fillestare të Gemini 3 mund të rrisë gjithashtu përdorimin e token-ave për PDF-të, por ta ulë atë për videon; nëse kërkesat tejkalojnë dritaren e kontekstit, zvogëloni në mënyrë të qartëmedia_resolution. Shihni dokumentet e rezolucionit të medias për detaje. - Shfrytëzoni përdorimin e kombinuar të mjeteve . Kërkimi në Google, konteksti i URL-së, ekzekutimi i kodit dhe funksionet e personalizuara mund të përdoren në të njëjtën kërkesë.
- Nëse përdorni përgjigje të funksioneve multimodale, zhvendosni përmbajtjen multimodale brenda pjesëve të përgjigjes së funksionit, jo përgjatë tyre.
- Nëse përdorni udhëzime brenda rreshtit me përgjigje të funksionit, shtoji ato në tekstin e përgjigjes së funksionit të ndara nga dy rreshta të rinj, jo si pjesë të ndara.
- Segmentimi i imazhit nuk mbështetet në Gemini 3.x. Për ngarkesat e punës së segmentimit, vazhdoni të përdorni Gemini 2.5 Flash me thinking off ose Gemini Robotics-ER 1.6 .
Karakteristikat e familjes Binjakët 3
Gemini 3.5 Flash trashëgon të gjitha aftësitë e familjes Gemini 3 përveç Përdorimit të Kompjuterit. Karakteristikat e prezantuara në Gemini 3 që vazhdojnë:
- Të menduarit : Konteksti i arsyetimit të enkriptuar i ruajtur në të gjitha thirrjet API. Automatik në API-në e Ndërveprimeve; implicit në GenerateContent.
- Daljet e strukturuara me mjete : Kombinoni modalitetin JSON me mjetet e integruara (Kërkimi, konteksti i URL-së, ekzekutimi i kodit, thirrja e funksionit).
- Përgjigjet e funksionit multimodal : Kthen imazhe, audio dhe media të tjera në rezultatet e thirrjes së funksionit.
- Ekzekutimi i kodit me imazhe : Ekzekutoni kodin që përpunon dhe gjeneron imazhe.
- Përdorimi i kombinuar i mjeteve : Përdorni mjete të integruara dhe thirrje të funksioneve të personalizuara në të njëjtën kërkesë.
Hapat e ardhshëm
- Lexoni më shumë rreth familjes Gemini 3 në udhëzuesin e zhvilluesve Gemini 3
- Mësoni më shumë rreth strategjive të projektimit të shpejtë në udhëzuesin e inxhinierisë së shpejtë .
- Filloni me Librin e Gatimit Gemini 3
- Mësoni rreth optimizimit dhe nxjerrjes së përfundimeve nga Gemini API