Binjakët mund të trajtojnë lloje të ndryshme të të dhënave hyrëse, duke përfshirë tekstin, imazhet dhe audion, në të njëjtën kohë.
Ky udhëzues ju tregon se si të punoni me skedarët media duke përdorur API-n e Skedarëve. Operacionet bazë janë të njëjta për skedarët audio, imazhet, videot, dokumentet dhe llojet e tjera të skedarëve të mbështetur.
Për udhëzime rreth kërkesës për skedarë, shikoni seksionin Udhëzuesi i kërkesës për skedarë .
Ngarko një skedar
Mund të përdorni API-në e Skedarëve për të ngarkuar një skedar mediatik. Përdorni gjithmonë API-në e Skedarëve kur madhësia totale e kërkesës (duke përfshirë skedarët, njoftimin me tekst, udhëzimet e sistemit, etj.) është më e madhe se 20 MB.
Kodi i mëposhtëm ngarkon një skedar dhe më pas e përdor skedarin në një thirrje për generateContent .
Python
from google import genai
client = genai.Client()
myfile = client.files.upload(file="path/to/sample.mp3")
response = client.models.generate_content(
model="gemini-2.5-flash", contents=["Describe this audio clip", myfile]
)
print(response.text)
JavaScript
import {
GoogleGenAI,
createUserContent,
createPartFromUri,
} from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/sample.mp3",
config: { mimeType: "audio/mpeg" },
});
const response = await ai.models.generateContent({
model: "gemini-2.5-flash",
contents: createUserContent([
createPartFromUri(myfile.uri, myfile.mimeType),
"Describe this audio clip",
]),
});
console.log(response.text);
}
await main();
Shko
file, err := client.Files.UploadFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
log.Fatal(err)
}
defer client.Files.Delete(ctx, file.Name)
resp, err := client.Models.GenerateContent(ctx, "gemini-2.5-flash", []*genai.Content{
{
Parts: []*genai.Part{
genai.NewPartFromFile(*file),
genai.NewPartFromText("Describe this audio clip"),
},
},
}, nil)
if err != nil {
log.Fatal(err)
}
printResponse(resp)
PUSHTIM
AUDIO_PATH="path/to/sample.mp3"
MIME_TYPE=$(file -b --mime-type "${AUDIO_PATH}")
NUM_BYTES=$(wc -c < "${AUDIO_PATH}")
DISPLAY_NAME=AUDIO
tmp_header_file=upload-header.tmp
# Initial resumable request defining metadata.
# The upload url is in the response headers dump them to a file.
curl "${BASE_URL}/upload/v1beta/files" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-D "${tmp_header_file}" \
-H "X-Goog-Upload-Protocol: resumable" \
-H "X-Goog-Upload-Command: start" \
-H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
-H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
-H "Content-Type: application/json" \
-d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null
upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"
# Upload the actual bytes.
curl "${upload_url}" \
-H "Content-Length: ${NUM_BYTES}" \
-H "X-Goog-Upload-Offset: 0" \
-H "X-Goog-Upload-Command: upload, finalize" \
--data-binary "@${AUDIO_PATH}" 2> /dev/null > file_info.json
file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri
# Now generate content using that file
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [{
"parts":[
{"text": "Describe this audio clip"},
{"file_data":{"mime_type": "${MIME_TYPE}", "file_uri": '$file_uri'}}]
}]
}' 2> /dev/null > response.json
cat response.json
echo
jq ".candidates[].content.parts[].text" response.json
Merrni metadata për një skedar
Mund të verifikoni që API-ja e ka ruajtur me sukses skedarin e ngarkuar dhe të merrni meta të dhënat e tij duke thirrur files.get .
Python
from google import genai
client = genai.Client()
myfile = client.files.upload(file='path/to/sample.mp3')
file_name = myfile.name
myfile = client.files.get(name=file_name)
print(myfile)
JavaScript
import {
GoogleGenAI,
} from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/sample.mp3",
config: { mimeType: "audio/mpeg" },
});
const fileName = myfile.name;
const fetchedFile = await ai.files.get({ name: fileName });
console.log(fetchedFile);
}
await main();
Shko
file, err := client.Files.UploadFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
log.Fatal(err)
}
gotFile, err := client.Files.Get(ctx, file.Name)
if err != nil {
log.Fatal(err)
}
fmt.Println("Got file:", gotFile.Name)
PUSHTIM
# file_info.json was created in the upload example
name=$(jq ".file.name" file_info.json)
# Get the file of interest to check state
curl https://generativelanguage.googleapis.com/v1beta/files/$name \
-H "x-goog-api-key: $GEMINI_API_KEY" > file_info.json
# Print some information about the file you got
name=$(jq ".file.name" file_info.json)
echo name=$name
file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri
Listo skedarët e ngarkuar
Kodi i mëposhtëm merr një listë të të gjithë skedarëve të ngarkuar:
Python
from google import genai
client = genai.Client()
print('My files:')
for f in client.files.list():
print(' ', f.name)
JavaScript
import {
GoogleGenAI,
} from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const listResponse = await ai.files.list({ config: { pageSize: 10 } });
for await (const file of listResponse) {
console.log(file.name);
}
}
await main();
Shko
for file, err := range client.Files.All(ctx) {
if err != nil {
log.Fatal(err)
}
fmt.Println(file.Name)
}
PUSHTIM
echo "My files: "
curl "https://generativelanguage.googleapis.com/v1beta/files" \
-H "x-goog-api-key: $GEMINI_API_KEY"
Fshi skedarët e ngarkuar
Skedarët fshihen automatikisht pas 48 orësh. Gjithashtu mund ta fshini manualisht një skedar të ngarkuar:
Python
from google import genai
client = genai.Client()
myfile = client.files.upload(file='path/to/sample.mp3')
client.files.delete(name=myfile.name)
JavaScript
import {
GoogleGenAI,
} from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/sample.mp3",
config: { mimeType: "audio/mpeg" },
});
const fileName = myfile.name;
await ai.files.delete({ name: fileName });
}
await main();
Shko
file, err := client.Files.UploadFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
log.Fatal(err)
}
client.Files.Delete(ctx, file.Name)
PUSHTIM
curl --request "DELETE" https://generativelanguage.googleapis.com/v1beta/files/$name \
-H "x-goog-api-key: $GEMINI_API_KEY"
Informacion përdorimi
Mund të përdorni API-në e Skedarëve për të ngarkuar dhe bashkëvepruar me skedarët mediatikë. API-ja e Skedarëve ju lejon të ruani deri në 20 GB skedarë për projekt, me një madhësi maksimale prej 2 GB për skedar. Skedarët ruhen për 48 orë. Gjatë kësaj kohe, mund ta përdorni API-në për të marrë meta të dhëna rreth skedarëve, por nuk mund t'i shkarkoni skedarët. API-ja e Skedarëve është e disponueshme pa pagesë në të gjitha rajonet ku është e disponueshme API-ja Gemini.
Strategjitë e nxitjes së skedarëve
Ky seksion ofron udhëzime dhe praktikat më të mira për përdorimin e skedarëve media me kërkesa për Gemini API.
Mundësia për të përdorur lloje të ndryshme të të dhënave në kërkesat tuaja ju jep më shumë fleksibilitet në lidhje me detyrat që mund të trajtoni me Gemini API. Për shembull, mund t'i dërgoni modelit një foto të një vakti të shijshëm dhe t'i kërkoni të shkruajë një blog të shkurtër rreth tij.
| Nxitje | Përgjigje |
Shkruaj një postim të shkurtër dhe tërheqës në blog bazuar në këtë fotografi. Duhet të përfshijë një përshkrim të vaktit në foto dhe të flasë për udhëtimin tim të përgatitjes së vakteve. ![]() | Përgatitja e vakteve është një mënyrë e shkëlqyer për të kursyer kohë dhe para, dhe gjithashtu mund t'ju ndihmojë të hani më shëndetshëm. Ky vakt është një shembull i shkëlqyer i një vakti të shëndetshëm dhe të shijshëm që mund të përgatitet lehtësisht paraprakisht. Ky vakt përmban oriz të kaftë, perime të pjekura në furrë dhe pulë teriyaki. Orizi i kaftë është një karbohidrat i shëndetshëm dhe kompleks që do t'ju japë energji të qëndrueshme. Perimet e pjekura janë një mënyrë e shkëlqyer për të marrë dozën tuaj të përditshme të vitaminave dhe mineraleve, dhe pula teriyaki është një opsion i shijshëm dhe i pasur me proteina. Ky vakt është gjithashtu shumë i lehtë për t’u përgatitur. Thjesht gatuani orizin e kaftë, piqni perimet dhe gatuani pulën teriyaki. Pasi të jetë gatuar gjithçka, ndajeni në enë përgatitore dhe vendosini në frigorifer. Pastaj mund të merrni një enë dhe të shkoni në mëngjeset e ngarkuara! Nëse jeni duke kërkuar një vakt të shëndetshëm dhe të shijshëm që mund të përgatitet lehtësisht paraprakisht, ky vakt është një zgjedhje e shkëlqyer. Është i mbushur me lëndë ushqyese dhe shije, dhe me siguri do t'ju mbajë të ngopur dhe të kënaqur. Ja ku është përgatitja e vakteve të shëndetshme dhe të shijshme! |
Nëse keni probleme me marrjen e rezultatit që dëshironi nga kërkesat që përdorin skedarë mediatikë, ekzistojnë disa strategji që mund t'ju ndihmojnë të merrni rezultatet që dëshironi. Seksionet e mëposhtme ofrojnë qasje në dizajn dhe këshilla për zgjidhjen e problemeve për përmirësimin e kërkesave që përdorin hyrje multimodale.
Ju mund t'i përmirësoni kërkesat tuaja multimodale duke ndjekur këto praktika më të mira:
Bazat e dizajnit të shpejtë
- Ji specifik në udhëzimet e tua : Harto udhëzime të qarta dhe koncize që lënë hapësirë minimale për keqinterpretime.
- Shtoni disa shembuj në kërkesën tuaj: Përdorni shembuj realistë me pak shembuj për të ilustruar atë që dëshironi të arrini.
- Ndani atë hap pas hapi : Ndani detyrat komplekse në nën-qëllime të menaxhueshme, duke e udhëhequr modelin përmes procesit.
- Specifikoni formatin e daljes : Në kërkesën tuaj, kërkoni që rezultati të jetë në formatin që dëshironi, si markdown, JSON, HTML dhe më shumë.
- Vendosni imazhin tuaj të parin për kërkesat me një imazh të vetëm : Ndërsa Gemini mund të trajtojë imazhet dhe tekstin në çdo renditje, për kërkesat që përmbajnë një imazh të vetëm, mund të funksionojë më mirë nëse ai imazh (ose video) vendoset para kërkesës me tekst. Megjithatë, për kërkesat që kërkojnë që imazhet të jenë shumë të ndërthurura me tekstet për të pasur kuptim, përdorni çfarëdo renditjeje që është më e natyrshme.
Zgjidhja e problemeve të kërkesës suaj multimodale
- Nëse modeli nuk po tërheq informacion nga pjesa përkatëse e imazhit: Jepni sugjerime me anë të të cilave aspekte të imazhit dëshironi që kërkesa të nxjerrë informacion.
- Nëse rezultati i modelit është shumë i përgjithshëm (nuk është përshtatur mjaftueshëm për hyrjen e imazhit/videos): Në fillim të kërkesës, provoni t'i kërkoni modelit të përshkruajë imazhin/imazhet ose videon përpara se të jepni udhëzimin e detyrës, ose provoni t'i kërkoni modelit të referohet asaj që është në imazh.
- Për të zgjidhur problemin se cila pjesë dështoi: Kërkojini modelit të përshkruajë imazhin ose kërkojini modelit të shpjegojë arsyetimin e tij, për të vlerësuar kuptimin fillestar të modelit.
- Nëse kërkesa juaj rezulton në përmbajtje halucinuese: Mundohuni ta ulni temperaturën ose t'i kërkoni modelit përshkrime më të shkurtra në mënyrë që të ketë më pak gjasa të ekstrapolohen detaje shtesë.
- Rregullimi i parametrave të marrjes së mostrave: Eksperimentoni me cilësime të ndryshme të temperaturës dhe përzgjedhje top-k për të rregulluar kreativitetin e modelit.
Ji specifik në udhëzimet e tua
Kërkesat kanë më shumë sukses kur janë të qarta dhe të detajuara. Nëse keni në mendje një rezultat specifik, është më mirë ta përfshini atë kërkesë në kërkesë për t'u siguruar që të merrni rezultatin që dëshironi.
Për këtë imazh të një bordi aeroporti, t'i kërkosh modelit thjesht të "përshkruajë këtë imazh" mund të gjenerojë një përshkrim të përgjithshëm. Nëse ke nevojë që modeli të analizojë kohën dhe qytetin nga imazhi, mund ta përfshish atë kërkesë direkt në kërkesën tënde.
| Nxitje | Përgjigje modeli |
|---|---|
![]() Përshkruani këtë imazh. | Imazhi tregon një tabelë mbërritjesh dhe nisjesh në aeroport. |
| Kërkesa e përditësuar | Përgjigje e përmirësuar |
|---|---|
![]() Analizoni kohën dhe qytetin nga tabela e aeroportit e treguar në këtë imazh në një listë. |
Shtoni disa shembuj
Modeli Gemini mund të pranojë të dhëna të shumëfishta të cilat mund t’i përdorë si shembuj për të kuptuar rezultatin që dëshironi. Shtimi i këtyre shembujve mund ta ndihmojë modelin të identifikojë modelet dhe të zbatojë marrëdhënien midis imazheve të dhëna dhe përgjigjeve në shembullin e ri. Kjo quhet edhe të mësuarit "me pak goditje".
Në shembullin më poshtë, rezultati fillestar është shkruar në formë fjalie dhe gjithashtu përmban vendin (Brazilin). Supozoni se dëshironi rezultatin në një format ose stil të ndryshëm dhe dëshironi vetëm qytetin, jo vendin. Shtimi i shembujve me pak shembuj në kërkesën tuaj mund ta orientojë modelin që të përgjigjet në mënyrën që dëshironi.
| Nxitje | Përgjigje modeli |
|---|---|
![]() Përcaktoni qytetin së bashku me pikën referuese. | Pika referuese është statuja e Krishtit Shëlbues në Rio de Janeiro, Brazil. |
| Kërkesa e përditësuar | Përgjigje e përmirësuar |
|---|---|
Përcaktoni qytetin së bashku me pikën referuese. ![]() | qytet: Romë, pikë referimi: Koloseu. |
![]() | qytet: Pekin, pikë referimi: Qyteti i Ndaluar |
![]() | qytet: Rio de Janeiro, pikë referimi: statuja e Krishtit Shëlbues |
Zbërthejeni hap pas hapi
Për detyra komplekse si ato që kërkojnë si kuptim vizual ashtu edhe arsyetim, mund të jetë e dobishme ta ndani detyrën në hapa më të vegjël dhe më të drejtpërdrejtë. Nga ana tjetër, mund të jetë gjithashtu efektive nëse i kërkoni drejtpërdrejt modelit të "mendojë hap pas hapi" në kërkesën tuaj.
| Nxitje | Përgjigje modeli |
|---|---|
![]() Kur do të më mbarojë letra higjienike? | Së shpejti, të kanë mbetur vetëm 3 rrotulla. |
| Kërkesa e përditësuar | Përgjigje e përmirësuar |
|---|---|
![]()
|
|
Problemet matematikore ose llojet e tjera të problemeve me fjalë janë kandidatë të shkëlqyer për t'i kërkuar modelit të mendojë hap pas hapi.
| Nxitje | Përgjigje |
|---|---|
![]() Cili është termi i 4-t në varg? | -135 |
Përgjigja nga modeli është e pasaktë. Disa mënyra për ta përmirësuar këtë janë t'i kërkoni modelit ta analizojë problemin përpara se t'i përgjigjet kërkesës.
| Nxitje | Përgjigje |
|---|---|
![]() Analizoni së pari formulën në imazh. Pastaj, bazuar në formulë, përgjigjuni pyetjes "cili është termi i 4-t në varg?". | $$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$ $$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ Prandaj, termi i 4-t në sekuencë është -405. |
Kjo përgjigje e modelit është e saktë - tani, për ta bërë përgjigjen edhe më të efektshme, mund t'i kërkoni modelit të mendojë hap pas hapi.
| Kërkesa e përditësuar | Përgjigje e përmirësuar |
|---|---|
![]() Cili është termi i 4-t në varg? Mendo hap pas hapi. | Termi i parë është 15. Termi i dytë është b(1) * (-3) = 15 * (-3) = -45. Termi i tretë është b(2) * (-3) = -45 * (-3) = 135. Termi i katërt është b(3) * (-3) = 135 * (-3) = -405. |
Specifikoni formatin e daljes
Një problem i zakonshëm është nevoja që rezultati i modelit të jetë në një format të caktuar (p.sh. markdown, JSON, HTML), veçanërisht nëse rezultati i modelit duhet të përthithet nga një detyrë rrjedhëse. Mund të provoni të prodhoni rezultate në atë format duke i dhënë udhëzime modelit ta bëjë këtë brenda njoftimit. Më poshtë janë dy shembuj:
| Nxitje | Përgjigje modeli |
|---|---|
![]() Analizoni tabelën në këtë imazh në formatin markdown | | Subjekti | Statusi | Ora | Data e fillimit | Afati i fundit | | ------- | ------ | ---- | ---------- | ------- | | Matematikë | Përfunduar | 1.5 orë | 29/11/2023 | 1/12/2023 | | Gjeografi | Përfunduar | 30 min | 2/12/2023 | 4/12/2023 | | Fizikë | Në vazhdim | 2 orë | 3/12/2023 | 5/12/2023 | | Biologji | Nuk ka filluar | 6 orë | 11/2/2016 | 12/6/2023 | |
| Nxitje | Përgjigje modeli |
|---|---|
![]() Jepni një listë të të gjitha atributeve të mëposhtme: përbërësit, lloji i kuzhinës, vegjetariane apo jo, në formatin JSON | ``json { "përbërësit": [ "oriz", "karkaleca deti", "midhje", "midhje", "bizele", "domate", "qepë", "hudhër", "vaj ulliri", "paprikë", "kripë", "piper" ], "lloj kuzhine": "Spanjisht", "vegjetarian": i rremë } ``` |
Vendos imazhin tënd të parin për kërkesat me një imazh të vetëm
Ndërsa Binjakët mund ta interpretojnë imazhin dhe tekstin në çdo renditje brenda një pyetjeje, vendosja e një imazhi të vetëm para pyetjes së tekstit mund të çojë në rezultate më të mira. Në shembujt e mëposhtëm, do të vini re se imazhi vjen i pari para tekstit në secilën pyetje.
Zgjidhja e problemeve të kërkesës suaj multimodale
Mund të duhet të zgjidhni problemin e kërkesës suaj nëse nuk po merrni një përgjigje të dobishme. Ja disa strategji që mund të provoni.
Nëse modeli nuk po nxjerr informacion nga pjesa përkatëse e imazhit
Për të marrë një përgjigje më specifike, mund të tregoni se nga cilat aspekte të imazhit dëshironi që kërkesa të nxjerrë informacion për të informuar përgjigjen e saj.
| Nxitje | Përgjigje modeli |
|---|---|
![]() Sa ditë do t’i zgjasin këto pelena një foshnje? | Pelenat do të zgjasin 198 ditë para se të mbarojnë. |
| Kërkesa e përditësuar | Përgjigje e përmirësuar |
|---|---|
![]() Sa do të zgjasin këto pelena para se të më mbarojnë? Përdorni peshën e treguar në kuti për të përcaktuar moshën e fëmijës dhe përdorni numrin total të pelenave në kuti. Pjesëtoni numrin total me numrin e pelenave që përdor fëmija në ditë. | Kutia përmban 198 pelena. Në kuti shkruhet se pelenat janë për një fëmijë që peshon 22-37 lbs. Fëmija mesatar në këtë diapazon peshe është ka të ngjarë të jetë midis 1 dhe 2 vjeç. Një fëmijë 2-vjeçar zakonisht ndërron 6 pelena në ditë, prandaj pelenat do të zgjasin rreth 33 ditë (198/6). |
Nëse rezultati i modelit është shumë i përgjithshëm dhe nuk është i përshtatur mjaftueshëm për hyrjen e imazhit
Për ta ndihmuar modelin të përshtasë përgjigjen e tij ndaj imazhit/imazheve, provoni t'i kërkoni që t'i përshkruajë imazhet përpara se të kryejë detyrën e arsyetimit.
| Nxitje | Përgjigje modeli |
|---|---|
![]() ![]() ![]() ![]() Çfarë është e përbashkët midis këtyre imazheve? | Të katër imazhet janë shembuj të fotografisë së peizazhit. |
| Kërkesa e përditësuar | Përgjigje e përmirësuar |
|---|---|
![]() ![]() ![]() ![]() Së pari, përshkruani në detaje se çfarë ka në secilën imazh. Çfarë kanë të përbashkët këto imazhe? | Imazhi i parë tregon një person që po paketon një valixhe. Imazhi i dytë tregon një korridor bosh në një qendër tregtare. Imazhi i tretë tregon një rrotull letre higjienike. Imazhi i katërt tregon një det të errët dhe të stuhishëm. E përbashkëta midis këtyre imazheve është se të gjitha janë shembuj të hapësirave liminale. Hapësirat liminale janë vende ose situata që ndodhen midis dy vendeve ose situatave të tjera. Ato shpesh karakterizohen nga një ndjenjë pasigurie ose paqartësie. Imazhi i parë tregon personin midis të qenit në shtëpi dhe të qenit në një udhëtim. Imazhi i dytë tregon korridorin midis dy dyqaneve. Imazhi i tretë është letër higjienike, e cila mund të përfaqësojë një banjo. Një banjo është një hapësirë kalimtare midis sferave private dhe publike. Është një vend ku ne përgatitemi për të hyrë ose për t'u larguar nga bota e jashtme. Imazhi i katërt tregon detin midis qetësisë dhe stuhive. Hapësirat liminale mund të jenë njëkohësisht emocionuese dhe shqetësuese. Ato mund të jenë një vend fillimi të ri ose një vend mbarimesh. Ato mund të jenë një vend reflektimi ose një vend veprimi. |
Gjithashtu mund të provoni t'i kërkoni modelit në mënyrë të qartë t'i referohet asaj që është në imazh.
| Kërkesa e përditësuar | Përgjigje e përmirësuar |
|---|---|
![]() ![]() ![]() ![]() Çfarë kanë të përbashkët këto imazhe? Në përgjigjen tuaj, referojuni asaj që përmbahet në imazhe. | Të gjitha imazhet lidhen me udhëtimet. Imazhi i parë tregon një person që po paketon një valixhe, imazhi i dytë tregon një korridor bosh në një qendër tregtare, imazhi i tretë tregon një pirg letre higjienike dhe imazhi i katërt tregon një det të errët dhe të stuhishëm. Këto imazhe lidhen të gjitha me udhëtimet sepse janë të gjitha gjëra që njerëzit kanë nevojë ose i përdorin kur udhëtojnë. Imazhi i parë tregon një person që po paketon një valixhe, diçka që njerëzit bëjnë kur shkojnë në një udhëtim. Imazhi i dytë tregon një korridor bosh në një qendër tregtare, i cili është një vend ku njerëzit shpesh shkojnë për të blerë gjëra për udhëtimet e tyre. Imazhi i tretë tregon një pirg letre higjienike, diçka që njerëzit shpesh e përdorin kur udhëtojnë. Imazhi i katërt tregon një det të errët dhe të stuhishëm, diçka që njerëzit e hasin shpesh kur udhëtojnë. |
Të njëjtat këshilla funksionojnë për rezultatet krijuese nga imazhet. Në shembullin e mëposhtëm me lepurin, kërkesa e qartë që modeli të përfshijë aspekte nga imazhi mund ta përmirësojë rezultatin.
| Nxitje | Përgjigje modeli |
|---|---|
![]() A mund të më shkruash një poezi për këtë imazh? | Lepurush i vogël, kaq i butë dhe kafe, Ti kafshon barin, kaq të gjelbër dhe të ëmbël, |
| Kërkesa e përditësuar | Përgjigje e përmirësuar |
|---|---|
![]() A mund të më shkruani një poezi përshkruese dhe dramatike rreth këtij imazhi dhe të përfshini vendndodhjen? | Lepur i vogël në të gjelbër, A është bluja e oqeanit, Lepurush i vogël, më thuaj të vërtetën, Ndoshta është pafundësia e gjithçkaje, Lepurush i vogël, pyes veten se çfarë ëndërron, Çfarëdo që të jetë, lepurush i vogël, |
Zgjidhja e problemeve se cila pjesë e kërkesës dështoi
Mund të jetë e vështirë të dish nëse një kërkesë dështoi sepse modeli nuk e kuptoi imazhin që në fillim, apo nëse e kuptoi imazhin, por nuk kreu hapat e saktë të arsyetimit më pas. Për të sqaruar midis këtyre arsyeve, kërkojini modelit të përshkruajë se çfarë ka në imazh.
Në shembullin vijues, nëse modeli përgjigjet me një meze të lehtë që duket e habitshme kur shoqërohet me çaj (p.sh. kokoshka), së pari mund të zgjidhni problemin për të përcaktuar nëse modeli e ka njohur saktë që imazhi përmban çaj.
| Nxitje | Kërkesë për zgjidhjen e problemeve |
|---|---|
![]() Çfarë mezeje mund të bëj për 1 minutë që do të shkonte mirë me këtë? | ![]() Përshkruani se çfarë është në këtë imazh. |
Një strategji tjetër është t’i kërkosh modelit të shpjegojë arsyetimin e tij. Kjo mund të të ndihmojë të kuptosh se cila pjesë e arsyetimit është e ndarë, nëse ka ndonjë.
| Nxitje | Kërkesë për zgjidhjen e problemeve |
|---|---|
![]() Çfarë mezeje mund të bëj për 1 minutë që do të shkonte mirë me këtë? | ![]() Çfarë mezeje mund të bëj për 1 minutë që do të shkonte mirë me këtë? Ju lutem shpjegoni pse. |
Çfarë vjen më pas
- Provo të shkruash vetë kërkesat multimodale duke përdorur Google AI Studio .
- Për informacion mbi përdorimin e Gemini Files API për ngarkimin e skedarëve media dhe përfshirjen e tyre në kërkesat tuaja, shihni udhëzuesit e përpunimit të Vizionit , Audios dhe Dokumentit .
- Për më shumë udhëzime mbi dizajnin e shpejtë, si akordimi i parametrave të marrjes së mostrave, shihni faqen e Strategjive të shpejtë .














