Modelet Gemini mund të përpunojnë video, duke mundësuar shumë raste përdorimi për zhvilluesit e nivelit të lartë që historikisht do të kishin kërkuar modele specifike për domenin. Disa nga aftësitë e vizionit të Gemini përfshijnë aftësinë për të:
- Përshkruani, segmentoni dhe nxirrni informacion nga videot
- Përgjigjuni pyetjeve në lidhje me përmbajtjen e videos
- Referojuni vulave kohore specifike brenda një videoje
Gemini u ndërtua për të qenë multimodal që nga themelet dhe ne vazhdojmë të shtyjmë përpara kufijtë e asaj që është e mundur. Ky udhëzues tregon se si të përdoret Gemini API për të gjeneruar përgjigje me tekst bazuar në të dhënat video.
Hyrje videoje
Ju mund të ofroni video si të dhëna për Binjakët në mënyrat e mëposhtme:
-  Ngarko një skedar video duke përdorur File API përpara se të bësh një kërkesë për generateContent. Përdore këtë metodë për skedarë më të mëdhenj se 20MB, video më të gjata se afërsisht 1 minutë ose kur dëshiron ta ripërdorësh skedarin në kërkesa të shumëfishta.
-  Kaloni të dhënat e videos në linjë me kërkesën për generateContent. Përdoreni këtë metodë për skedarë më të vegjël (<20MB) dhe kohëzgjatje më të shkurtër.
-  Kaloni URL-të e YouTube si pjesë të kërkesës suaj generateContent.
Ngarko një skedar videoje
Mund të përdorni API-në e Skedarëve për të ngarkuar një skedar video. Përdorni gjithmonë API-në e Skedarëve kur madhësia totale e kërkesës (duke përfshirë skedarin, kërkesën me tekst, udhëzimet e sistemit, etj.) është më e madhe se 20 MB, kohëzgjatja e videos është e konsiderueshme ose nëse keni ndërmend të përdorni të njëjtën video në kërkesa të shumta. API-ja e Skedarëve pranon direkt formatet e skedarëve video.
 Kodi i mëposhtëm shkarkon videon shembull, e ngarkon atë duke përdorur File API, pret që të përpunohet dhe më pas përdor referencën e skedarit në një kërkesë generateContent . 
Python
from google import genai
client = genai.Client()
myfile = client.files.upload(file="path/to/sample.mp4")
response = client.models.generate_content(
    model="gemini-2.5-flash", contents=[myfile, "Summarize this video. Then create a quiz with an answer key based on the information in this video."]
)
print(response.text)
JavaScript
import {
  GoogleGenAI,
  createUserContent,
  createPartFromUri,
} from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/sample.mp4",
    config: { mimeType: "video/mp4" },
  });
  const response = await ai.models.generateContent({
    model: "gemini-2.5-flash",
    contents: createUserContent([
      createPartFromUri(myfile.uri, myfile.mimeType),
      "Summarize this video. Then create a quiz with an answer key based on the information in this video.",
    ]),
  });
  console.log(response.text);
}
await main();
Shko
uploadedFile, _ := client.Files.UploadFromPath(ctx, "path/to/sample.mp4", nil)
parts := []*genai.Part{
    genai.NewPartFromText("Summarize this video. Then create a quiz with an answer key based on the information in this video."),
    genai.NewPartFromURI(uploadedFile.URI, uploadedFile.MIMEType),
}
contents := []*genai.Content{
    genai.NewContentFromParts(parts, genai.RoleUser),
}
result, _ := client.Models.GenerateContent(
    ctx,
    "gemini-2.5-flash",
    contents,
    nil,
)
fmt.Println(result.Text())
PUSHTIM
VIDEO_PATH="path/to/sample.mp4"
MIME_TYPE=$(file -b --mime-type "${VIDEO_PATH}")
NUM_BYTES=$(wc -c < "${VIDEO_PATH}")
DISPLAY_NAME=VIDEO
tmp_header_file=upload-header.tmp
echo "Starting file upload..."
curl "https://generativelanguage.googleapis.com/upload/v1beta/files" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -D ${tmp_header_file} \
  -H "X-Goog-Upload-Protocol: resumable" \
  -H "X-Goog-Upload-Command: start" \
  -H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
  -H "Content-Type: application/json" \
  -d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null
upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"
echo "Uploading video data..."
curl "${upload_url}" \
  -H "Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Offset: 0" \
  -H "X-Goog-Upload-Command: upload, finalize" \
  --data-binary "@${VIDEO_PATH}" 2> /dev/null > file_info.json
file_uri=$(jq -r ".file.uri" file_info.json)
echo file_uri=$file_uri
echo "File uploaded successfully. File URI: ${file_uri}"
# --- 3. Generate content using the uploaded video file ---
echo "Generating content from video..."
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
          {"file_data":{"mime_type": "'"${MIME_TYPE}"'", "file_uri": "'"${file_uri}"'"}},
          {"text": "Summarize this video. Then create a quiz with an answer key based on the information in this video."}]
        }]
      }' 2> /dev/null > response.json
jq -r ".candidates[].content.parts[].text" response.json
Për të mësuar më shumë rreth punës me skedarët mediatikë, shihni API-n e Skedarëve .
Kaloni të dhënat e videos në linjë
 Në vend që të ngarkoni një skedar video duke përdorur File API, mund të kaloni video më të vogla direkt në kërkesë për generateContent . Kjo është e përshtatshme për video më të shkurtra me madhësi totale kërkese nën 20MB.
Ja një shembull i ofrimit të të dhënave video të integruara:
Python
from google import genai
from google.genai import types
# Only for videos of size <20Mb
video_file_name = "/path/to/your/video.mp4"
video_bytes = open(video_file_name, 'rb').read()
client = genai.Client()
response = client.models.generate_content(
    model='models/gemini-2.5-flash',
    contents=types.Content(
        parts=[
            types.Part(
                inline_data=types.Blob(data=video_bytes, mime_type='video/mp4')
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)
JavaScript
import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";
const ai = new GoogleGenAI({});
const base64VideoFile = fs.readFileSync("path/to/small-sample.mp4", {
  encoding: "base64",
});
const contents = [
  {
    inlineData: {
      mimeType: "video/mp4",
      data: base64VideoFile,
    },
  },
  { text: "Please summarize the video in 3 sentences." }
];
const response = await ai.models.generateContent({
  model: "gemini-2.5-flash",
  contents: contents,
});
console.log(response.text);
PUSHTIM
VIDEO_PATH=/path/to/your/video.mp4
if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
  B64FLAGS="--input"
else
  B64FLAGS="-w0"
fi
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
            {
              "inline_data": {
                "mime_type":"video/mp4",
                "data": "'$(base64 $B64FLAGS $VIDEO_PATH)'"
              }
            },
            {"text": "Please summarize the video in 3 sentences."}
        ]
      }]
    }' 2> /dev/null
URL-të e YouTube-it të kalimit
 Mund t’i kaloni URL-të e YouTube direkt te Gemini API si pjesë e kërkesës suaj generateContent si më poshtë: 
Python
response = client.models.generate_content(
    model='models/gemini-2.5-flash',
    contents=types.Content(
        parts=[
            types.Part(
                file_data=types.FileData(file_uri='https://www.youtube.com/watch?v=9hE5-98ZeCg')
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)
JavaScript
import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI(process.env.GOOGLE_API_KEY);
const model = genAI.getGenerativeModel({ model: "gemini-2.5-flash" });
const result = await model.generateContent([
  "Please summarize the video in 3 sentences.",
  {
    fileData: {
      fileUri: "https://www.youtube.com/watch?v=9hE5-98ZeCg",
    },
  },
]);
console.log(result.response.text());
Shko
package main
import (
  "context"
  "fmt"
  "os"
  "google.golang.org/genai"
)
func main() {
  ctx := context.Background()
  client, err := genai.NewClient(ctx, nil)
  if err != nil {
      log.Fatal(err)
  }
  parts := []*genai.Part{
      genai.NewPartFromText("Please summarize the video in 3 sentences."),
      genai.NewPartFromURI("https://www.youtube.com/watch?v=9hE5-98ZeCg","video/mp4"),
  }
  contents := []*genai.Content{
      genai.NewContentFromParts(parts, genai.RoleUser),
  }
  result, _ := client.Models.GenerateContent(
      ctx,
      "gemini-2.5-flash",
      contents,
      nil,
  )
  fmt.Println(result.Text())
}
PUSHTIM
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
            {"text": "Please summarize the video in 3 sentences."},
            {
              "file_data": {
                "file_uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg"
              }
            }
        ]
      }]
    }' 2> /dev/null
Kufizime:
- Për nivelin falas, nuk mund të ngarkoni më shumë se 8 orë video në YouTube në ditë.
- Për nivelin me pagesë, nuk ka kufij bazuar në gjatësinë e videos.
- Për modelet para Gemini 2.5, mund të ngarkoni vetëm 1 video për kërkesë. Për modelet Gemini 2.5 dhe më të reja, mund të ngarkoni maksimumi 10 video për kërkesë.
- Mund të ngarkoni vetëm video publike (jo video private ose të palistuara).
Referojuni vulave kohore në përmbajtje
 Mund të bësh pyetje në lidhje me pika specifike kohore brenda videos duke përdorur vula kohore të formës MM:SS . 
Python
prompt = "What are the examples given at 00:05 and 00:10 supposed to show us?" # Adjusted timestamps for the NASA video
JavaScript
const prompt = "What are the examples given at 00:05 and 00:10 supposed to show us?";
Shko
    prompt := []*genai.Part{
        genai.NewPartFromURI(currentVideoFile.URI, currentVideoFile.MIMEType),
         // Adjusted timestamps for the NASA video
        genai.NewPartFromText("What are the examples given at 00:05 and " +
            "00:10 supposed to show us?"),
    }
PUSHTIM
PROMPT="What are the examples given at 00:05 and 00:10 supposed to show us?"
Nxirrni të dhëna të hollësishme nga videoja
Modelet Gemini ofrojnë aftësi të fuqishme për të kuptuar përmbajtjen e videos duke përpunuar informacion nga rrjedhat audio dhe vizuale. Kjo ju lejon të nxirrni një sërë të pasur detajesh, duke përfshirë gjenerimin e përshkrimeve të asaj që po ndodh në një video dhe përgjigjen e pyetjeve në lidhje me përmbajtjen e saj. Për përshkrimet vizuale, modeli merr mostra nga videoja me një shpejtësi prej 1 kuadri për sekondë . Kjo shpejtësi mostrimi mund të ndikojë në nivelin e detajeve në përshkrime, veçanërisht për videot me pamje që ndryshojnë me shpejtësi.
Python
prompt = "Describe the key events in this video, providing both audio and visual details. Include timestamps for salient moments."
JavaScript
const prompt = "Describe the key events in this video, providing both audio and visual details. Include timestamps for salient moments.";
Shko
    prompt := []*genai.Part{
        genai.NewPartFromURI(currentVideoFile.URI, currentVideoFile.MIMEType),
        genai.NewPartFromText("Describe the key events in this video, providing both audio and visual details. " +
      "Include timestamps for salient moments."),
    }
PUSHTIM
PROMPT="Describe the key events in this video, providing both audio and visual details. Include timestamps for salient moments."
Personalizo përpunimin e videos
Mund ta personalizoni përpunimin e videos në Gemini API duke vendosur intervale prerjeje ose duke ofruar mostrim të personalizuar të shpejtësisë së kuadrove.
Cakto intervalet e prerjes
 Mund të shkurtosh video duke specifikuar videoMetadata me zhvendosje fillestare dhe mbaruese. 
Python
from google import genai
from google.genai import types
client = genai.Client()
response = client.models.generate_content(
    model='models/gemini-2.5-flash',
    contents=types.Content(
        parts=[
            types.Part(
                file_data=types.FileData(file_uri='https://www.youtube.com/watch?v=XEzRZ35urlk'),
                video_metadata=types.VideoMetadata(
                    start_offset='1250s',
                    end_offset='1570s'
                )
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
const model = 'gemini-2.5-flash';
async function main() {
const contents = [
  {
    role: 'user',
    parts: [
      {
        fileData: {
          fileUri: 'https://www.youtube.com/watch?v=9hE5-98ZeCg',
          mimeType: 'video/*',
        },
        videoMetadata: {
          startOffset: '40s',
          endOffset: '80s',
        }
      },
      {
        text: 'Please summarize the video in 3 sentences.',
      },
    ],
  },
];
const response = await ai.models.generateContent({
  model,
  contents,
});
console.log(response.text)
}
await main();
Cakto një shpejtësi kuadrosh të personalizuar
 Mund të caktoni marrjen e mostrave të shpejtësisë së kuadrove me porosi duke i kaluar një argument fps videoMetadata .
Python
from google import genai
from google.genai import types
# Only for videos of size <20Mb
video_file_name = "/path/to/your/video.mp4"
video_bytes = open(video_file_name, 'rb').read()
client = genai.Client()
response = client.models.generate_content(
    model='models/gemini-2.5-flash',
    contents=types.Content(
        parts=[
            types.Part(
                inline_data=types.Blob(
                    data=video_bytes,
                    mime_type='video/mp4'),
                video_metadata=types.VideoMetadata(fps=5)
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)
Si parazgjedhje, nga videoja merret një mostër prej 1 kuadri për sekondë (FPS). Mund të dëshironi të vendosni një FPS të ulët (< 1) për video të gjata. Kjo është veçanërisht e dobishme për video kryesisht statike (p.sh. leksione). Nëse dëshironi të kapni më shumë detaje në pamjet që ndryshojnë me shpejtësi, merrni në konsideratë vendosjen e një vlere më të lartë FPS.
Formatet e videos të mbështetura
Gemini mbështet llojet e mëposhtme të formateve MIME të videos:
-  video/mp4
-  video/mpeg
-  video/mov
-  video/avi
-  video/x-flv
-  video/mpg
-  video/webm
-  video/wmv
-  video/3gpp
Detajet teknike rreth videove
-  Modelet dhe konteksti i mbështetur : Të gjitha modelet Gemini 2.0 dhe 2.5 mund të përpunojnë të dhëna video.- Modelet me një dritare konteksti 2M mund të përpunojnë video deri në 2 orë të gjata në rezolucionin parazgjedhur të medias ose 6 orë të gjata në rezolucion të ulët të medias, ndërsa modelet me një dritare konteksti 1M mund të përpunojnë video deri në 1 orë të gjata në rezolucionin parazgjedhur të medias ose 3 orë të gjata në rezolucion të ulët të medias.
 
-  Përpunimi i File API : Kur përdorni File API, videot ruhen me 1 kornizë për sekondë (FPS) dhe audioja përpunohet me 1 Kbps (një kanal i vetëm). Vulat kohore shtohen çdo sekondë.- Këto norma mund të ndryshojnë në të ardhmen për përmirësime në përfundime.
- Mund ta anashkaloni shpejtësinë e marrjes së mostrave prej 1 FPS duke vendosur një shpejtësi të personalizuar të kuadrove .
 
-  Llogaritja e tokenëve : Çdo sekondë e videos tokenizohet si më poshtë:-  Korniza individuale (të marra si mostër në 1 FPS):-  Nëse mediaResolutionështë vendosur në të ulët, kornizat tokenizohen me 66 tokena për kornizë.
- Përndryshe, kornizat tokenizohen me 258 tokena për kornizë.
 
-  Nëse 
- Audio: 32 tokena për sekondë.
- Metadatat janë gjithashtu të përfshira.
- Totali: Përafërsisht 300 tokenë për sekondë video me rezolucion të parazgjedhur mediash, ose 100 tokenë për sekondë video me rezolucion të ulët mediash.
 
-  Korniza individuale (të marra si mostër në 1 FPS):
-  Formati i vulës kohore : Kur i referoheni momenteve specifike në një video brenda kërkesës suaj, përdorni formatin MM:SS(p.sh.,01:15për 1 minutë e 15 sekonda).
-  Praktikat më të mira :- Përdorni vetëm një video për çdo kërkesë të menjëhershme për rezultate optimale.
-  Nëse kombinoni tekst dhe një video të vetme, vendoseni mesazhin e tekstit pas pjesës së videos në vargun contents.
- Kini parasysh se sekuencat e veprimit të shpejtë mund të humbasin detaje për shkak të shkallës së mostrimit prej 1 FPS. Konsideroni ngadalësimin e klipeve të tilla nëse është e nevojshme.
 
Çfarë vjen më pas
Ky udhëzues tregon se si të ngarkoni skedarë video dhe të gjeneroni rezultate teksti nga të dhënat hyrëse të videos. Për të mësuar më shumë, shihni burimet e mëposhtme:
- Udhëzimet e sistemit : Udhëzimet e sistemit ju lejojnë të drejtoni sjelljen e modelit bazuar në nevojat dhe rastet tuaja specifike të përdorimit.
- API-t e skedarëve : Mësoni më shumë rreth ngarkimit dhe menaxhimit të skedarëve për përdorim me Gemini.
- Strategjitë e nxitjes së skedarëve : API Gemini mbështet nxitjen me të dhëna teksti, imazhi, audio dhe video, të njohura edhe si nxitje multimodale.
- Udhëzime për sigurinë : Ndonjëherë modelet gjeneruese të IA-së prodhojnë rezultate të papritura, të tilla si rezultate që janë të pasakta, të anshme ose fyese. Përpunimi pasues dhe vlerësimi njerëzor janë thelbësorë për të kufizuar rrezikun e dëmtimit nga rezultate të tilla.