Kjo faqe është përkthyer nga Cloud Translation API.

Kuptimi i videos

Për të mësuar rreth gjenerimit të videove, shihni udhëzuesin Veo .

Modelet Gemini mund të përpunojnë video, duke mundësuar shumë raste përdorimi të zhvilluesve të nivelit të lartë që historikisht do të kishin kërkuar modele specifike për domenin. Disa nga aftësitë e vizionit të Gemini përfshijnë aftësinë për të: përshkruar, segmentuar dhe nxjerrë informacion nga videot, për t'iu përgjigjur pyetjeve në lidhje me përmbajtjen e videos dhe për t'iu referuar afateve kohore specifike brenda një videoje.

Ju mund të ofroni video si të dhëna për Binjakët në mënyrat e mëposhtme:

Metoda e hyrjes	Madhësia maksimale	Rast përdorimi i rekomanduar
API-ja e skedarëve	20GB (me pagesë) / 2GB (falas)	Skedarë të mëdhenj (100MB+), video të gjata (10min+), skedarë të ripërdorshëm.
Të dhëna të integruara	< 100MB	Skedarë të vegjël (<100MB), kohëzgjatje e shkurtër (<1min), hyrje të vetme.
URL-të e YouTube-it	N/A	Video publike në YouTube.

Shënim: API-ja e skedarëve rekomandohet për shumicën e rasteve të përdorimit, veçanërisht për skedarët më të mëdhenj se 100 MB ose kur dëshironi ta ripërdorni skedarin në kërkesa të shumëfishta.

Për të mësuar rreth metodave të tjera të futjes së skedarëve, siç është përdorimi i URL-ve të jashtme ose skedarëve të ruajtur në Google Cloud, shihni udhëzuesin e metodave të futjes së skedarëve .

Ngarko një skedar videoje

Kodi i mëposhtëm shkarkon një video shembull, e ngarkon atë duke përdorur API-n e Skedarëve , pret që të përpunohet dhe më pas përdor referencën e skedarit të ngarkuar për të përmbledhur videon.

Python

from google import genai

client = genai.Client()

myfile = client.files.upload(file="path/to/sample.mp4")

response = client.models.generate_content(
    model="gemini-3-flash-preview", contents=[myfile, "Summarize this video. Then create a quiz with an answer key based on the information in this video."]
)

print(response.text)

JavaScript

import {
  GoogleGenAI,
  createUserContent,
  createPartFromUri,
} from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/sample.mp4",
    config: { mimeType: "video/mp4" },
  });

  const response = await ai.models.generateContent({
    model: "gemini-3-flash-preview",
    contents: createUserContent([
      createPartFromUri(myfile.uri, myfile.mimeType),
      "Summarize this video. Then create a quiz with an answer key based on the information in this video.",
    ]),
  });
  console.log(response.text);
}

await main();

Shko

uploadedFile, _ := client.Files.UploadFromPath(ctx, "path/to/sample.mp4", nil)

parts := []*genai.Part{
    genai.NewPartFromText("Summarize this video. Then create a quiz with an answer key based on the information in this video."),
    genai.NewPartFromURI(uploadedFile.URI, uploadedFile.MIMEType),
}

contents := []*genai.Content{
    genai.NewContentFromParts(parts, genai.RoleUser),
}

result, _ := client.Models.GenerateContent(
    ctx,
    "gemini-3-flash-preview",
    contents,
    nil,
)

fmt.Println(result.Text())

PUSHTIM

VIDEO_PATH="path/to/sample.mp4"
MIME_TYPE=$(file -b --mime-type "${VIDEO_PATH}")
NUM_BYTES=$(wc -c < "${VIDEO_PATH}")
DISPLAY_NAME=VIDEO

tmp_header_file=upload-header.tmp

echo "Starting file upload..."
curl "https://generativelanguage.googleapis.com/upload/v1beta/files" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -D ${tmp_header_file} \
  -H "X-Goog-Upload-Protocol: resumable" \
  -H "X-Goog-Upload-Command: start" \
  -H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
  -H "Content-Type: application/json" \
  -d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null

upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"

echo "Uploading video data..."
curl "${upload_url}" \
  -H "Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Offset: 0" \
  -H "X-Goog-Upload-Command: upload, finalize" \
  --data-binary "@${VIDEO_PATH}" 2> /dev/null > file_info.json

file_uri=$(jq -r ".file.uri" file_info.json)
echo file_uri=$file_uri

echo "File uploaded successfully. File URI: ${file_uri}"

# --- 3. Generate content using the uploaded video file ---
echo "Generating content from video..."
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
          {"file_data":{"mime_type": "'"${MIME_TYPE}"'", "file_uri": "'"${file_uri}"'"}},
          {"text": "Summarize this video. Then create a quiz with an answer key based on the information in this video."}]
        }]
      }' 2> /dev/null > response.json

jq -r ".candidates[].content.parts[].text" response.json

Përdorni gjithmonë API-në e Skedarëve kur madhësia totale e kërkesës (duke përfshirë skedarin, kërkesën me tekst, udhëzimet e sistemit, etj.) është më e madhe se 20 MB, kohëzgjatja e videos është e konsiderueshme ose nëse keni ndërmend të përdorni të njëjtën video në kërkesa të shumta. API-ja e Skedarëve pranon drejtpërdrejt formatet e skedarëve video.

Për të mësuar më shumë rreth punës me skedarët mediatikë, shihni API-n e Skedarëve .

Kaloni të dhënat e videos në linjë

Në vend që të ngarkoni një skedar video duke përdorur File API, mund të kaloni video më të vogla direkt në kërkesë për generateContent . Kjo është e përshtatshme për video më të shkurtra me madhësi totale kërkese nën 20MB.

Ja një shembull i ofrimit të të dhënave video të integruara:

Python

from google import genai
from google.genai import types

# Only for videos of size <20Mb
video_file_name = "/path/to/your/video.mp4"
video_bytes = open(video_file_name, 'rb').read()

client = genai.Client()
response = client.models.generate_content(
    model='gemini-3-flash-preview',
    contents=types.Content(
        parts=[
            types.Part(
                inline_data=types.Blob(data=video_bytes, mime_type='video/mp4')
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)
print(response.text)

JavaScript

import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";

const ai = new GoogleGenAI({});
const base64VideoFile = fs.readFileSync("path/to/small-sample.mp4", {
  encoding: "base64",
});

const contents = [
  {
    inlineData: {
      mimeType: "video/mp4",
      data: base64VideoFile,
    },
  },
  { text: "Please summarize the video in 3 sentences." }
];

const response = await ai.models.generateContent({
  model: "gemini-3-flash-preview",
  contents: contents,
});
console.log(response.text);

PUSHTIM

VIDEO_PATH=/path/to/your/video.mp4

if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
  B64FLAGS="--input"
else
  B64FLAGS="-w0"
fi

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
            {
              "inline_data": {
                "mime_type":"video/mp4",
                "data": "'$(base64 $B64FLAGS $VIDEO_PATH)'"
              }
            },
            {"text": "Please summarize the video in 3 sentences."}
        ]
      }]
    }' 2> /dev/null

URL-të e YouTube-it të kalimit

Ju mund t'i kaloni URL-të e YouTube direkt te Gemini API si pjesë e kërkesës suaj si më poshtë:

Python

from google import genai
from google.genai import types

client = genai.Client()
response = client.models.generate_content(
    model='gemini-3-flash-preview',
    contents=types.Content(
        parts=[
            types.Part(
                file_data=types.FileData(file_uri='https://www.youtube.com/watch?v=9hE5-98ZeCg')
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)
print(response.text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

const contents = [
  {
    fileData: {
      fileUri: "https://www.youtube.com/watch?v=9hE5-98ZeCg",
    },
  },
  { text: "Please summarize the video in 3 sentences." }
];

const response = await ai.models.generateContent({
  model: "gemini-3-flash-preview",
  contents: contents,
});
console.log(response.text);

Shko

package main

import (
  "context"
  "fmt"
  "os"
  "google.golang.org/genai"
)

func main() {
  ctx := context.Background()
  client, err := genai.NewClient(ctx, nil)
  if err != nil {
      log.Fatal(err)
  }

  parts := []*genai.Part{
      genai.NewPartFromText("Please summarize the video in 3 sentences."),
      genai.NewPartFromURI("https://www.youtube.com/watch?v=9hE5-98ZeCg","video/mp4"),
  }

  contents := []*genai.Content{
      genai.NewContentFromParts(parts, genai.RoleUser),
  }

  result, _ := client.Models.GenerateContent(
      ctx,
      "gemini-3-flash-preview",
      contents,
      nil,
  )

  fmt.Println(result.Text())
}

PUSHTIM

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
            {"text": "Please summarize the video in 3 sentences."},
            {
              "file_data": {
                "file_uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg"
              }
            }
        ]
      }]
    }' 2> /dev/null

Kufizime:

Për nivelin falas, nuk mund të ngarkoni më shumë se 8 orë video në YouTube në ditë.
Për nivelin me pagesë, nuk ka kufij bazuar në gjatësinë e videos.
Për modelet para Gemini 2.5, mund të ngarkoni vetëm 1 video për kërkesë. Për modelet Gemini 2.5 dhe më të reja, mund të ngarkoni maksimumi 10 video për kërkesë.
Mund të ngarkoni vetëm video publike (jo video private ose të palistuara).

Përdorni ruajtjen në memorje të kontekstit për video të gjata

Për videot më të gjata se 10 minuta, ose kur planifikoni të bëni kërkesa të shumëfishta kundër të njëjtit skedar video, përdorni ruajtjen në memorje kontekstuale për të ulur kostot dhe për të përmirësuar vonesën. Ruajtja në memorje kontekstuale ju lejon të përpunoni videon një herë dhe të ripërdorni tokenët për pyetjet pasuese, duke e bërë atë ideal për seanca bisede ose analiza të përsëritura të përmbajtjes me format të gjatë.

Referojuni vulave kohore në përmbajtje

Mund të bësh pyetje në lidhje me pika specifike kohore brenda videos duke përdorur vula kohore të formës MM:SS .

Python

prompt = "What are the examples given at 00:05 and 00:10 supposed to show us?" # Adjusted timestamps for the NASA video

JavaScript

const prompt = "What are the examples given at 00:05 and 00:10 supposed to show us?";

Shko

    prompt := []*genai.Part{
        genai.NewPartFromURI(currentVideoFile.URI, currentVideoFile.MIMEType),
         // Adjusted timestamps for the NASA video
        genai.NewPartFromText("What are the examples given at 00:05 and " +
            "00:10 supposed to show us?"),
    }

PUSHTIM

PROMPT="What are the examples given at 00:05 and 00:10 supposed to show us?"

Nxirrni të dhëna të hollësishme nga videoja

Modelet Gemini ofrojnë aftësi të fuqishme për të kuptuar përmbajtjen e videos duke përpunuar informacion si nga transmetimet audio ashtu edhe nga ato vizuale . Kjo ju lejon të nxirrni një sërë të pasur detajesh, duke përfshirë gjenerimin e përshkrimeve të asaj që po ndodh në një video dhe përgjigjen e pyetjeve rreth përmbajtjes së saj.

Për përshkrimet vizuale, modeli merr mostra nga videoja me një shpejtësi prej 1 kuadri për sekondë (FPS). Kjo shpejtësi e parazgjedhur e marrjes së mostrave funksionon mirë për shumicën e përmbajtjes, por vini re se mund të humbasë detaje në videot me lëvizje të shpejtë ose ndryshime të shpejta të skenës. Për përmbajtje të tillë me lëvizje të lartë, merrni në konsideratë vendosjen e një shpejtësie të personalizuar të kuadrove .

Python

prompt = "Describe the key events in this video, providing both audio and visual details. Include timestamps for salient moments."

JavaScript

const prompt = "Describe the key events in this video, providing both audio and visual details. Include timestamps for salient moments.";

Shko

    prompt := []*genai.Part{
        genai.NewPartFromURI(currentVideoFile.URI, currentVideoFile.MIMEType),
        genai.NewPartFromText("Describe the key events in this video, providing both audio and visual details. " +
      "Include timestamps for salient moments."),
    }

PUSHTIM

PROMPT="Describe the key events in this video, providing both audio and visual details. Include timestamps for salient moments."

Personalizo përpunimin e videos

Mund ta personalizoni përpunimin e videos në Gemini API duke vendosur intervale prerjeje ose duke ofruar mostrim të personalizuar të shpejtësisë së kuadrove.

Cakto intervalet e prerjes

Mund të shkurtosh video duke specifikuar videoMetadata me zhvendosje fillestare dhe mbaruese.

Python

from google import genai
from google.genai import types

client = genai.Client()
response = client.models.generate_content(
    model='models/gemini-3-flash-preview',
    contents=types.Content(
        parts=[
            types.Part(
                file_data=types.FileData(file_uri='https://www.youtube.com/watch?v=XEzRZ35urlk'),
                video_metadata=types.VideoMetadata(
                    start_offset='1250s',
                    end_offset='1570s'
                )
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)

JavaScript

import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
const model = 'gemini-3-flash-preview';

async function main() {
const contents = [
  {
    role: 'user',
    parts: [
      {
        fileData: {
          fileUri: 'https://www.youtube.com/watch?v=9hE5-98ZeCg',
          mimeType: 'video/*',
        },
        videoMetadata: {
          startOffset: '40s',
          endOffset: '80s',
        }
      },
      {
        text: 'Please summarize the video in 3 sentences.',
      },
    ],
  },
];

const response = await ai.models.generateContent({
  model,
  contents,
});

console.log(response.text)

}

await main();

Cakto një shpejtësi kuadrosh të personalizuar

Mund të caktoni marrjen e mostrave të shpejtësisë së kuadrove me porosi duke i kaluar një argument fps videoMetadata .

Python

from google import genai
from google.genai import types

# Only for videos of size <20Mb
video_file_name = "/path/to/your/video.mp4"
video_bytes = open(video_file_name, 'rb').read()

client = genai.Client()
response = client.models.generate_content(
    model='models/gemini-3-flash-preview',
    contents=types.Content(
        parts=[
            types.Part(
                inline_data=types.Blob(
                    data=video_bytes,
                    mime_type='video/mp4'),
                video_metadata=types.VideoMetadata(fps=5)
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)

Si parazgjedhje, nga videoja merret një mostër prej 1 kuadri për sekondë (FPS). Mund të dëshironi të vendosni një FPS të ulët (< 1) për video të gjata. Kjo është veçanërisht e dobishme për video kryesisht statike (p.sh. leksione). Përdorni një FPS më të lartë për videot që kërkojnë analizë të detajuar kohore, siç është kuptimi i veprimit të shpejtë ose gjurmimi i lëvizjes me shpejtësi të lartë.

Formatet e videos të mbështetura

Gemini mbështet llojet e mëposhtme të formateve MIME të videos:

video/mp4
video/mpeg
video/mov
video/avi
video/x-flv
video/mpg
video/webm
video/wmv
video/3gpp

Detajet teknike rreth videove

Modelet dhe konteksti i mbështetur : Të gjithë Gemini mund të përpunojnë të dhëna video.
- Modelet me një dritare konteksti 1M mund të përpunojnë video deri në 1 orë të gjata në rezolucionin parazgjedhur të medias ose 3 orë të gjata në rezolucion të ulët të medias.
Përpunimi i File API : Kur përdorni File API, videot ruhen me 1 kornizë për sekondë (FPS) dhe audioja përpunohet me 1 Kbps (një kanal i vetëm). Vulat kohore shtohen çdo sekondë.
- Këto norma mund të ndryshojnë në të ardhmen për përmirësime në përfundime.
- Mund ta anashkaloni shpejtësinë e marrjes së mostrave prej 1 FPS duke vendosur një shpejtësi të personalizuar të kuadrove .
Llogaritja e tokenëve : Çdo sekondë e videos tokenizohet si më poshtë:
- Korniza individuale (të marra si mostër në 1 FPS):
  - Nëse mediaResolution është vendosur në të ulët, kornizat tokenizohen me 66 tokena për kornizë.
  - Përndryshe, kornizat tokenizohen me 258 tokena për kornizë.
- Audio: 32 tokena për sekondë.
- Metadatat janë gjithashtu të përfshira.
- Totali: Përafërsisht 300 tokenë për sekondë video me rezolucion të parazgjedhur mediash, ose 100 tokenë për sekondë video me rezolucion të ulët mediash.
Rezolucioni medial : Gemini 3 prezanton kontroll të detajuar mbi përpunimin e vizionit multimodal me parametrin media_resolution . Parametri media_resolution përcakton numrin maksimal të tokenëve të alokuar për imazh hyrës ose kuadër video. Rezolucionet më të larta përmirësojnë aftësinë e modelit për të lexuar tekst të imët ose për të identifikuar detaje të vogla, por rrisin përdorimin e tokenëve dhe vonesën.
Për më shumë detaje rreth parametrit dhe se si mund të ndikojë në llogaritjet e tokenëve, shihni udhëzuesin e rezolucionit të medias .
Formati i vulës kohore : Kur i referoheni momenteve specifike në një video brenda kërkesës suaj, përdorni formatin MM:SS (p.sh., 01:15 për 1 minutë e 15 sekonda).
Praktikat më të mira :
- Përdorni vetëm një video për çdo kërkesë të menjëhershme për rezultate optimale.
- Nëse kombinoni tekst dhe një video të vetme, vendoseni mesazhin e tekstit pas pjesës së videos në vargun e contents .
- Kini parasysh se sekuencat e veprimit të shpejtë mund të humbasin detaje për shkak të shkallës së mostrimit prej 1 FPS. Konsideroni ngadalësimin e klipeve të tilla nëse është e nevojshme.

Çfarë vjen më pas

Ky udhëzues tregon se si të ngarkoni skedarë video dhe të gjeneroni rezultate teksti nga të dhënat hyrëse të videos. Për të mësuar më shumë, shihni burimet e mëposhtme:

Udhëzimet e sistemit : Udhëzimet e sistemit ju lejojnë të drejtoni sjelljen e modelit bazuar në nevojat dhe rastet tuaja specifike të përdorimit.
API-t e skedarëve : Mësoni më shumë rreth ngarkimit dhe menaxhimit të skedarëve për përdorim me Gemini.
Strategjitë e nxitjes së skedarëve : API Gemini mbështet nxitjen me të dhëna teksti, imazhi, audio dhe video, të njohura edhe si nxitje multimodale.
Udhëzime për sigurinë : Ndonjëherë modelet gjeneruese të IA-së prodhojnë rezultate të papritura, të tilla si rezultate që janë të pasakta, të anshme ose fyese. Përpunimi pasues dhe vlerësimi njerëzor janë thelbësorë për të kufizuar rrezikun e dëmtimit nga rezultate të tilla.