Kuptimi i videos

Modelet Gemini mund të përpunojnë video, duke mundësuar shumë raste përdorimi për zhvilluesit e nivelit të lartë që historikisht do të kishin kërkuar modele specifike për domenin. Disa nga aftësitë e vizionit të Gemini përfshijnë aftësinë për të:

  • Përshkruani, segmentoni dhe nxirrni informacion nga videot
  • Përgjigjuni pyetjeve në lidhje me përmbajtjen e videos
  • Referojuni vulave kohore specifike brenda një videoje

Gemini u ndërtua për të qenë multimodal që nga themelet dhe ne vazhdojmë të shtyjmë përpara kufijtë e asaj që është e mundur. Ky udhëzues tregon se si të përdoret Gemini API për të gjeneruar përgjigje me tekst bazuar në të dhënat video.

Hyrje videoje

Ju mund të ofroni video si të dhëna për Binjakët në mënyrat e mëposhtme:

  • Ngarko një skedar video duke përdorur File API përpara se të bësh një kërkesë për generateContent . Përdore këtë metodë për skedarë më të mëdhenj se 20MB, video më të gjata se afërsisht 1 minutë ose kur dëshiron ta ripërdorësh skedarin në kërkesa të shumëfishta.
  • Kaloni të dhënat e videos në linjë me kërkesën për generateContent . Përdoreni këtë metodë për skedarë më të vegjël (<20MB) dhe kohëzgjatje më të shkurtër.
  • Kaloni URL-të e YouTube si pjesë të kërkesës suaj generateContent .

Ngarko një skedar videoje

Mund të përdorni API-në e Skedarëve për të ngarkuar një skedar video. Përdorni gjithmonë API-në e Skedarëve kur madhësia totale e kërkesës (duke përfshirë skedarin, kërkesën me tekst, udhëzimet e sistemit, etj.) është më e madhe se 20 MB, kohëzgjatja e videos është e konsiderueshme ose nëse keni ndërmend të përdorni të njëjtën video në kërkesa të shumta. API-ja e Skedarëve pranon direkt formatet e skedarëve video.

Kodi i mëposhtëm shkarkon videon shembull, e ngarkon atë duke përdorur File API, pret që të përpunohet dhe më pas përdor referencën e skedarit në një kërkesë generateContent .

Python

from google import genai

client = genai.Client()

myfile = client.files.upload(file="path/to/sample.mp4")

response = client.models.generate_content(
    model="gemini-2.5-flash", contents=[myfile, "Summarize this video. Then create a quiz with an answer key based on the information in this video."]
)

print(response.text)

JavaScript

import {
  GoogleGenAI,
  createUserContent,
  createPartFromUri,
} from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/sample.mp4",
    config: { mimeType: "video/mp4" },
  });

  const response = await ai.models.generateContent({
    model: "gemini-2.5-flash",
    contents: createUserContent([
      createPartFromUri(myfile.uri, myfile.mimeType),
      "Summarize this video. Then create a quiz with an answer key based on the information in this video.",
    ]),
  });
  console.log(response.text);
}

await main();

Shko

uploadedFile, _ := client.Files.UploadFromPath(ctx, "path/to/sample.mp4", nil)

parts := []*genai.Part{
    genai.NewPartFromText("Summarize this video. Then create a quiz with an answer key based on the information in this video."),
    genai.NewPartFromURI(uploadedFile.URI, uploadedFile.MIMEType),
}

contents := []*genai.Content{
    genai.NewContentFromParts(parts, genai.RoleUser),
}

result, _ := client.Models.GenerateContent(
    ctx,
    "gemini-2.5-flash",
    contents,
    nil,
)

fmt.Println(result.Text())

PUSHTIM

VIDEO_PATH="path/to/sample.mp4"
MIME_TYPE=$(file -b --mime-type "${VIDEO_PATH}")
NUM_BYTES=$(wc -c < "${VIDEO_PATH}")
DISPLAY_NAME=VIDEO

tmp_header_file=upload-header.tmp

echo "Starting file upload..."
curl "https://generativelanguage.googleapis.com/upload/v1beta/files" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -D ${tmp_header_file} \
  -H "X-Goog-Upload-Protocol: resumable" \
  -H "X-Goog-Upload-Command: start" \
  -H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
  -H "Content-Type: application/json" \
  -d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null

upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"

echo "Uploading video data..."
curl "${upload_url}" \
  -H "Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Offset: 0" \
  -H "X-Goog-Upload-Command: upload, finalize" \
  --data-binary "@${VIDEO_PATH}" 2> /dev/null > file_info.json

file_uri=$(jq -r ".file.uri" file_info.json)
echo file_uri=$file_uri

echo "File uploaded successfully. File URI: ${file_uri}"

# --- 3. Generate content using the uploaded video file ---
echo "Generating content from video..."
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
          {"file_data":{"mime_type": "'"${MIME_TYPE}"'", "file_uri": "'"${file_uri}"'"}},
          {"text": "Summarize this video. Then create a quiz with an answer key based on the information in this video."}]
        }]
      }' 2> /dev/null > response.json

jq -r ".candidates[].content.parts[].text" response.json

Për të mësuar më shumë rreth punës me skedarët mediatikë, shihni API-n e Skedarëve .

Kaloni të dhënat e videos në linjë

Në vend që të ngarkoni një skedar video duke përdorur File API, mund të kaloni video më të vogla direkt në kërkesë për generateContent . Kjo është e përshtatshme për video më të shkurtra me madhësi totale kërkese nën 20MB.

Ja një shembull i ofrimit të të dhënave video të integruara:

Python

from google import genai
from google.genai import types

# Only for videos of size <20Mb
video_file_name = "/path/to/your/video.mp4"
video_bytes = open(video_file_name, 'rb').read()

client = genai.Client()
response = client.models.generate_content(
    model='models/gemini-2.5-flash',
    contents=types.Content(
        parts=[
            types.Part(
                inline_data=types.Blob(data=video_bytes, mime_type='video/mp4')
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)

JavaScript

import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";

const ai = new GoogleGenAI({});
const base64VideoFile = fs.readFileSync("path/to/small-sample.mp4", {
  encoding: "base64",
});

const contents = [
  {
    inlineData: {
      mimeType: "video/mp4",
      data: base64VideoFile,
    },
  },
  { text: "Please summarize the video in 3 sentences." }
];

const response = await ai.models.generateContent({
  model: "gemini-2.5-flash",
  contents: contents,
});
console.log(response.text);

PUSHTIM

VIDEO_PATH=/path/to/your/video.mp4

if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
  B64FLAGS="--input"
else
  B64FLAGS="-w0"
fi

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
            {
              "inline_data": {
                "mime_type":"video/mp4",
                "data": "'$(base64 $B64FLAGS $VIDEO_PATH)'"
              }
            },
            {"text": "Please summarize the video in 3 sentences."}
        ]
      }]
    }' 2> /dev/null

URL-të e YouTube-it të kalimit

Mund t’i kaloni URL-të e YouTube direkt te Gemini API si pjesë e kërkesës suaj generateContent si më poshtë:

Python

response = client.models.generate_content(
    model='models/gemini-2.5-flash',
    contents=types.Content(
        parts=[
            types.Part(
                file_data=types.FileData(file_uri='https://www.youtube.com/watch?v=9hE5-98ZeCg')
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)

JavaScript

import { GoogleGenerativeAI } from "@google/generative-ai";

const genAI = new GoogleGenerativeAI(process.env.GOOGLE_API_KEY);
const model = genAI.getGenerativeModel({ model: "gemini-2.5-flash" });
const result = await model.generateContent([
  "Please summarize the video in 3 sentences.",
  {
    fileData: {
      fileUri: "https://www.youtube.com/watch?v=9hE5-98ZeCg",
    },
  },
]);
console.log(result.response.text());

Shko

package main

import (
  "context"
  "fmt"
  "os"
  "google.golang.org/genai"
)

func main() {
  ctx := context.Background()
  client, err := genai.NewClient(ctx, nil)
  if err != nil {
      log.Fatal(err)
  }

  parts := []*genai.Part{
      genai.NewPartFromText("Please summarize the video in 3 sentences."),
      genai.NewPartFromURI("https://www.youtube.com/watch?v=9hE5-98ZeCg","video/mp4"),
  }

  contents := []*genai.Content{
      genai.NewContentFromParts(parts, genai.RoleUser),
  }

  result, _ := client.Models.GenerateContent(
      ctx,
      "gemini-2.5-flash",
      contents,
      nil,
  )

  fmt.Println(result.Text())
}

PUSHTIM

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
            {"text": "Please summarize the video in 3 sentences."},
            {
              "file_data": {
                "file_uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg"
              }
            }
        ]
      }]
    }' 2> /dev/null

Kufizime:

  • Për nivelin falas, nuk mund të ngarkoni më shumë se 8 orë video në YouTube në ditë.
  • Për nivelin me pagesë, nuk ka kufij bazuar në gjatësinë e videos.
  • Për modelet para Gemini 2.5, mund të ngarkoni vetëm 1 video për kërkesë. Për modelet Gemini 2.5 dhe më të reja, mund të ngarkoni maksimumi 10 video për kërkesë.
  • Mund të ngarkoni vetëm video publike (jo video private ose të palistuara).

Referojuni vulave kohore në përmbajtje

Mund të bësh pyetje në lidhje me pika specifike kohore brenda videos duke përdorur vula kohore të formës MM:SS .

Python

prompt = "What are the examples given at 00:05 and 00:10 supposed to show us?" # Adjusted timestamps for the NASA video

JavaScript

const prompt = "What are the examples given at 00:05 and 00:10 supposed to show us?";

Shko

    prompt := []*genai.Part{
        genai.NewPartFromURI(currentVideoFile.URI, currentVideoFile.MIMEType),
         // Adjusted timestamps for the NASA video
        genai.NewPartFromText("What are the examples given at 00:05 and " +
            "00:10 supposed to show us?"),
    }

PUSHTIM

PROMPT="What are the examples given at 00:05 and 00:10 supposed to show us?"

Nxirrni të dhëna të hollësishme nga videoja

Modelet Gemini ofrojnë aftësi të fuqishme për të kuptuar përmbajtjen e videos duke përpunuar informacion nga rrjedhat audio dhe vizuale. Kjo ju lejon të nxirrni një sërë të pasur detajesh, duke përfshirë gjenerimin e përshkrimeve të asaj që po ndodh në një video dhe përgjigjen e pyetjeve në lidhje me përmbajtjen e saj. Për përshkrimet vizuale, modeli merr mostra nga videoja me një shpejtësi prej 1 kuadri për sekondë . Kjo shpejtësi mostrimi mund të ndikojë në nivelin e detajeve në përshkrime, veçanërisht për videot me pamje që ndryshojnë me shpejtësi.

Python

prompt = "Describe the key events in this video, providing both audio and visual details. Include timestamps for salient moments."

JavaScript

const prompt = "Describe the key events in this video, providing both audio and visual details. Include timestamps for salient moments.";

Shko

    prompt := []*genai.Part{
        genai.NewPartFromURI(currentVideoFile.URI, currentVideoFile.MIMEType),
        genai.NewPartFromText("Describe the key events in this video, providing both audio and visual details. " +
      "Include timestamps for salient moments."),
    }

PUSHTIM

PROMPT="Describe the key events in this video, providing both audio and visual details. Include timestamps for salient moments."

Personalizo përpunimin e videos

Mund ta personalizoni përpunimin e videos në Gemini API duke vendosur intervale prerjeje ose duke ofruar mostrim të personalizuar të shpejtësisë së kuadrove.

Cakto intervalet e prerjes

Mund të shkurtosh video duke specifikuar videoMetadata me zhvendosje fillestare dhe mbaruese.

Python

from google import genai
from google.genai import types

client = genai.Client()
response = client.models.generate_content(
    model='models/gemini-2.5-flash',
    contents=types.Content(
        parts=[
            types.Part(
                file_data=types.FileData(file_uri='https://www.youtube.com/watch?v=XEzRZ35urlk'),
                video_metadata=types.VideoMetadata(
                    start_offset='1250s',
                    end_offset='1570s'
                )
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)

JavaScript

import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
const model = 'gemini-2.5-flash';

async function main() {
const contents = [
  {
    role: 'user',
    parts: [
      {
        fileData: {
          fileUri: 'https://www.youtube.com/watch?v=9hE5-98ZeCg',
          mimeType: 'video/*',
        },
        videoMetadata: {
          startOffset: '40s',
          endOffset: '80s',
        }
      },
      {
        text: 'Please summarize the video in 3 sentences.',
      },
    ],
  },
];

const response = await ai.models.generateContent({
  model,
  contents,
});

console.log(response.text)

}

await main();

Cakto një shpejtësi kuadrosh të personalizuar

Mund të caktoni marrjen e mostrave të shpejtësisë së kuadrove me porosi duke i kaluar një argument fps videoMetadata .

Python

from google import genai
from google.genai import types

# Only for videos of size <20Mb
video_file_name = "/path/to/your/video.mp4"
video_bytes = open(video_file_name, 'rb').read()

client = genai.Client()
response = client.models.generate_content(
    model='models/gemini-2.5-flash',
    contents=types.Content(
        parts=[
            types.Part(
                inline_data=types.Blob(
                    data=video_bytes,
                    mime_type='video/mp4'),
                video_metadata=types.VideoMetadata(fps=5)
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)

Si parazgjedhje, nga videoja merret një mostër prej 1 kuadri për sekondë (FPS). Mund të dëshironi të vendosni një FPS të ulët (< 1) për video të gjata. Kjo është veçanërisht e dobishme për video kryesisht statike (p.sh. leksione). Nëse dëshironi të kapni më shumë detaje në pamjet që ndryshojnë me shpejtësi, merrni në konsideratë vendosjen e një vlere më të lartë FPS.

Formatet e videos të mbështetura

Gemini mbështet llojet e mëposhtme të formateve MIME të videos:

  • video/mp4
  • video/mpeg
  • video/mov
  • video/avi
  • video/x-flv
  • video/mpg
  • video/webm
  • video/wmv
  • video/3gpp

Detajet teknike rreth videove

  • Modelet dhe konteksti i mbështetur : Të gjitha modelet Gemini 2.0 dhe 2.5 mund të përpunojnë të dhëna video.
    • Modelet me një dritare konteksti 2M mund të përpunojnë video deri në 2 orë të gjata në rezolucionin parazgjedhur të medias ose 6 orë të gjata në rezolucion të ulët të medias, ndërsa modelet me një dritare konteksti 1M mund të përpunojnë video deri në 1 orë të gjata në rezolucionin parazgjedhur të medias ose 3 orë të gjata në rezolucion të ulët të medias.
  • Përpunimi i File API : Kur përdorni File API, videot ruhen me 1 kornizë për sekondë (FPS) dhe audioja përpunohet me 1 Kbps (një kanal i vetëm). Vulat kohore shtohen çdo sekondë.
  • Llogaritja e tokenëve : Çdo sekondë e videos tokenizohet si më poshtë:
    • Korniza individuale (të marra si mostër në 1 FPS):
      • Nëse mediaResolution është vendosur në të ulët, kornizat tokenizohen me 66 tokena për kornizë.
      • Përndryshe, kornizat tokenizohen me 258 tokena për kornizë.
    • Audio: 32 tokena për sekondë.
    • Metadatat janë gjithashtu të përfshira.
    • Totali: Përafërsisht 300 tokenë për sekondë video me rezolucion të parazgjedhur mediash, ose 100 tokenë për sekondë video me rezolucion të ulët mediash.
  • Formati i vulës kohore : Kur i referoheni momenteve specifike në një video brenda kërkesës suaj, përdorni formatin MM:SS (p.sh., 01:15 për 1 minutë e 15 sekonda).
  • Praktikat më të mira :
    • Përdorni vetëm një video për çdo kërkesë të menjëhershme për rezultate optimale.
    • Nëse kombinoni tekst dhe një video të vetme, vendoseni mesazhin e tekstit pas pjesës së videos në vargun contents .
    • Kini parasysh se sekuencat e veprimit të shpejtë mund të humbasin detaje për shkak të shkallës së mostrimit prej 1 FPS. Konsideroni ngadalësimin e klipeve të tilla nëse është e nevojshme.

Çfarë vjen më pas

Ky udhëzues tregon se si të ngarkoni skedarë video dhe të gjeneroni rezultate teksti nga të dhënat hyrëse të videos. Për të mësuar më shumë, shihni burimet e mëposhtme:

  • Udhëzimet e sistemit : Udhëzimet e sistemit ju lejojnë të drejtoni sjelljen e modelit bazuar në nevojat dhe rastet tuaja specifike të përdorimit.
  • API-t e skedarëve : Mësoni më shumë rreth ngarkimit dhe menaxhimit të skedarëve për përdorim me Gemini.
  • Strategjitë e nxitjes së skedarëve : API Gemini mbështet nxitjen me të dhëna teksti, imazhi, audio dhe video, të njohura edhe si nxitje multimodale.
  • Udhëzime për sigurinë : Ndonjëherë modelet gjeneruese të IA-së prodhojnë rezultate të papritura, të tilla si rezultate që janë të pasakta, të anshme ose fyese. Përpunimi pasues dhe vlerësimi njerëzor janë thelbësorë për të kufizuar rrezikun e dëmtimit nga rezultate të tilla.