वीडियो की बारीक़ी से पहचान करना

वीडियो जनरेट करने के बारे में जानने के लिए, Veo की गाइड देखें.

Gemini मॉडल, वीडियो प्रोसेस कर सकते हैं. इससे डेवलपर, वीडियो से जुड़े कई ऐसे काम कर सकते हैं जिनके लिए पहले, डोमेन के हिसाब से मॉडल की ज़रूरत होती थी. Gemini की विज़न सुविधाओं में ये शामिल हैं: वीडियो के बारे में बताना, वीडियो को सेगमेंट में बांटना, वीडियो से जानकारी निकालना, वीडियो के कॉन्टेंट के बारे में सवालों के जवाब देना, और वीडियो में मौजूद किसी खास टाइमस्टैंप के बारे में बताना.

Gemini को इन तरीकों से वीडियो इनपुट के तौर पर दिया जा सकता है:

इनपुट विधि सबसे बड़ा साइज़ इस्तेमाल का सुझाया गया तरीका
File API 20 जीबी (पैसे चुकाकर) / 2 जीबी (मुफ़्त) बड़ी फ़ाइलें (100 एमबी से ज़्यादा), लंबे वीडियो (10 मिनट से ज़्यादा), बार-बार इस्तेमाल की जा सकने वाली फ़ाइलें.
Cloud Storage में रजिस्ट्रेशन हर फ़ाइल के लिए 2 जीबी (स्टोरेज की कोई सीमा नहीं) बड़ी फ़ाइलें (100 एमबी से ज़्यादा), लंबे वीडियो (10 मिनट से ज़्यादा), बार-बार इस्तेमाल की जा सकने वाली फ़ाइलें.
इनलाइन डेटा 100 एमबी से कम छोटी फ़ाइलें (100 एमबी से कम), कम अवधि वाले वीडियो (एक मिनट से कम), एक बार इस्तेमाल किए जाने वाले इनपुट.
YouTube के यूआरएल लागू नहीं YouTube के सार्वजनिक वीडियो.

ध्यान दें: ज़्यादातर मामलों में, File API का इस्तेमाल करने का सुझाव दिया जाता है. खास तौर पर, 100 एमबी से बड़ी फ़ाइलों के लिए या जब आपको एक से ज़्यादा अनुरोधों में फ़ाइल का फिर से इस्तेमाल करना हो.

फ़ाइल इनपुट के अन्य तरीकों के बारे में जानने के लिए, जैसे कि बाहरी यूआरएल या Google Cloud में सेव की गई फ़ाइलों का इस्तेमाल करना, फ़ाइल इनपुट के तरीके वाली गाइड देखें.

वीडियो फ़ाइल अपलोड करना

यहां दिया गया कोड, सैंपल वीडियो डाउनलोड करता है. इसके बाद, Files API का इस्तेमाल करके उसे अपलोड करता है. इसके बाद, वीडियो के प्रोसेस होने का इंतज़ार करता है. फिर, अपलोड की गई फ़ाइल के रेफ़रंस का इस्तेमाल करके, वीडियो की खास जानकारी देता है.

Python

from google import genai
import base64
import time

client = genai.Client()

myfile = client.files.upload(file="path/to/sample.mp4")

while not myfile.state or myfile.state.name != "ACTIVE":
    print("Processing video...")
    time.sleep(5)
    myfile = client.files.get(name=myfile.name)

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input=[
        {"type": "video", "uri": myfile.uri, "mime_type": myfile.mime_type},
        {"type": "text", "text": "Summarize this video. Then create a quiz with an answer key based on the information in this video."}
    ]
)

print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/sample.mp4",
    config: { mimeType: "video/mp4" },
  });

  let getFile = await ai.files.get({ name: myfile.name });
  while (getFile.state === 'PROCESSING') {
      getFile = await ai.files.get({ name: myfile.name });
      console.log(`current file status: ${getFile.state}`);
      console.log('File is still processing, retrying in 5 seconds');

      await new Promise((resolve) => {
          setTimeout(resolve, 5000);
      });
  }
  if (getFile.state === 'FAILED') {
      throw new Error('File processing failed.');
  }

  const interaction = await ai.interactions.create({
    model: "gemini-3.5-flash",
    input: [
      { type: "video", uri: myfile.uri, mime_type: myfile.mimeType },
      { type: "text", text: "Summarize this video. Then create a quiz with an answer key based on the information in this video." }
    ],
  });
  console.log(interaction.output_text);
}

await main();

REST

VIDEO_PATH="path/to/sample.mp4"
MIME_TYPE=$(file -b --mime-type "${VIDEO_PATH}")
NUM_BYTES=$(wc -c < "${VIDEO_PATH}")
DISPLAY_NAME=VIDEO

tmp_header_file=upload-header.tmp

echo "Starting file upload..."
curl "https://generativelanguage.googleapis.com/upload/v1beta/files" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -D ${tmp_header_file} \
  -H "X-Goog-Upload-Protocol: resumable" \
  -H "X-Goog-Upload-Command: start" \
  -H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
  -H "Content-Type: application/json" \
  -d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null

upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"

echo "Uploading video data..."
curl "${upload_url}" \
  -H "Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Offset: 0" \
  -H "X-Goog-Upload-Command: upload, finalize" \
  --data-binary "@${VIDEO_PATH}" 2> /dev/null > file_info.json

file_uri=$(jq -r ".file.uri" file_info.json)
file_name=$(jq -r ".file.name" file_info.json)
echo file_uri=$file_uri

echo "File uploaded successfully. File URI: ${file_uri}"

# Polling loop
echo "Waiting for file to be processed..."
while true; do
  curl -s "https://generativelanguage.googleapis.com/v1beta/${file_name}" \
    -H "x-goog-api-key: $GEMINI_API_KEY" > file_status.json
  state=$(jq -r ".state" file_status.json)
  echo "Current state: $state"
  if [ "$state" == "ACTIVE" ]; then
    break
  elif [ "$state" == "FAILED" ]; then
    echo "File processing failed."
    exit 1
  fi
  sleep 5
done

echo "Generating content from video..."
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
      "model": "gemini-3.5-flash",
      "input": [
        {"type": "video", "uri": "'${file_uri}'", "mime_type": "'${MIME_TYPE}'"},
        {"type": "text", "text": "Summarize this video. Then create a quiz with an answer key based on the information in this video."}
      ]
    }' 2> /dev/null > response.json

jq ".steps[].content[0].text" response.json

Files API का इस्तेमाल हमेशा तब करें, जब अनुरोध का कुल साइज़ (इसमें फ़ाइल, टेक्स्ट प्रॉम्प्ट, सिस्टम के निर्देश वगैरह शामिल हैं) 20 एमबी से ज़्यादा हो, वीडियो की अवधि ज़्यादा हो या अगर आपको एक ही वीडियो का इस्तेमाल, एक से ज़्यादा प्रॉम्प्ट में करना हो. File API, वीडियो फ़ाइल फ़ॉर्मैट को सीधे स्वीकार करता है.

मीडिया फ़ाइलों के साथ काम करने के बारे में ज़्यादा जानने के लिए, Files API देखें.

वीडियो डेटा को इनलाइन पास करना

File API का इस्तेमाल करके वीडियो फ़ाइल अपलोड करने के बजाय, छोटे वीडियो को सीधे अनुरोध में पास किया जा सकता है. यह सुविधा, 20 एमबी से कम साइज़ वाले छोटे वीडियो के लिए सही है.

यहां, इनलाइन वीडियो डेटा देने का एक उदाहरण दिया गया है:

Python

from google import genai
import base64

video_file_name = "/path/to/your/video.mp4"
video_bytes = open(video_file_name, 'rb').read()

client = genai.Client()
interaction = client.interactions.create(
    model='gemini-3.5-flash',
    input=[
        {"type": "text", "text": "Please summarize the video in 3 sentences."},
        {
            "type": "video",
            "data": base64.b64encode(video_bytes).decode('utf-8'),
            "mime_type": "video/mp4"
        }
    ]
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";

const ai = new GoogleGenAI({});
const base64VideoFile = fs.readFileSync("path/to/small-sample.mp4", {
  encoding: "base64",
});

const interaction = await ai.interactions.create({
  model: "gemini-3.5-flash",
  input: [
    { type: "text", text: "Please summarize the video in 3 sentences." },
    {
      type: "video",
      data: base64VideoFile,
      mime_type: "video/mp4",
    }
  ],
});
console.log(interaction.output_text);

REST

VIDEO_PATH=/path/to/your/video.mp4

if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
  B64FLAGS="--input"
else
  B64FLAGS="-w0"
fi

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
      "model": "gemini-3.5-flash",
      "input": [
        {"type": "text", "text": "Please summarize the video in 3 sentences."},
        {
          "type": "video",
          "data": "'$(base64 $B64FLAGS $VIDEO_PATH)'",
          "mime_type": "video/mp4"
        }
      ]
    }' 2> /dev/null

YouTube के यूआरएल पास करना

YouTube के यूआरएल को, Gemini API को सीधे अपने अनुरोध के हिस्से के तौर पर इस तरह पास किया जा सकता है:

Python

from google import genai

client = genai.Client()
interaction = client.interactions.create(
    model='gemini-3.5-flash',
    input=[
        {"type": "text", "text": "Please summarize the video in 3 sentences."},
        {
            "type": "video",
            "uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg"
        }
    ]
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

const interaction = await ai.interactions.create({
  model: "gemini-3.5-flash",
  input: [
    { type: "text", text: "Please summarize the video in 3 sentences." },
    {
      type: "video",
      uri: "https://www.youtube.com/watch?v=9hE5-98ZeCg",
    }
  ],
});
console.log(interaction.output_text);

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
      "model": "gemini-3.5-flash",
      "input": [
        {"type": "text", "text": "Please summarize the video in 3 sentences."},
        {
          "type": "video",
          "uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg"
        }
      ]
    }' 2> /dev/null

सीमाएं:

  • मुफ़्त टियर के लिए, हर दिन YouTube के आठ घंटे से ज़्यादा के वीडियो अपलोड नहीं किए जा सकते.
  • पैसे चुकाकर इस्तेमाल किए जाने वाले टियर के लिए, वीडियो की अवधि के हिसाब से कोई सीमा नहीं है.
  • Gemini 2.5 से पहले के मॉडल के लिए, हर अनुरोध में सिर्फ़ एक वीडियो अपलोड किया जा सकता है. Gemini 2.5 और इसके बाद के मॉडल के लिए, हर अनुरोध में ज़्यादा से ज़्यादा 10 वीडियो अपलोड किए जा सकते हैं.
  • सिर्फ़ सार्वजनिक वीडियो अपलोड किए जा सकते हैं. निजी या 'सबके लिए मौजूद नहीं' के तौर पर उपलब्ध वीडियो अपलोड नहीं किए जा सकते.

कॉन्टेंट में मौजूद टाइमस्टैंप के बारे में बताना

MM:SS फ़ॉर्मैट वाले टाइमस्टैंप का इस्तेमाल करके, वीडियो में मौजूद किसी खास समय के बारे में सवाल पूछे जा सकते हैं.

Python

prompt = "What are the examples given at 00:05 and 00:10 supposed to show us?"

JavaScript

const prompt = "What are the examples given at 00:05 and 00:10 supposed to show us?";

REST

PROMPT="What are the examples given at 00:05 and 00:10 supposed to show us?"

वीडियो से अहम जानकारी निकालना

Gemini मॉडल, वीडियो के कॉन्टेंट को समझने के लिए बेहतरीन सुविधाएं देते हैं. इसके लिए, वे ऑडियो और विज़ुअल, दोनों तरह के स्ट्रीम से जानकारी प्रोसेस करते हैं. इससे, वीडियो में क्या हो रहा है, इसकी जानकारी जनरेट करने और वीडियो के कॉन्टेंट के बारे में सवालों के जवाब देने के साथ-साथ, कई तरह की अहम जानकारी निकाली जा सकती है.

विज़ुअल जानकारी के लिए, मॉडल हर सेकंड एक फ़्रेम (एफ़पीएस) की दर से वीडियो का सैंपल लेता है. सैंपल लेने की यह डिफ़ॉल्ट दर, ज़्यादातर कॉन्टेंट के लिए सही है. हालांकि, ध्यान दें कि तेज़ी से चलने वाले वीडियो या सीन में तेज़ी से बदलाव होने वाले वीडियो में, यह कुछ जानकारी छोड़ सकता है.

Python

prompt = "Describe the key events in this video, providing both audio and visual details. Include timestamps for salient moments."

JavaScript

const prompt = "Describe the key events in this video, providing both audio and visual details. Include timestamps for salient moments.";

REST

PROMPT="Describe the key events in this video, providing both audio and visual details. Include timestamps for salient moments."

काम करने वाले वीडियो फ़ॉर्मैट

Gemini, इन वीडियो फ़ॉर्मैट के MIME टाइप के साथ काम करता है:

  • video/mp4
  • video/mpeg
  • video/mov
  • video/avi
  • video/x-flv
  • video/mpg
  • video/webm
  • video/wmv
  • video/3gpp

वीडियो के बारे में तकनीकी जानकारी

  • काम करने वाले मॉडल और कॉन्टेक्स्ट: सभी Gemini मॉडल, वीडियो डेटा को प्रोसेस कर सकते हैं.
    • 10 लाख कॉन्टेक्स्ट विंडो वाले मॉडल, डिफ़ॉल्ट मीडिया रिज़ॉल्यूशन पर एक घंटे तक के वीडियो या कम मीडिया रिज़ॉल्यूशन पर तीन घंटे तक के वीडियो प्रोसेस कर सकते हैं.
  • File API से प्रोसेसिंग: File API का इस्तेमाल करने पर, वीडियो को हर सेकंड एक फ़्रेम (एफ़पीएस) की दर से सेव किया जाता है. वहीं, ऑडियो को 1 केबीपीएस (सिंगल चैनल) की दर से प्रोसेस किया जाता है. हर सेकंड में टाइमस्टैंप जोड़े जाते हैं.
    • इन्फ़रंस को बेहतर बनाने के लिए, आने वाले समय में इन दरों में बदलाव किया जा सकता है.
  • टोकन की गिनती: वीडियो के हर सेकंड को इस तरह टोकन में बदला जाता है:
    • अलग-अलग फ़्रेम (हर सेकंड एक फ़्रेम की दर से सैंपल लिए गए):
      • अगर media_resolution को कम पर सेट किया जाता है, तो फ़्रेम को हर फ़्रेम के लिए 66 टोकन की दर से टोकन में बदला जाता है.
      • अन्य मामलों में, फ़्रेम को हर फ़्रेम के लिए 258 टोकन की दर से टोकन में बदला जाता है.
    • ऑडियो: हर सेकंड के लिए 32 टोकन.
    • इसमें मेटाडेटा भी शामिल होता है.
    • कुल: डिफ़ॉल्ट मीडिया रिज़ॉल्यूशन पर वीडियो के हर सेकंड के लिए करीब 300 टोकन या कम मीडिया रिज़ॉल्यूशन पर वीडियो के हर सेकंड के लिए 100 टोकन.
  • मीडिया रिज़ॉल्यूशन: Gemini 3 में, मल्टीमॉडल विज़न प्रोसेसिंग पर ज़्यादा कंट्रोल मिलता है.media_resolution media_resolution पैरामीटर, हर इनपुट इमेज या वीडियो फ़्रेम के लिए तय किए गए टोकन की ज़्यादा से ज़्यादा संख्या तय करता है. ज़्यादा रिज़ॉल्यूशन से, मॉडल को बारीक टेक्स्ट पढ़ने या छोटी-छोटी जानकारी की पहचान करने में मदद मिलती है. हालांकि, इससे टोकन का इस्तेमाल और इंतज़ार का समय बढ़ जाता है.

    टोकन की गिनती के बारे में ज़्यादा जानकारी के लिए, टोकन वाली गाइड देखें.

  • टाइमस्टैंप का फ़ॉर्मैट: अपने प्रॉम्प्ट में वीडियो के किसी खास पल के बारे में बताने के लिए, MM:SS फ़ॉर्मैट का इस्तेमाल करें. जैसे, एक मिनट और 15 सेकंड के लिए 01:15.

  • सबसे सही तरीके:

    • सबसे अच्छे नतीजों के लिए, हर प्रॉम्प्ट अनुरोध में सिर्फ़ एक वीडियो का इस्तेमाल करें.
    • अगर टेक्स्ट और एक वीडियो को एक साथ इस्तेमाल किया जा रहा है, तो input कलेक्शन में वीडियो वाले हिस्से के बाद टेक्स्ट प्रॉम्प्ट डालें.
    • ध्यान रखें कि हर सेकंड एक फ़्रेम की दर से सैंपल लेने की वजह से, तेज़ी से होने वाली कार्रवाई के क्रम में कुछ जानकारी छूट सकती है. अगर ज़रूरी हो, तो ऐसी क्लिप की स्पीड कम करें.

आगे क्या करना है

इस गाइड में, वीडियो फ़ाइलें अपलोड करने और वीडियो इनपुट से टेक्स्ट आउटपुट जनरेट करने का तरीका बताया गया है. ज़्यादा जानने के लिए, ये लेख पढ़ें और वीडियो देखें:

  • सिस्टम के निर्देश: सिस्टम के निर्देशों की मदद से, अपनी खास ज़रूरतों और इस्तेमाल के मामलों के हिसाब से मॉडल के व्यवहार को कंट्रोल किया जा सकता है.
  • Files API: Gemini के साथ इस्तेमाल करने के लिए, फ़ाइलें अपलोड करने और उन्हें मैनेज करने के बारे में ज़्यादा जानें.
  • फ़ाइल के साथ प्रॉम्प्ट करने की रणनीतियां: Gemini API, टेक्स्ट, इमेज, ऑडियो, और वीडियो डेटा के साथ प्रॉम्प्ट करने की सुविधा देता है. इसे मल्टीमॉडल प्रॉम्प्टिंग भी कहा जाता है.
  • सुरक्षा से जुड़े दिशा-निर्देश: कभी-कभी, जनरेटिव एआई मॉडल से ऐसे आउटपुट मिलते हैं जिनकी उम्मीद नहीं होती. जैसे, गलत, पक्षपाती या आपत्तिजनक आउटपुट. ऐसे आउटपुट से होने वाले नुकसान के जोखिम को कम करने के लिए, पोस्ट-प्रोसेसिंग और लोगों से आकलन कराना ज़रूरी है.