Eksploroni aftësitë e shikimit me Gemini API

Modelet e Gemini janë në gjendje të përpunojnë imazhe dhe video, duke mundësuar shumë raste të përdorimit të zhvilluesve kufitarë që do të kishin kërkuar historikisht modele specifike të domenit. Disa nga aftësitë e vizionit të Binjakëve përfshijnë aftësinë për të:

  • Shkruani dhe përgjigjuni pyetjeve rreth imazheve
  • Transkriptoni dhe arsyetoni mbi skedarët PDF, duke përfshirë deri në 2 milion argumente
  • Përshkruani, segmentoni dhe nxirrni informacione nga videot deri në 90 minuta
  • Zbuloni objektet në një imazh dhe ktheni koordinatat e kutisë kufizuese për to

Binjakët u ndërtuan për të qenë multimodal nga themeli dhe ne vazhdojmë të shtyjmë kufirin e asaj që është e mundur.

Çfarë është më pas

Ky udhëzues tregon se si të ngarkoni skedarët e imazhit dhe videove duke përdorur API të skedarit dhe më pas të gjeneroni rezultate të tekstit nga inputet e figurës dhe videove. Për të mësuar më shumë, shihni burimet e mëposhtme:

  • Strategjitë e nxitjes së skedarëve : API Binjakët mbështet të dhënat e tekstit, imazhit, audios dhe videove, të njohura edhe si nxitje multimodale.
  • Udhëzimet e sistemit : Udhëzimet e sistemit ju lejojnë të drejtoni sjelljen e modelit bazuar në nevojat tuaja specifike dhe të përdorni raste.
  • Udhëzimi i sigurisë : Ndonjëherë modelet gjeneruese të AI prodhojnë rezultate të papritura, siç janë rezultatet që janë të pasakta, të njëanshme ose fyese. Pas përpunimit dhe vlerësimit njerëzor janë thelbësore për të kufizuar rrezikun e dëmtimit nga rezultatet e tilla.
,

Modelet e Binjakëve janë në gjendje të përpunojnë imazhe dhe video, duke mundësuar shumë raste të përdorimit të zhvilluesve të kufijve që do të kërkonin historikisht modele specifike të domenit. Disa nga aftësitë e vizionit të Binjakëve përfshijnë aftësinë për të:

  • Titulli dhe përgjigju pyetjeve në lidhje me imazhet
  • Transkriptoni dhe arsyeja mbi PDF, përfshirë deri në 2 milion shenja
  • Përshkruani, segmentin dhe nxirrni informacione nga videot deri në 90 minuta të gjata
  • Zbuloni objektet në një imazh dhe kthimin e koordinatave të kutisë kufizuese për ta

Binjakët u ndërtuan për të qenë multimodal nga toka lart dhe ne vazhdojmë të shtyjmë kufirin e asaj që është e mundur.

Çfarë është më pas

This guide shows how to upload image and video files using the File API and then generate text outputs from image and video inputs. To learn more, see the following resources:

  • File prompting strategies : The Gemini API supports prompting with text, image, audio, and video data, also known as multimodal prompting.
  • System instructions : System instructions let you steer the behavior of the model based on your specific needs and use cases.
  • Safety guidance : Sometimes generative AI models produce unexpected outputs, such as outputs that are inaccurate, biased, or offensive. Post-processing and human evaluation are essential to limit the risk of harm from such outputs.
,

Gemini models are able to process images and videos, enabling many frontier developer use cases that would have historically required domain specific models. Some of Gemini's vision capabilities include the ability to:

  • Caption and answer questions about images
  • Transcribe and reason over PDFs, including up to 2 million tokens
  • Describe, segment, and extract information from videos up to 90 minutes long
  • Detect objects in an image and return bounding box coordinates for them

Gemini was built to be multimodal from the ground up and we continue to push the frontier of what is possible.

Çfarë është më pas

This guide shows how to upload image and video files using the File API and then generate text outputs from image and video inputs. To learn more, see the following resources:

  • File prompting strategies : The Gemini API supports prompting with text, image, audio, and video data, also known as multimodal prompting.
  • System instructions : System instructions let you steer the behavior of the model based on your specific needs and use cases.
  • Safety guidance : Sometimes generative AI models produce unexpected outputs, such as outputs that are inaccurate, biased, or offensive. Post-processing and human evaluation are essential to limit the risk of harm from such outputs.
,

Gemini models are able to process images and videos, enabling many frontier developer use cases that would have historically required domain specific models. Some of Gemini's vision capabilities include the ability to:

  • Caption and answer questions about images
  • Transcribe and reason over PDFs, including up to 2 million tokens
  • Describe, segment, and extract information from videos up to 90 minutes long
  • Detect objects in an image and return bounding box coordinates for them

Gemini was built to be multimodal from the ground up and we continue to push the frontier of what is possible.

Çfarë është më pas

This guide shows how to upload image and video files using the File API and then generate text outputs from image and video inputs. To learn more, see the following resources:

  • File prompting strategies : The Gemini API supports prompting with text, image, audio, and video data, also known as multimodal prompting.
  • System instructions : System instructions let you steer the behavior of the model based on your specific needs and use cases.
  • Safety guidance : Sometimes generative AI models produce unexpected outputs, such as outputs that are inaccurate, biased, or offensive. Post-processing and human evaluation are essential to limit the risk of harm from such outputs.