Eksploroni aftësitë e shikimit me Gemini API

Modelet e Gemini janë në gjendje të përpunojnë imazhe dhe video, duke mundësuar shumë raste të përdorimit të zhvilluesve kufitarë që do të kishin kërkuar historikisht modele specifike të domenit. Disa nga aftësitë e vizionit të Binjakëve përfshijnë aftësinë për të:

  • Shkruani dhe përgjigjuni pyetjeve rreth imazheve
  • Transkriptoni dhe arsyetoni mbi skedarët PDF, duke përfshirë deri në 2 milion argumente
  • Përshkruani, segmentoni dhe nxirrni informacione nga videot deri në 90 minuta
  • Zbuloni objektet në një imazh dhe ktheni koordinatat e kutisë kufizuese për to

Binjakët u ndërtuan për të qenë multimodal nga themeli dhe ne vazhdojmë të shtyjmë kufirin e asaj që është e mundur.

Çfarë është më pas

Ky udhëzues tregon se si të ngarkoni skedarët e imazheve dhe videove duke përdorur API-në e skedarit dhe më pas të gjeneroni dalje teksti nga hyrjet e imazheve dhe videove. Për të mësuar më shumë, shikoni burimet e mëposhtme:

  • Strategjitë e nxitjes së skedarëve : Gemini API mbështet nxitjen me të dhëna teksti, imazhi, audio dhe video, të njohura gjithashtu si nxitje multimodale.
  • Udhëzimet e sistemit : Udhëzimet e sistemit ju lejojnë të drejtoni sjelljen e modelit bazuar në nevojat tuaja specifike dhe rastet e përdorimit.
  • Udhëzime për sigurinë : Ndonjëherë modelet gjeneruese të AI prodhojnë rezultate të papritura, të tilla si rezultate që janë të pasakta, të njëanshme ose fyese. Pas-përpunimi dhe vlerësimi njerëzor janë thelbësore për të kufizuar rrezikun e dëmtimit nga rezultate të tilla.