Gemini API mbështet hyrjen PDF, duke përfshirë dokumente të gjata (deri në 3600 faqe). Modelet Gemini përpunojnë PDF-të me vizion origjinal, dhe për këtë arsye janë në gjendje të kuptojnë përmbajtjen e tekstit dhe të imazhit brenda dokumenteve. Me mbështetjen origjinale të vizionit PDF, modelet Gemini janë në gjendje të:
- Analizoni diagramet, grafikët dhe tabelat brenda dokumenteve.
- Ekstraktoni informacionin në formate të strukturuara të daljes.
- Përgjigjuni pyetjeve në lidhje me përmbajtjen vizuale dhe tekstuale në dokumente.
- Përmblidhni dokumentet.
- Transkriptoni përmbajtjen e dokumentit (p.sh. në HTML) duke ruajtur paraqitjet dhe formatimin, për përdorim në aplikacionet e rrjedhës së poshtme (si p.sh. në tubacionet RAG).
Ky udhëzues demonstron disa mënyra të mundshme për të përdorur Gemini API me dokumente PDF. E gjithë dalja është vetëm me tekst.
Çfarë është më pas
Ky udhëzues tregon se si të përdorni generateContent
dhe të krijoni rezultate teksti nga dokumentet e përpunuara. Për të mësuar më shumë, shikoni burimet e mëposhtme:
- Strategjitë e nxitjes së skedarëve : Gemini API mbështet nxitjen me të dhëna teksti, imazhi, audio dhe video, të njohura gjithashtu si nxitje multimodale.
- Udhëzimet e sistemit : Udhëzimet e sistemit ju lejojnë të drejtoni sjelljen e modelit bazuar në nevojat tuaja specifike dhe rastet e përdorimit.
- Udhëzime për sigurinë : Ndonjëherë modelet gjeneruese të AI prodhojnë rezultate të papritura, të tilla si rezultate që janë të pasakta, të njëanshme ose fyese. Pas-përpunimi dhe vlerësimi njerëzor janë thelbësore për të kufizuar rrezikun e dëmtimit nga rezultate të tilla.