Binjakët mund t'u përgjigjen kërkesave për audio. Për shembull, Binjakët mund të:
- Përshkruani, përmblidhni ose përgjigjuni pyetjeve në lidhje me përmbajtjen audio.
- Jepni një transkriptim të audios.
- Jepni përgjigje ose një transkriptim për një segment të caktuar të audios.
Ky udhëzues demonstron mënyra të ndryshme për të bashkëvepruar me skedarët audio dhe përmbajtjen audio duke përdorur Gemini API.
Formatet e mbështetura audio
Gemini mbështet llojet e mëposhtme të formatit audio MIME:
- WAV -
audio/wav
- MP3 -
audio/mp3
- AIFF -
audio/aiff
- AAC -
audio/aac
- OGG Vorbis -
audio/ogg
- FLAC -
audio/flac
Detaje teknike rreth audios
Binjakët vendosin rregullat e mëposhtme në audio:
- Binjakët përfaqësojnë çdo sekondë të audios si 25 shenja; për shembull, një minutë audio përfaqësohet si 1500 argumente.
- Binjakët mund të nxjerrin vetëm përgjigjet ndaj të folurit në gjuhën angleze.
- Binjakët mund të "kuptojnë" përbërës që nuk flasin, si kënga e shpendëve apo sirenat.
- Gjatësia maksimale e mbështetur e të dhënave audio në një kërkesë të vetme është 9,5 orë. Binjakët nuk e kufizon numrin e skedarëve audio në një kërkesë të vetme; megjithatë, gjatësia totale e kombinuar e të gjithë skedarëve audio në një kërkesë të vetme nuk mund të kalojë 9,5 orë.
- Gemini zvogëlon skedarët audio në një rezolucion të dhënash 16 Kbps.
- Nëse burimi audio përmban shumë kanale, Gemini i kombinon ato kanale në një kanal të vetëm.
Çfarë është më pas
Ky udhëzues tregon se si të ngarkoni skedarë audio duke përdorur API-në e skedarit dhe më pas të gjeneroni dalje teksti nga hyrjet audio. Për të mësuar më shumë, shikoni burimet e mëposhtme:
- Strategjitë e nxitjes së skedarëve : Gemini API mbështet nxitjen me të dhëna teksti, imazhi, audio dhe video, të njohura gjithashtu si nxitje multimodale.
- Udhëzimet e sistemit : Udhëzimet e sistemit ju lejojnë të drejtoni sjelljen e modelit bazuar në nevojat tuaja specifike dhe rastet e përdorimit.
- Udhëzime për sigurinë : Ndonjëherë modelet gjeneruese të AI prodhojnë rezultate të papritura, të tilla si rezultate që janë të pasakta, të njëanshme ose fyese. Pas-përpunimi dhe vlerësimi njerëzor janë thelbësore për të kufizuar rrezikun e dëmtimit nga rezultate të tilla.