Gemini API mendukung input PDF, termasuk dokumen panjang (hingga 3.600 halaman). Model Gemini memproses PDF dengan visi native, sehingga dapat memahami konten teks dan gambar di dalam dokumen. Dengan dukungan visi PDF native, model Gemini dapat:
- Menganalisis diagram, diagram, dan tabel di dalam dokumen
- Mengekstrak informasi ke dalam format output terstruktur
- Menjawab pertanyaan tentang konten visual dan teks dalam dokumen
- Meringkas dokumen
- Mentranskripsikan konten dokumen (misalnya ke HTML) dengan mempertahankan tata letak dan pemformatan, untuk digunakan di aplikasi downstream
Tutorial ini menunjukkan beberapa kemungkinan cara menggunakan Gemini API untuk memproses dokumen PDF.
Langkah berikutnya
Untuk mempelajari lebih lanjut, lihat referensi berikut:
- Strategi perintah file: Gemini API mendukung perintah dengan data teks, gambar, audio, dan video, yang juga dikenal sebagai perintah multimodal.
- Petunjuk sistem: Petunjuk sistem memungkinkan Anda mengarahkan perilaku model berdasarkan kebutuhan dan kasus penggunaan tertentu.