Mempelajari kemampuan pemrosesan dokumen dengan Gemini API

Gemini API mendukung input PDF, termasuk dokumen panjang (hingga 3.600 halaman). Model Gemini memproses PDF dengan visi native, sehingga dapat memahami konten teks dan gambar di dalam dokumen. Dengan dukungan visi PDF native, model Gemini dapat:

  • Menganalisis diagram, diagram, dan tabel di dalam dokumen.
  • Mengekstrak informasi ke dalam format output terstruktur.
  • Menjawab pertanyaan tentang konten visual dan teks dalam dokumen.
  • Meringkas dokumen.
  • Mentranskripsikan konten dokumen (misalnya ke HTML) yang mempertahankan tata letak dan pemformatan, untuk digunakan dalam aplikasi downstream (seperti dalam pipeline RAG).

Tutorial ini menunjukkan beberapa kemungkinan cara menggunakan Gemini API dengan dokumen PDF. Semua output hanya berupa teks.

Langkah berikutnya

Panduan ini menunjukkan cara menggunakan generateContent dan membuat output teks dari dokumen yang diproses. Untuk mempelajari lebih lanjut, lihat referensi berikut:

  • Strategi perintah file: Gemini API mendukung perintah dengan data teks, gambar, audio, dan video, yang juga dikenal sebagai perintah multimodal.
  • Petunjuk sistem: Petunjuk sistem memungkinkan Anda mengarahkan perilaku model berdasarkan kebutuhan dan kasus penggunaan tertentu.
  • Panduan keamanan: Terkadang model AI generatif menghasilkan output yang tidak terduga, seperti output yang tidak akurat, bias, atau menyinggung. Pascapemrosesan dan evaluasi manusia sangat penting untuk membatasi risiko bahaya dari output tersebut.