Gemini API, uzun dokümanlar (3.600 sayfaya kadar) dahil olmak üzere PDF girişini destekler. Gemini modelleri, PDF'leri doğal görüntüleme ile işler ve bu nedenle dokümanlar içindeki hem metin hem de resim içeriklerini anlayabilir. Yerleşik PDF görüntüleme desteği sayesinde Gemini modelleri şunları yapabilir:
- Dokümanlar içindeki diyagramları, grafikleri ve tabloları analiz edin.
- Bilgileri yapılandırılmış çıkış biçimlerine ayıklayın.
- Dokümanlardaki görsel ve metin içerikleriyle ilgili soruları yanıtlama
- Belgeleri özetleyin.
- Aşağı akış uygulamalarında (ör.RAG ardışık düzenlerinde) kullanılmak üzere doküman içeriğini (ör. HTML'ye) düzen ve biçimlendirmeyi koruyarak metne dönüştürme.
Bu eğitimde, Gemini API'yi PDF dokümanlarıyla kullanmanın bazı olası yolları gösterilmektedir. Tüm çıkışlar yalnızca metindir.
Sırada ne var?
Bu kılavuzda, generateContent
işlenen belgelerden metin çıkışları oluşturmak için nasıl kullanılacağı gösterilmektedir. Daha fazla bilgi edinmek için aşağıdaki kaynakları inceleyin:
- Dosya istemi stratejileri: Gemini API, metin, resim, ses ve video verileriyle istemi destekler. Bu, çoklu formatlı istem olarak da bilinir.
- Sistem talimatları: Sistem talimatları, modelin davranışını belirli ihtiyaçlarınıza ve kullanım alanlarınıza göre yönlendirmenize olanak tanır.
- Güvenlik kılavuzu: Üretken yapay zeka modelleri bazen yanlış, önyargılı veya rahatsız edici gibi beklenmedik çıkışlar üretebilir. Bu tür çıkışlardan kaynaklanan zarar riskini sınırlamak için işlem sonrası ve gerçek kişiler tarafından değerlendirme yapılması önemlidir.