Gemini API, resim ve videoları işleyebilir. Bu sayede geliştiriciler için birçok heyecan verici kullanım alanı sunar. Gemini'nin görüntüleme özelliklerinden bazıları şunlardır:
- Resimlerle ilgili soruları yanıtlama ve resimlere altyazı ekleme
- 2 milyon jetonluk bağlam penceresine kadar uzun dokümanlar da dahil olmak üzere PDF'leri metne dönüştürme ve bunlarla ilgili gerekçelendirme
- 90 dakikaya kadar olan videolardan hem görsel kareler hem de ses dahil olmak üzere videoları tanımlama, segmentlere ayırma ve videolardan bilgi ayıklama
- Bir resimdeki nesneleri algılayıp bu nesnelerin sınırlayıcı kutu koordinatlarını döndürme
Bu eğitimde, Gemini API'ye resim ve video girişi ile istem göndermenin bazı olası yolları gösterilmektedir. Ayrıca kod örnekleri sağlanmakta ve çoklu modlu görüntüleme özellikleriyle istem göndermeyle ilgili en iyi uygulamalar özetlenmiştir. Tüm çıkışlar yalnızca metindir.
Sırada ne var?
Bu kılavuzda, File API'yi kullanarak resim ve video dosyalarının nasıl yükleneceği ve ardından resim ve video girişlerinden metin çıkışlarının nasıl oluşturulacağı gösterilmektedir. Daha fazla bilgi edinmek için aşağıdaki kaynakları inceleyin:
- Dosya istemi stratejileri: Gemini API, metin, resim, ses ve video verileriyle istemi destekler. Bu, çoklu formatlı istem olarak da bilinir.
- Sistem talimatları: Sistem talimatları, modelin davranışını belirli ihtiyaçlarınıza ve kullanım alanlarınıza göre yönlendirmenize olanak tanır.
- Güvenlik kılavuzu: Üretken yapay zeka modelleri bazen yanlış, önyargılı veya rahatsız edici gibi beklenmedik çıkışlar üretebilir. Bu tür çıkışlardan kaynaklanan zarar riskini sınırlamak için işlem sonrası ve gerçek kişiler tarafından değerlendirme yapılması önemlidir.