PaliGemma
PaliGemma เป็นโมเดลภาษา Vision (VLM) แบบเปิดขนาดเล็กที่ได้รับแรงบันดาลใจจาก PaLI-3 และใช้คอมโพเนนต์แบบเปิด เช่น โมเดลการมองเห็นของ SigLIP และโมเดลภาษา Gemma PaliGemma ใช้ทั้งรูปภาพและข้อความเป็นอินพุตและสามารถตอบคำถามเกี่ยวกับรูปภาพพร้อมรายละเอียดและบริบท ซึ่งหมายความว่า PaliGemma จะวิเคราะห์รูปภาพให้ละเอียดยิ่งขึ้นและให้ข้อมูลเชิงลึกที่เป็นประโยชน์ เช่น การใส่คำบรรยายสำหรับรูปภาพและวิดีโอสั้นๆ การตรวจจับวัตถุ และการอ่านข้อความที่ฝังอยู่ในรูปภาพ
โมเดล PaliGemma มี 2 ชุด ได้แก่ ชุดวัตถุประสงค์ทั่วไปและชุดที่เน้นการวิจัย ดังนี้
- PaliGemma - โมเดลที่ฝึกล่วงหน้าสำหรับวัตถุประสงค์ทั่วไปซึ่งปรับแต่งได้สำหรับงานที่หลากหลาย
- PaliGemma-FT - โมเดลที่มุ่งเน้นการวิจัย ซึ่งได้รับการปรับแต่งให้เหมาะกับชุดข้อมูลการวิจัยที่เฉพาะเจาะจง
ซึ่งประโยชน์หลักๆ ได้แก่
-
การทำความเข้าใจในหลายโมดัล
เข้าใจทั้งรูปภาพและข้อความได้พร้อมกัน -
โมเดลฐานอเนกประสงค์
สามารถปรับแต่งงานต่างๆ เกี่ยวกับการมองเห็นได้ -
การสำรวจผลิตภัณฑ์สำเร็จรูป
มาพร้อมกับจุดตรวจที่ปรับแต่งมาจากภารกิจต่างๆ เพื่อการใช้งานค้นคว้าแบบเรียลไทม์