PaliGemma
PaliGemma เป็นโมเดลภาษาการมองเห็น (VLM) แบบเปิดขนาดเล็กที่ใช้ทรัพยากรน้อย ซึ่งได้แรงบันดาลใจมาจาก PaLI-3 โดยอิงตามคอมโพเนนต์แบบเปิด เช่น SigLIP โมเดลวิสัยทัศน์และภาษา Gemma รุ่น PaliGemma จะใช้ทั้งรูปภาพและข้อความเป็นอินพุตและตอบคำถามเกี่ยวกับ รูปภาพที่มีรายละเอียดและบริบท ซึ่งหมายความว่า PaliGemma จะสามารถวิเคราะห์ รูปภาพและให้ข้อมูลเชิงลึกที่เป็นประโยชน์ เช่น คำบรรยายสำหรับรูปภาพและวิดีโอสั้นๆ การตรวจจับออบเจ็กต์ และการอ่านข้อความที่ฝังอยู่ภายในรูปภาพ
โมเดล PaliGemma มี 2 ชุด ได้แก่ ชุดจุดประสงค์ทั่วไปและชุดที่มุ่งเน้นการวิจัย:
- PaliGemma โมเดลที่ฝึกไว้แล้วล่วงหน้าสำหรับวัตถุประสงค์ทั่วไป ซึ่งสามารถปรับแต่งให้เหมาะกับงานต่างๆ ได้มากมาย
- PaliGemma-FT โมเดลที่มุ่งเน้นการวิจัยซึ่งมีการปรับแต่งชุดข้อมูลการวิจัยที่เฉพาะเจาะจงอย่างละเอียด
ซึ่งประโยชน์หลักๆ ได้แก่
-
การทำความเข้าใจในหลายโมดัล
เข้าใจทั้งรูปภาพและข้อความได้พร้อมกัน -
โมเดลฐานอเนกประสงค์
สามารถปรับแต่งงานต่างๆ เกี่ยวกับการมองเห็นได้ -
การสำรวจผลิตภัณฑ์สำเร็จรูป
มาพร้อมกับจุดตรวจที่ปรับแต่งมาจากภารกิจต่างๆ เพื่อการใช้งานค้นคว้าแบบเรียลไทม์