PaliGemma

PaliGemma เป็นโมเดลภาษา Vision (VLM) แบบเปิดขนาดเล็กที่ได้รับแรงบันดาลใจจาก PaLI-3 และใช้คอมโพเนนต์แบบเปิด เช่น โมเดลการมองเห็นของ SigLIP และโมเดลภาษา Gemma PaliGemma ใช้ทั้งรูปภาพและข้อความเป็นอินพุตและสามารถตอบคำถามเกี่ยวกับรูปภาพพร้อมรายละเอียดและบริบท ซึ่งหมายความว่า PaliGemma จะวิเคราะห์รูปภาพให้ละเอียดยิ่งขึ้นและให้ข้อมูลเชิงลึกที่เป็นประโยชน์ เช่น การใส่คำบรรยายสำหรับรูปภาพและวิดีโอสั้นๆ การตรวจจับวัตถุ และการอ่านข้อความที่ฝังอยู่ในรูปภาพ

โมเดล PaliGemma มี 2 ชุด ได้แก่ ชุดวัตถุประสงค์ทั่วไปและชุดที่เน้นการวิจัย ดังนี้

  • PaliGemma - โมเดลที่ฝึกล่วงหน้าสำหรับวัตถุประสงค์ทั่วไปซึ่งปรับแต่งได้สำหรับงานที่หลากหลาย
  • PaliGemma-FT - โมเดลที่มุ่งเน้นการวิจัย ซึ่งได้รับการปรับแต่งให้เหมาะกับชุดข้อมูลการวิจัยที่เฉพาะเจาะจง

ซึ่งประโยชน์หลักๆ ได้แก่

  • เข้าใจทั้งรูปภาพและข้อความได้พร้อมกัน
  • สามารถปรับแต่งงานต่างๆ เกี่ยวกับการมองเห็นได้
  • มาพร้อมกับจุดตรวจที่ปรับแต่งมาจากภารกิจต่างๆ เพื่อการใช้งานค้นคว้าแบบเรียลไทม์

ดูข้อมูลเพิ่มเติม

การ์ดโมเดลของ PaliGemma มีรายละเอียดเกี่ยวกับโมเดล ข้อมูลการใช้งาน ข้อมูลการประเมิน การใช้โมเดลและข้อจำกัด และอื่นๆ
ดูโค้ดเพิ่มเติม, สมุดบันทึก Colab, ข้อมูล และการพูดคุยเกี่ยวกับ PaliGemma บน Kaggle
เรียกใช้ตัวอย่างที่ใช้งานได้สำหรับการปรับแต่ง PaliGemma ด้วย JAX ใน Colab