PaliGemma

PaliGemma เป็นโมเดลภาษาการมองเห็น (VLM) แบบเปิดขนาดเล็กที่ใช้ทรัพยากรน้อย ซึ่งได้แรงบันดาลใจมาจาก PaLI-3 โดยอิงตามคอมโพเนนต์แบบเปิด เช่น SigLIP โมเดลวิสัยทัศน์และภาษา Gemma รุ่น PaliGemma จะใช้ทั้งรูปภาพและข้อความเป็นอินพุตและตอบคำถามเกี่ยวกับ รูปภาพที่มีรายละเอียดและบริบท ซึ่งหมายความว่า PaliGemma จะสามารถวิเคราะห์ รูปภาพและให้ข้อมูลเชิงลึกที่เป็นประโยชน์ เช่น คำบรรยายสำหรับรูปภาพและวิดีโอสั้นๆ การตรวจจับออบเจ็กต์ และการอ่านข้อความที่ฝังอยู่ภายในรูปภาพ

โมเดล PaliGemma มี 2 ชุด ได้แก่ ชุดจุดประสงค์ทั่วไปและชุดที่มุ่งเน้นการวิจัย:

  • PaliGemma โมเดลที่ฝึกไว้แล้วล่วงหน้าสำหรับวัตถุประสงค์ทั่วไป ซึ่งสามารถปรับแต่งให้เหมาะกับงานต่างๆ ได้มากมาย
  • PaliGemma-FT โมเดลที่มุ่งเน้นการวิจัยซึ่งมีการปรับแต่งชุดข้อมูลการวิจัยที่เฉพาะเจาะจงอย่างละเอียด

ซึ่งประโยชน์หลักๆ ได้แก่

  • เข้าใจทั้งรูปภาพและข้อความได้พร้อมกัน
  • สามารถปรับแต่งงานต่างๆ เกี่ยวกับการมองเห็นได้
  • มาพร้อมกับจุดตรวจที่ปรับแต่งมาจากภารกิจต่างๆ เพื่อการใช้งานค้นคว้าแบบเรียลไทม์

ดูข้อมูลเพิ่มเติม

การ์ดโมเดลของ PaliGemma มีรายละเอียดเกี่ยวกับโมเดล ข้อมูลการใช้งาน ข้อมูลการประเมิน การใช้โมเดลและข้อจำกัด และอื่นๆ
ดูโค้ดเพิ่มเติม, สมุดบันทึก Colab, ข้อมูล และการพูดคุยเกี่ยวกับ PaliGemma บน Kaggle
เรียกใช้ตัวอย่างที่ใช้งานได้สำหรับการปรับแต่ง PaliGemma ด้วย JAX ใน Colab