PaliGemma

Gemma 4 เปิดตัวพร้อมอินพุตข้อความ เสียง และรูปภาพ รวมถึงหน้าต่างบริบทแบบยาวที่มีโทเค็นให้ถึง 2.56 แสนโทเค็น ดูข้อมูลเพิ่มเติม

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PaliGemma 2 และ PaliGemma เป็นโมเดลภาษาที่ทำงานด้วยภาพ (VLM) แบบเปิดที่มีน้ำหนักเบา ซึ่งได้รับแรงบันดาลใจจาก PaLI-3 และอิงตามคอมโพเนนต์แบบเปิด เช่น โมเดลการมองเห็น SigLIP และโมเดลภาษา Gemma PaliGemma ใช้ทั้งรูปภาพและข้อความเป็นอินพุต และสามารถตอบคําถามเกี่ยวกับรูปภาพอย่างละเอียดและตามบริบท ซึ่งหมายความว่า PaliGemma สามารถวิเคราะห์รูปภาพได้ละเอียดยิ่งขึ้นและมอบข้อมูลเชิงลึกที่เป็นประโยชน์ เช่น คำบรรยายแทนเสียงสำหรับรูปภาพและวิดีโอสั้นๆ การตรวจจับวัตถุ และการอ่านข้อความที่ฝังอยู่ในรูปภาพ

PaliGemma 2 มีพารามิเตอร์ขนาด 3 พันล้าน 10 พันล้าน และ 28 พันล้าน ซึ่งอิงตามรุ่น Gemma 2 2 พันล้าน 9 พันล้าน และ 27 พันล้าน ตามลำดับ โมเดล PaliGemma เดิมมีให้บริการในขนาด 3B ดูข้อมูลเพิ่มเติมเกี่ยวกับตัวแปรรุ่น Gemma ได้ที่รายการรุ่น Gemma ตัวแปรรุ่น PaliGemma รองรับความละเอียดของพิกเซลที่แตกต่างกันสำหรับอินพุตรูปภาพ ซึ่งรวมถึง 224 x 224, 448 x 448 และ 896 x 896 พิกเซล

คุณสามารถดูและดาวน์โหลดโมเดล PaliGemma จากเว็บไซต์ต่อไปนี้

ดาวน์โหลดจาก Kaggle
ดาวน์โหลดจากหน้ากอด

โมเดล PaliGemma มี 3 หมวดหมู่ ได้แก่

PaliGemma PT - โมเดลที่ผ่านการฝึกล่วงหน้าเพื่อวัตถุประสงค์ทั่วไปซึ่งสามารถปรับแต่งได้สำหรับงานต่างๆ
PaliGemma FT - โมเดลที่มุ่งเน้นการวิจัยซึ่งปรับแต่งให้เหมาะกับชุดข้อมูลการวิจัยที่เฉพาะเจาะจง
PaliGemma mix - โมเดลที่ปรับให้เหมาะกับงานแบบผสมผสานซึ่งพร้อมใช้งานทันทีสำหรับกรณีการใช้งานทั่วไป

ซึ่งประโยชน์หลักๆ ได้แก่

ความสามารถของสื่อหลากรูปแบบ

จัดการทั้งอินพุตรูปภาพและข้อความพร้อมกัน
โมเดลฐานอเนกประสงค์

สามารถปรับแต่งงานต่างๆ เกี่ยวกับการมองเห็นได้
การสำรวจผลิตภัณฑ์สำเร็จรูป

มาพร้อมจุดตรวจสอบที่ปรับแต่งมาอย่างดีสำหรับงานแบบผสมเพื่อการใช้งานด้านการวิจัยทันที

PaliGemma

ความสามารถของสื่อหลากรูปแบบ

โมเดลฐานอเนกประสงค์

การสำรวจผลิตภัณฑ์สำเร็จรูป

ดูข้อมูลเพิ่มเติม

เรียกใช้ใน Colab

ฟังใน Colab

ดูใน Kaggle