การทำความเข้าใจภาพ

Gemma 4 ซึ่งเป็นโมเดลล่าสุดจากตระกูล Gemma สามารถทำงานด้านวิชันภาษาได้หลากหลาย เช่น การตรวจหาออบเจ็กต์ การรู้จำอักขระด้วยภาพ (OCR) การตอบคำถามเกี่ยวกับภาพ การสร้างคำบรรยายแทนรูปภาพ และการให้เหตุผลในรูปภาพหลายรูป นอกจากนี้ยังรองรับการประมวลผลความละเอียดที่เปลี่ยนแปลงได้ ซึ่งช่วยให้คุณปรับสมดุลความเร็วในการอนุมานและความแม่นยำของเอาต์พุตได้

ส่วนนี้จะอธิบายวิธีเตรียมและใช้ข้อมูลภาพในพรอมต์อย่างมีประสิทธิภาพ

ข้อมูลภาพ

ข้อมูลภาพมีได้หลายรูปแบบและความละเอียด รูปแบบไฟล์ที่รองรับ (เช่น JPEG และ PNG) จะขึ้นอยู่กับเฟรมเวิร์กที่คุณเลือกเพื่อแปลง ข้อมูลภาพเป็นเทนเซอร์

ข้อควรพิจารณาที่สำคัญเมื่อเตรียมข้อมูลภาพสำหรับ Gemma มีดังนี้

  • ค่าใช้จ่ายโทเค็น: โดยปกติแล้วรูปภาพแต่ละรูปจะใช้โทเค็น 256 รายการ แต่ค่าใช้จ่ายโทเค็นรูปภาพ PaliGemma จะแตกต่างกันไปตามโมเดลที่เลือก
  • ความละเอียด: ความละเอียดที่ตีความ ซึ่งหมายถึงจำนวนพิกเซล ที่เข้ารหัสเป็นโทเค็นและประมวลผลโดยโมเดล จะขึ้นอยู่กับเวอร์ชัน Gemma ที่คุณใช้ ดังนี้
    • Gemma 4: ความละเอียดที่เปลี่ยนแปลงได้ตามงบประมาณโทเค็น คุณสามารถเลือกขนาดงบประมาณได้ระหว่าง 70, 140, 280, 560 หรือ 1,120 โทเค็น ซึ่งจะเป็นตัวกำหนดขนาดของรูปภาพอินพุตที่จะปรับขนาดและประมวลผล
    • Gemma 3: (4B ขึ้นไป) ความละเอียด 896x896 พร้อมตัวเลือกการแพนและสแกนสำหรับรูปภาพขนาดใหญ่
    • Gemma 3n: ความละเอียด 256x256, 512x512 หรือ 768x768
    • PaliGemma 2: ความละเอียด 224x224, 448x448 หรือ 896x896

รูปภาพความละเอียดต่ำจะประมวลผลได้เร็วกว่า แต่จะจับภาพรายละเอียดภาพได้น้อยกว่า หากต้องการเพิ่มประสิทธิภาพความเร็วในการอนุมาน คุณควรตั้งเป้าที่จะให้ข้อมูลภาพที่ตรงกับความละเอียดที่ตีความในตัวของโมเดล Gemma ที่เลือก

ความละเอียดและงบประมาณโทเค็นที่เปลี่ยนแปลงได้

โมเดล Gemma 4 มาพร้อมความสามารถในการประมวลผลรูปภาพที่ความละเอียดต่างๆ ซึ่งช่วยให้คุณปรับแต่งอินพุตภาพให้เหมาะกับงานที่ต้องการได้ ตัวอย่างเช่น คุณ อาจเลือกความละเอียดสูงเพื่อระบุรายละเอียดเล็กๆ ในการตรวจหาออบเจ็กต์ ในขณะที่ความละเอียดต่ำอาจเหมาะกว่าสำหรับการวิเคราะห์เฟรมวิดีโอแต่ละเฟรม เพื่อเร่งการประมวลผล ท้ายที่สุดแล้ว ฟีเจอร์นี้จะช่วยให้คุณปรับสมดุลความเร็วในการอนุมานกับความแม่นยำของการแสดงภาพได้

คุณจัดการการแลกเปลี่ยนนี้ได้โดยใช้งบประมาณโทเค็น งบประมาณนี้จะกำหนดขีดจำกัดที่แน่นอน สำหรับจำนวนโทเค็นภาพ (หรือที่เรียกว่าการฝังโทเค็นภาพ) ที่โมเดล สร้างขึ้นสำหรับรูปภาพเดียว

คุณเลือกงบประมาณเป็นโทเค็นได้ 70, 140, 280, 560 หรือ 1, 120 โทเค็น

  • งบประมาณสูง (เช่น 1120 โทเค็น): รักษาความละเอียดของรูปภาพให้สูงขึ้น ซึ่งจะสร้างแพตช์เพิ่มเติมให้โมเดลประมวลผล ทำให้เหมาะสำหรับ การจับรายละเอียดที่ซับซ้อนและละเอียด
  • งบประมาณต่ำ (เช่น 70 โทเค็น): ลดขนาดรูปภาพ ทำให้มีแพตช์น้อยลง ซึ่งจะช่วยเร่งเวลาการอนุมานได้อย่างมาก

วิธีการทำงานของงบประมาณ งบประมาณโทเค็นจะควบคุมโดยตรงว่าระบบจะปรับขนาดรูปภาพมากน้อยเพียงใดโดยกำหนดจำนวนสูงสุดของแพตช์รูปภาพเริ่มต้น ระบบ สร้างแพตช์มากกว่างบประมาณที่คุณเลือกถึง 9 เท่า เช่น งบประมาณ 280 โทเค็นจะสร้างแพตช์ได้สูงสุด 2,520 รายการ (280 × 9)

ตัวคูณ 9 มีอยู่เนื่องจากวิธีการบีบอัดแพตช์ โดยในระหว่างการประมวลผล โมเดลจะใช้ตารางกริด 3x3 ของแพตช์ที่อยู่ติดกันทั้งหมดและหาค่าเฉลี่ยของแพตช์เหล่านั้นเพื่อสร้างการฝังรายการเดียว การฝังที่รวมกันเหล่านี้จะกลายเป็นโทเค็นภาพสุดท้าย ดังนั้น งบประมาณโทเค็นที่สูงขึ้นจะทำให้ได้การฝังขั้นสุดท้ายมากขึ้น ซึ่งช่วยให้โมเดลสามารถดึงข้อมูลที่สมบูรณ์และละเอียดมากขึ้นจากข้อมูลภาพ

สิ่งที่ควรทำ

แนวทางปฏิบัติแนะนำที่ควรทำตามเมื่อพรอมต์ Gemma ด้วยข้อมูลภาพมีดังนี้

  • ระบุรายละเอียด: หากมีงานที่เฉพาะเจาะจง โปรดระบุบริบทและคำแนะนำที่เพียงพอ แทนที่จะใช้พรอมต์ "อธิบายรูปภาพนี้" ให้ลองใช้ "อธิบายฉากในรูปภาพนี้ โดยเน้นความสัมพันธ์ระหว่างผู้คนกับวัตถุ"

  • ระบุข้อจำกัด: หากต้องการให้ได้สไตล์หรือโทนที่เฉพาะเจาะจง ให้ระบุในพรอมต์ เช่น แทนที่จะขอเรื่องราวทั่วไป ให้ขอ Gemma ว่า "เขียนเรื่องสั้นเกี่ยวกับรูปภาพนี้ในสไตล์ฟิล์มนัวร์"

  • การปรับแต่งแบบวนซ้ำ: การได้ผลลัพธ์ตามที่ต้องการมักต้องมีการ ทดลองและปรับแต่งพรอมต์ เริ่มด้วยพรอมต์พื้นฐานและ ค่อยๆ เพิ่มความซับซ้อน

สิ่งที่ไม่ควรทำ

สิ่งที่ไม่ควรทำเมื่อแจ้งพรอมต์ Gemma ด้วยข้อมูลภาพมีดังนี้

  • คาดหวังจำนวนที่แน่นอนสำหรับวัตถุที่มีความหนาแน่นสูงมาก: แม้ว่า Gemma 4 จะมีความโดดเด่นในด้านการตรวจหาวัตถุและ OCR แต่ก็อาจยังคงให้ค่าประมาณแทนที่จะเป็นจำนวนที่แน่นอนสำหรับวัตถุที่มีความหนาแน่นสูงมากหรือวัตถุขนาดเล็ก (เช่น การนับใบหญ้าแต่ละใบ) หากต้องการให้งานภาพมีความแม่นยำสูงสุด ให้ใช้งบประมาณโทเค็นที่สูงขึ้น

  • พรอมต์ที่คลุมเครือหรือไม่ชัดเจน: แทนที่จะใช้พรอมต์ทั่วไป เช่น "สร้าง อะไรบางอย่างตามรูปภาพนี้" ให้ระบุคำสั่งที่เฉพาะเจาะจงเพื่อให้ได้ เอาต์พุตที่ต้องการ ระบุให้ชัดเจนว่า "บางอย่าง" คืออะไร เช่น บทกวี สูตร หรือข้อมูลโค้ด