Hiểu được nội dung thị giác

Gemma 4, mô hình mới nhất trong nhóm mô hình Gemma, có thể thực hiện nhiều tác vụ về thị giác và ngôn ngữ, chẳng hạn như phát hiện đối tượng, Nhận dạng ký tự quang học (OCR), trả lời câu hỏi bằng hình ảnh, chú thích hình ảnh và suy luận trên nhiều hình ảnh. Công cụ này cũng hỗ trợ xử lý độ phân giải biến đổi, cho phép bạn cân bằng tốc độ suy luận và độ chính xác của đầu ra.

Phần này khám phá cách chuẩn bị và sử dụng dữ liệu trực quan một cách hiệu quả trong câu lệnh của bạn.

Dữ liệu trực quan

Dữ liệu trực quan có thể có nhiều định dạng và độ phân giải. Các định dạng tệp cụ thể được hỗ trợ (chẳng hạn như JPEG và PNG) phụ thuộc vào khung mà bạn chọn để chuyển đổi dữ liệu trực quan thành tensor.

Sau đây là những điểm chính cần cân nhắc khi chuẩn bị dữ liệu trực quan cho Gemma:

  • Chi phí mã thông báo: Mỗi hình ảnh thường sử dụng 256 mã thông báo, mặc dù chi phí mã thông báo hình ảnh PaliGemma sẽ khác nhau tuỳ thuộc vào mô hình cụ thể được chọn.
  • Độ phân giải: Độ phân giải được diễn giải (nghĩa là số lượng pixel được mã hoá thành mã thông báo và được mô hình xử lý) phụ thuộc vào phiên bản Gemma mà bạn đang sử dụng:
    • Gemma 4: Độ phân giải thay đổi dựa trên ngân sách mã thông báo. Bạn có thể chọn kích thước ngân sách là 70, 140, 280, 560 hoặc 1120 mã thông báo. Kích thước này sẽ xác định mức độ điều chỉnh kích thước và xử lý hình ảnh đầu vào.
    • Gemma 3: (4B trở lên) Độ phân giải 896x896, có các lựa chọn quét và cắt cho hình ảnh lớn hơn.
    • Gemma 3n: Độ phân giải 256x256, 512x512 hoặc 768x768
    • PaliGemma 2: Độ phân giải 224x224, 448x448 hoặc 896x896

Hình ảnh có độ phân giải thấp hơn sẽ được xử lý nhanh hơn nhưng ghi lại ít chi tiết về hình ảnh hơn. Để tối ưu hoá tốc độ suy luận, bạn nên cung cấp dữ liệu trực quan phù hợp với một trong các độ phân giải được diễn giải tích hợp sẵn của mô hình Gemma mà bạn đã chọn.

Độ phân giải linh hoạt và ngân sách mã thông báo

Các mô hình Gemma 4 có khả năng xử lý hình ảnh ở nhiều độ phân giải, cho phép bạn điều chỉnh dữ liệu đầu vào trực quan cho nhiệm vụ cụ thể của mình. Ví dụ: bạn có thể chọn độ phân giải cao để xác định chính xác các chi tiết nhỏ trong tính năng phát hiện đối tượng, trong khi độ phân giải thấp hơn có thể phù hợp hơn để phân tích từng khung hình video nhằm tăng tốc độ xử lý. Cuối cùng, tính năng này cho phép bạn cân bằng tốc độ suy luận với độ chính xác của biểu diễn hình ảnh.

Bạn quản lý sự đánh đổi này bằng ngân sách mã thông báo. Ngân sách này đặt ra một giới hạn cứng về số lượng mã thông báo trực quan (còn được gọi là mã thông báo trực quan được nhúng) mà mô hình có thể tạo cho một hình ảnh.

Bạn có thể chọn ngân sách là 70, 140, 280, 560 hoặc 1.120 xu:

  • Ngân sách cao (ví dụ: 1.120 mã thông báo): Duy trì độ phân giải hình ảnh cao hơn. Điều này tạo ra nhiều mảng hơn để mô hình xử lý, giúp mô hình lý tưởng để ghi lại các chi tiết nhỏ và phức tạp.
  • Ngân sách thấp (ví dụ: 70 mã thông báo): Giảm tỷ lệ hình ảnh, dẫn đến ít bản vá hơn. Điều này giúp tăng tốc đáng kể thời gian suy luận.

Cách hoạt động của ngân sách Ngân sách mã thông báo kiểm soát trực tiếp mức độ thay đổi kích thước của hình ảnh bằng cách quy định số lượng tối đa các mảng hình ảnh ban đầu. Hệ thống sẽ tạo ra số lượng bản vá gấp 9 lần ngân sách bạn chọn. Ví dụ: ngân sách 280 mã thông báo sẽ tạo ra tối đa 2.520 bản vá (280 × 9).

Hệ số nhân 9 xuất hiện do cách các mảng được nén: trong quá trình xử lý, mô hình sẽ lấy mọi lưới 3x3 gồm các mảng liền kề và tính trung bình các mảng đó với nhau để tạo một mục nhúng duy nhất. Những thành phần được nhúng hợp nhất này sẽ trở thành mã thông báo trực quan cuối cùng của bạn. Do đó, ngân sách token cao hơn sẽ tạo ra nhiều embeddings cuối cùng hơn, cho phép mô hình trích xuất thông tin chi tiết và phong phú hơn từ dữ liệu trực quan của bạn.

Nên làm

Sau đây là một số phương pháp hay nhất bạn nên làm theo khi đưa ra câu lệnh cho Gemma bằng dữ liệu trực quan.

  • Nêu cụ thể: Nếu bạn có nhiệm vụ cụ thể, hãy cung cấp đủ bối cảnh và hướng dẫn. Thay vì "mô tả hình ảnh này", hãy thử "mô tả cảnh trong hình ảnh này, tập trung vào mối quan hệ giữa người và vật."

  • Đưa ra các ràng buộc: Để đạt được một phong cách hoặc giọng điệu cụ thể, hãy nhớ chỉ định phong cách hoặc giọng điệu đó trong câu lệnh của bạn. Ví dụ: thay vì yêu cầu viết một câu chuyện chung chung, hãy yêu cầu Gemma "Viết một truyện ngắn Thông tin về hình ảnh này theo phong cách phim noir".

  • Tinh chỉnh lặp đi lặp lại: Để nhận được kết quả như mong muốn, bạn thường phải thử nghiệm và tinh chỉnh câu lệnh. Bắt đầu bằng một câu lệnh cơ bản và dần dần tăng độ phức tạp.

Không nên làm

Sau đây là một số điều cần tránh khi đưa ra câu lệnh cho Gemma bằng dữ liệu trực quan.

  • Mong đợi số lượng chính xác cho các đối tượng cực kỳ dày đặc: Mặc dù Gemma 4 vượt trội trong việc phát hiện đối tượng và nhận dạng ký tự quang học, nhưng vẫn có thể cung cấp số liệu ước tính thay vì số lượng chính xác cho các đối tượng cực kỳ dày đặc hoặc nhỏ bé (chẳng hạn như đếm từng lưỡi cỏ). Để đạt được độ chính xác cao nhất cho các tác vụ trực quan, hãy sử dụng ngân sách mã thông báo cao hơn.

  • Câu lệnh mơ hồ hoặc không rõ ràng: Thay vì dùng câu lệnh chung chung như "Tạo nội dung dựa trên hình ảnh này", hãy đưa ra hướng dẫn cụ thể để đạt được kết quả mong muốn. Xác định rõ "nội dung" là gì. Ví dụ: một bài thơ, công thức nấu ăn hoặc đoạn mã.