Thẻ mô hình PaliGemma 2

Trang mô hình: PaliGemma

Tài nguyên và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản

Tác giả: Google

Thông tin mẫu

Tóm tắt mô hình

PaliGemma 2 là bản cập nhật của mô hình ngôn ngữ hình ảnh (VLM) PaliGemma, kết hợp các tính năng của mô hình Gemma 2. Gia đình mô hình PaliGemma được lấy cảm hứng từ PaLI-3 và dựa trên các thành phần mở như mô hình thị giác SigLIP và mô hình ngôn ngữ Gemma 2. Công cụ này lấy cả hình ảnh và văn bản làm dữ liệu đầu vào và tạo văn bản làm dữ liệu đầu ra, hỗ trợ nhiều ngôn ngữ. Mô hình này được thiết kế để tinh chỉnh hiệu suất hàng đầu trên nhiều nhiệm vụ liên quan đến ngôn ngữ thị giác, chẳng hạn như chú thích hình ảnh và video ngắn, trả lời câu hỏi bằng hình ảnh, đọc văn bản, phát hiện đối tượng và phân đoạn đối tượng.

Cấu trúc mô hình

PaliGemma 2 là thành phần của trình giải mã Transformertrình mã hoá hình ảnh Transformer thị giác. Bộ giải mã văn bản được khởi tạo từ Gemma 2 ở kích thước tham số 2B, 9B và 27B. Bộ mã hoá hình ảnh được khởi chạy từ SigLIP-So400m/14. Tương tự như mô hình PaliGemma ban đầu, PaliGemma 2 được huấn luyện theo công thức PaLI-3.

Đầu vào và đầu ra

  • Dữ liệu đầu vào: Hình ảnh và chuỗi văn bản, chẳng hạn như câu lệnh để chú thích hình ảnh hoặc một câu hỏi.
  • Kết quả: Văn bản được tạo để phản hồi dữ liệu đầu vào, chẳng hạn như chú thích của hình ảnh, câu trả lời cho một câu hỏi, danh sách toạ độ hộp giới hạn của đối tượng hoặc từ khoá phân đoạn.

Trích dẫn

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

Dữ liệu mô hình

Tập dữ liệu huấn luyện trước

PaliGemma 2 được huấn luyện trước trên tập hợp dữ liệu kết hợp sau:

  • WebLI: WebLI (Hình ảnh ngôn ngữ trên web) là một tập dữ liệu văn bản-hình ảnh đa ngôn ngữ trên quy mô web được xây dựng từ web công khai. Một loạt các phần phân tách WebLI được dùng để thu nạp các chức năng mô hình linh hoạt, chẳng hạn như hiểu ngữ nghĩa hình ảnh, bản địa hoá đối tượng, hiểu văn bản theo vị trí hình ảnh và đa ngôn ngữ.
  • CC3M-35L: Các cặp hình ảnh-văn bản thay thế bằng tiếng Anh được tuyển chọn từ các trang web (Sharma và cộng sự, 2018). Chúng tôi đã sử dụng API Google Cloud Translation để dịch sang 34 ngôn ngữ khác.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: Một tập hợp con của VQ2A-CC3M (Changpinyo và cộng sự, 2022a), được dịch sang 34 ngôn ngữ khác giống như CC3M-35L, bằng cách sử dụng API Dịch của Google Cloud.
  • OpenImages: Câu hỏi và câu trả lời phát hiện và nhận biết đối tượng (Piergiovanni et al. 2022) được tạo bằng các quy tắc thủ công trên tập dữ liệu OpenImages.
  • WIT: Hình ảnh và văn bản được thu thập từ Wikipedia (Srinivasan et al., 2021).

PaliGemma 2 dựa trên Gemma 2 và bạn có thể tìm thấy thông tin về các tập dữ liệu huấn luyện trước cho Gemma 2 trong thẻ mô hình Gemma 2.

Lọc trách nhiệm đối với dữ liệu

Các bộ lọc sau đây được áp dụng cho WebLI, với mục tiêu huấn luyện PaliGemma 2 về dữ liệu an toàn và có trách nhiệm:

  • Lọc hình ảnh khiêu dâm: Bộ lọc này xoá những hình ảnh được coi là mang tính khiêu dâm.
  • Lọc văn bản an toàn: Chúng tôi xác định và lọc ra những hình ảnh được ghép với văn bản không an toàn. Văn bản không an toàn là mọi văn bản được cho là chứa hoặc nói về hình ảnh xâm hại tình dục trẻ em (CSAI), nội dung khiêu dâm, tục tĩu hoặc gây phản cảm.
  • Lọc nội dung độc hại trong văn bản: Chúng tôi sử dụng thêm Perspective API để xác định và lọc ra những hình ảnh được ghép nối với văn bản bị coi là xúc phạm, tục tĩu, hận thù hoặc độc hại.
  • Lọc thông tin cá nhân dạng văn bản: Chúng tôi đã lọc một số thông tin cá nhân và dữ liệu nhạy cảm khác bằng cách sử dụng API Ngăn chặn mất dữ liệu (DLP) trên đám mây để bảo vệ quyền riêng tư của cá nhân. Các giá trị nhận dạng như số an sinh xã hội và các loại thông tin nhạy cảm khác đã bị xoá.
  • Các phương pháp khác: Lọc dựa trên chất lượng và mức độ an toàn của nội dung theo chính sách và phương pháp của chúng tôi.

Thông tin triển khai

Phần cứng

PaliGemma 2 được huấn luyện bằng phần cứng Bộ xử lý tensor (TPU) thế hệ mới nhất (TPUv5e).

Phần mềm

Quá trình đào tạo đã hoàn tất bằng cách sử dụng JAX, Flax, TFDSbig_vision.

JAX cho phép các nhà nghiên cứu tận dụng thế hệ phần cứng mới nhất, bao gồm cả TPU, để huấn luyện các mô hình lớn nhanh và hiệu quả hơn.

TFDS được dùng để truy cập vào tập dữ liệu và Flax được dùng cho cấu trúc mô hình. Mã tinh chỉnh và mã suy luận của PaliGemma 2 được phát hành trong kho lưu trữ GitHub big_vision.

Thông tin đánh giá

Kết quả đo điểm chuẩn

Để xác minh khả năng chuyển đổi của PaliGemma 2 sang nhiều nhiệm vụ học thuật, chúng tôi điều chỉnh các mô hình được huấn luyện trước cho từng nhiệm vụ. Chúng tôi báo cáo kết quả trên nhiều độ phân giải để cho biết những tác vụ nào được hưởng lợi từ việc tăng độ phân giải. Quan trọng là không có tác vụ hoặc tập dữ liệu nào trong số này thuộc về hỗn hợp dữ liệu huấn luyện trước và hình ảnh của các tác vụ hoặc tập dữ liệu này sẽ bị xoá rõ ràng khỏi dữ liệu huấn luyện trước trên quy mô web.

Kết quả PaliGemma 2 theo độ phân giải và kích thước mô hình

Benchmark (Điểm chuẩn) 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74,7 83,1 83,2 76 84,4 84,6
AOKVQA-DA (val) 64,2 68,9 70,2 67,9 70,8 71,2
AOKVQA-MC (val) 79,7 83,7 84,7 82,5 85,9 87
ActivityNet-CAP 34,2 35,9 - - - -
ActivityNet-QA 51,3 53,2 - - - -
COCO-35L (avg34) 113,9 115,8 116,5 115,8 117,2 117,2
COCO-35L (tiếng Anh) 138,4 140,8 142,4 140,4 142,4 142,3
COCOcap 141,3 143,7 144 143,4 145 145,2
ChartQA (trung bình) 74,4 74,2 68,9 89,2 90,1 85,1
ChartQA (con người) 42.0 48,4 46,8 54,0 66,4 61,3
CountBenchQA 81.0 84 86,4 82 85,3 87,4
DocVQA (val) 39,9 43,9 44,9 73,6 76,6 76,1
GQA 66,2 67,2 67,3 68,1 68,3 68,3
InfoVQA (val) 25,2 33,6 36,4 37,5 47,8 46,7
MARVL (avg5) 83,5 89,5 90,6 82,7 89,1 89,7
MSRVTT-CAP 68,5 72,1 - - - -
MSRVTT-QA 50,5 51,9 - - - -
MSVD-QA 61,1 62,5 - - - -
NLVR2 91,4 93,9 94,2 91,6 93,7 94,1
NoCaps 123.1 126,3 127.1 123,5 126,9 127.0
OCR-VQA 73,4 74,7 75,3 75,7 76,3 76,6
OKVQA 64,2 68.0 71,2 64,1 68,6 70,6
RSVQA-hr (kiểm thử) 92,7 92,6 92,7 92,8 92,8 92,8
RSVQA-hr (test2) 90,9 90,8 90,9 90,7 90,7 90,8
RSVQA-lr 93,0 92,8 93,5 92,7 93,1 93,7
RefCOCO (testA) 75,7 77,2 76,8 78,6 79,7 79,3
RefCOCO (testB) 71,0 74,2 73,9 73,5 76,2 74,8
RefCOCO (val) 73,4 75,9 75 76,3 78,2 77,3
RefCOCO+ (testA) 72,7 74,7 73,6 76,1 77,7 76,6
RefCOCO+ (testB) 64,2 68,4 67,1 67.0 71,1 68,6
RefCOCO+ (val) 68,6 72 70,3 72,1 74,4 72,8
RefCOCOg (kiểm thử) 69 71,9 70,7 72,7 74,8 73,7
RefCOCOg (val) 68,3 71,4 70,5 72,3 74,4 73
ST-VQA (val) 61,9 64,3 65.1 80,5 82 81,8
SciCap 165,1 159,5 156,9 183,3 177,2 172,7
ScienceQA 96,1 98,2 98,2 96,2 98,5 98,6
Screen2Words 113,3 117,8 122,8 114,0 119,1 123,4
TallyQA (phức tạp) 70,3 73,4 74,2 73,6 76,7 76,8
TallyQA (đơn giản) 81,8 83,2 83,4 85,3 86,2 85,7
TextCaps 127,5 137,9 139,9 152,1 157,7 153,6
TextVQA (val) 59,6 64.0 64,7 75,2 76,6 76,2
VATEX 80,8 82,7 - - - -
VQAv2 (minival) 83 84,3 84,5 84,8 85,8 85,8
VizWizVQA (val) 76,4 78,1 78,7 77,5 78,6 78,9
WidgetCap 138,1 139,8 138,8 151,4 151,9 148,9
XM3600 (avg35) 42,8 44,5 45,2 43,2 44,6 45,2
XM3600 (tiếng Anh) 79,8 80,7 81.0 80,3 81,5 81.0
xGQA (avg7) 58,6 61,4 61,1 60,4 62,6 62,1

Các điểm chuẩn khác

ICDAR 2015 Incidental

Mẫu Chính xác Nhớ lại F1
PaliGemma 2 3B 81,88 70,73 75,9

Total-Text

Mẫu Chính xác Nhớ lại F1
PaliGemma 2 3B 73,8. 74,54 74,17

FinTabNet

Mẫu S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99,18 98,94 99,43 99,21

PubTabNet

Mẫu S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97,6 97,31 97,99 97,84

GrandStaff

Mẫu CER LER SER
PaliGemma 2 3B 1.6 6.7 2.3

PubChem

  • PaliGemma 2 3B, Khớp toàn bộ: 94,8

DOCCI

Mẫu avg#char avg#sent NES %
PaliGemma 2 3B 529 7,74 28,42
PaliGemma 2 10B 521 7.45 20,27
  • avg#char: Số ký tự trung bình
  • avg#sent: Số câu trung bình
  • NES: Câu không hàm ý

MIMIC-CXR

Mẫu CIDEr BLEU4 Rouge-L RadGraph F1
PaliGemma 2 3B 19,9% 14,6% 31,92% 28,8%
PaliGemma 2 10B 17,4% 15% 32,41% 29,5%

Tư duy không gian hình ảnh

Mẫu Phân tách không có đối tượng (kiểm thử) của VSR Phân tách ngẫu nhiên VSR (kiểm thử)
PaliGemma 2 3B 0,75 0,82
PaliGemma 2 10B 0,80 0,87

Đạo đức và sự an toàn

Phương pháp đánh giá

Phương pháp đánh giá của chúng tôi bao gồm các quy trình đánh giá đạo đức và an toàn có cấu trúc theo các chính sách nội dung có liên quan, bao gồm:

  • Đánh giá thủ công đối với các câu lệnh liên quan đến sự an toàn của trẻ em, sự an toàn của nội dung và tác hại do nội dung gây ra. Hãy xem thẻ mô hình Gemma để biết thêm thông tin chi tiết về phương pháp đánh giá, nhưng với các chế độ cài đặt chú thích hình ảnh và trả lời câu hỏi bằng hình ảnh.
  • Đánh giá điểm chuẩn Hình ảnh sang Văn bản: So sánh với các tập dữ liệu học thuật liên quan, chẳng hạn như Tập dữ liệu FairFace (Karkkainen et al., 2021).

Kết quả đánh giá

  • Kết quả đánh giá thủ công về đạo đức và sự an toàn nằm trong ngưỡng chấp nhận được để đáp ứng chính sách nội bộ đối với các danh mục như sự an toàn cho trẻ em, sự an toàn của nội dung và nội dung gây hại.
  • Ngoài các quy trình đánh giá nội bộ nghiêm ngặt, chúng tôi cũng sử dụng API Perspective (ngưỡng 0, 8) để đo lường tính độc hại, tục tĩu và các vấn đề tiềm ẩn khác trong chú thích được tạo cho hình ảnh lấy từ tập dữ liệu FairFace. Chúng tôi báo cáo giá trị tối đa và trung bình được quan sát trên các nhóm nhỏ cho từng thuộc tính giới tính, sắc tộc và độ tuổi được nhận biết.
Chỉ số Giới tính được nhận biết Sắc tộc Nhóm tuổi
Kích thước mô hình 3 TỶ 10 tỷ 28 tỷ 3 TỶ 10 tỷ 28 tỷ 3 TỶ 10 tỷ 28 tỷ
Tối đa
Nội dung độc hại 0,14% 0,15% 0,19% 0,29% 0,39% 0,39% 0,26% 0,18% 0,32%
Tấn công danh tính 0,04% 0,02% 0,02% 0,13% 0,06% 0,06% 0,06% 0,03% 0,06%
Insult 0,17% 0,25% 0,17% 0,37% 0,52% 0,52% 0,27% 0,39% 0,24%
Đe dọa 0,55% 0,43% 0,57% 0,83% 0,48% 0,48% 0,64% 0,43% 0,64%
Ngôn từ thô tục 0% 0% 0% 0% 0% 0% 0% 0% 0%
Trung vị
Nội dung độc hại 0,13% 0,10% 0,18% 0,07% 0,07% 0,14% 0,12% 0,08% 0,12%
Tấn công danh tính 0,02% 0,01% 0,02% 0% 0% 0% 0% 0% 0%
Insult 0,15% 0,23% 0,14% 0,14% 0,17% 0,13% 0,09% 0,18% 0,16%
Đe dọa 0,35% 0,27% 0,41% 0,28% 0,19% 0,42% 0,27% 0,31% 0,40%
Ngôn từ thô tục 0% 0% 0% 0% 0% 0% 0% 0% 0%

Cách sử dụng và giới hạn

Mục đích sử dụng

Mô hình ngôn ngữ Open Vision (VLM) có nhiều ứng dụng trên nhiều ngành và lĩnh vực. Danh sách các trường hợp sử dụng tiềm năng sau đây không đầy đủ. Mục đích của danh sách này là cung cấp thông tin theo ngữ cảnh về các trường hợp sử dụng có thể xảy ra mà nhà tạo mô hình đã xem xét trong quá trình huấn luyện và phát triển mô hình. Các trường hợp sử dụng bị cấm đối với mô hình Gemma được nêu trong Chính sách về các hành vi bị cấm khi sử dụng Gemma.

Điều chỉnh cho phù hợp với một tác vụ cụ thể về ngôn ngữ thị giác:

  • Bạn có thể tinh chỉnh các mô hình được huấn luyện trước cho nhiều nhiệm vụ liên quan đến ngôn ngữ thị giác, chẳng hạn như: chú thích hình ảnh, chú thích video ngắn, trả lời câu hỏi bằng hình ảnh, đọc văn bản, phát hiện đối tượng và phân đoạn đối tượng.
  • Bạn có thể tinh chỉnh các mô hình được huấn luyện trước cho các miền cụ thể, chẳng hạn như trả lời câu hỏi cảm biến từ xa, câu hỏi hình ảnh của người khiếm thị, trả lời câu hỏi khoa học, mô tả chức năng của thành phần giao diện người dùng.
  • Bạn có thể tinh chỉnh các mô hình được huấn luyện trước cho các tác vụ có đầu ra không phải văn bản, chẳng hạn như hộp giới hạn hoặc mặt nạ phân đoạn.

Nghiên cứu về ngôn ngữ thị giác:

  • Mô hình được huấn luyện trước và mô hình được tinh chỉnh có thể đóng vai trò là nền tảng để các nhà nghiên cứu thử nghiệm các kỹ thuật VLM, phát triển thuật toán và đóng góp vào sự phát triển của lĩnh vực này.

Những điều cần cân nhắc và rủi ro về mặt đạo đức

Việc phát triển mô hình ngôn ngữ thị giác (VLM) làm nảy sinh một số vấn đề về đạo đức. Khi tạo mô hình mở, chúng tôi đã cân nhắc kỹ những điều sau:

  • Sự thiên vị và tính công bằng
    • VLM được huấn luyện dựa trên dữ liệu văn bản-hình ảnh thực tế, quy mô lớn có thể phản ánh các thành kiến xã hội-văn hoá được nhúng trong tài liệu huấn luyện. Các mô hình này đã được kiểm tra kỹ lưỡng, mô tả quy trình xử lý trước dữ liệu đầu vào và báo cáo các đánh giá sau trong thẻ này.
  • Thông tin sai lệch và hành vi sử dụng sai mục đích
    • VLM có thể bị sử dụng sai mục đích để tạo văn bản sai sự thật, gây hiểu lầm hoặc gây hại.
    • Chúng tôi cung cấp các nguyên tắc để sử dụng mô hình này một cách có trách nhiệm, hãy xem Bộ công cụ AI tạo sinh có trách nhiệm.
  • Tính minh bạch và trách nhiệm giải trình
    • Thẻ mô hình này tóm tắt thông tin chi tiết về cấu trúc, chức năng, giới hạn và quy trình đánh giá của mô hình.
    • Mô hình mở được phát triển một cách có trách nhiệm mang đến cơ hội chia sẻ sự đổi mới bằng cách giúp các nhà phát triển và nhà nghiên cứu trong hệ sinh thái AI tiếp cận công nghệ VLM.

Các rủi ro đã xác định và biện pháp giảm thiểu:

  • Tiếp tục duy trì thành kiến: Bạn nên theo dõi liên tục (sử dụng các chỉ số đánh giá, đánh giá thủ công) và khám phá các kỹ thuật loại bỏ thành kiến trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
  • Tạo nội dung gây hại: Các cơ chế và nguyên tắc về tính an toàn của nội dung là điều cần thiết. Nhà phát triển nên thận trọng và triển khai các biện pháp bảo vệ an toàn nội dung phù hợp dựa trên các chính sách sản phẩm và trường hợp sử dụng ứng dụng cụ thể.
  • Sử dụng sai mục đích: Các giới hạn kỹ thuật và hoạt động đào tạo nhà phát triển cũng như người dùng cuối có thể giúp giảm thiểu việc ứng dụng LLM theo mục đích xấu. Chúng tôi cung cấp tài nguyên hướng dẫn và cơ chế báo cáo để người dùng gắn cờ hành vi sử dụng sai mục đích: hãy xem Bộ công cụ về AI tạo sinh có trách nhiệm. Các trường hợp sử dụng bị cấm đối với mô hình Gemma được nêu trong Chính sách về các hành vi bị cấm khi sử dụng Gemma.
  • Vi phạm quyền riêng tư: Các mô hình được huấn luyện bằng dữ liệu đã được lọc để xoá một số thông tin cá nhân và dữ liệu nhạy cảm. Nhà phát triển nên tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.

Các điểm hạn chế

  • Hầu hết các giới hạn kế thừa từ các mô hình Gemma 2 cơ bản vẫn được áp dụng:
    • VLM hoạt động hiệu quả hơn với những nhiệm vụ có thể được định hình bằng các lời nhắc và hướng dẫn rõ ràng. Các nhiệm vụ mở hoặc có độ phức tạp cao có thể gây khó khăn.
    • Ngôn ngữ tự nhiên vốn dĩ rất phức tạp. VLM có thể gặp khó khăn trong việc nắm bắt các sắc thái tinh tế, lời châm biếm hoặc ngôn từ hình tượng.
    • VLM tạo câu trả lời dựa trên thông tin mà chúng học được từ tập dữ liệu huấn luyện, nhưng không phải là cơ sở tri thức. Các nguồn này có thể tạo ra các câu nhận định không chính xác hoặc đã lỗi thời về thực tế.
    • VLM dựa vào các mẫu thống kê trong ngôn ngữ và hình ảnh. Chúng có thể không có khả năng áp dụng lý luận theo lẽ thường trong một số trường hợp nhất định.
  • Trước hết, PaliGemma 2 được thiết kế để đóng vai trò là một mô hình được huấn luyện trước chung để tinh chỉnh cho các nhiệm vụ chuyên biệt. Do đó, hiệu suất "trực quan" hoặc "không có ví dụ" của mô hình này có thể kém hơn các mô hình được thiết kế riêng cho mục đích sử dụng chung.
  • PaliGemma 2 không phải là chatbot nhiều lượt. Phương thức này được thiết kế cho một vòng nhập hình ảnh và văn bản.