Thẻ mô hình PaliGemma 1

Trang mô hình: PaliGemma

Tài nguyên và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản

Tác giả: Google

Thông tin mẫu

Tóm tắt mô hình

Mô tả

PaliGemma là một mô hình ngôn ngữ thị giác (VLM) linh hoạt và nhẹ, lấy cảm hứng từ PaLI-3 và dựa trên các thành phần mở như mô hình thị giác SigLIPmô hình ngôn ngữ Gemma. Công cụ này lấy cả hình ảnh và văn bản làm dữ liệu đầu vào và tạo văn bản làm dữ liệu đầu ra, hỗ trợ nhiều ngôn ngữ. Công cụ này được thiết kế để tinh chỉnh hiệu suất hàng đầu trên nhiều nhiệm vụ liên quan đến ngôn ngữ hình ảnh, chẳng hạn như phụ đề hình ảnh và video ngắn, trả lời câu hỏi bằng hình ảnh, đọc văn bản, phát hiện đối tượng và phân đoạn đối tượng.

Cấu trúc mô hình

PaliGemma là thành phần của một bộ giải mã Transformer và một bộ mã hoá hình ảnh của Vision Transformer, có tổng cộng 3 tỷ tham số. Bộ giải mã văn bản được khởi chạy từ Gemma-2B. Bộ mã hoá hình ảnh được khởi tạo từ SigLIP-So400m/14. PaliGemma được huấn luyện theo các công thức PaLI-3.

Đầu vào và đầu ra

  • Dữ liệu đầu vào: Hình ảnh và chuỗi văn bản, chẳng hạn như câu lệnh để chú thích hình ảnh hoặc một câu hỏi.
  • Đầu ra: Văn bản được tạo để phản hồi dữ liệu đầu vào, chẳng hạn như chú thích của hình ảnh, câu trả lời cho một câu hỏi, danh sách toạ độ hộp giới hạn của đối tượng hoặc từ khoá phân đoạn.

Trích dẫn

@article{
    title={PaliGemma: A versatile 3B VLM for transfer},
    author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2407.07726}
}

Dữ liệu mô hình

Tập dữ liệu huấn luyện trước

PaliGemma được huấn luyện trước trên tập hợp các tập dữ liệu sau:

  • WebLI: WebLI (Hình ảnh ngôn ngữ trên web) là một tập dữ liệu văn bản-hình ảnh đa ngôn ngữ trên quy mô web được xây dựng từ web công khai. Một loạt các phần phân tách WebLI được dùng để thu nạp các chức năng linh hoạt của mô hình, chẳng hạn như hiểu ngữ nghĩa hình ảnh, bản địa hoá đối tượng, hiểu văn bản theo vị trí hình ảnh, đa ngôn ngữ, v.v.
  • CC3M-35L: Các cặp hình ảnh-văn bản thay thế bằng tiếng Anh được tuyển chọn từ các trang web (Sharma et al., 2018). Chúng tôi đã sử dụng API Google Cloud Translation để dịch sang 34 ngôn ngữ khác.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: Một tập hợp con của VQ2A-CC3M (Changpinyo và cộng sự, 2022a), được dịch sang cùng 34 ngôn ngữ bổ sung như CC3M-35L, bằng cách sử dụng API Dịch của Google Cloud.
  • OpenImages: Câu hỏi và câu trả lời phát hiện và nhận biết đối tượng (Piergiovanni et al. 2022) được tạo bằng các quy tắc thủ công trên tập dữ liệu OpenImages.
  • WIT: Hình ảnh và văn bản được thu thập từ Wikipedia (Srinivasan et al., 2021).

Lọc trách nhiệm đối với dữ liệu

Các bộ lọc sau đây được áp dụng cho WebLI, với mục tiêu huấn luyện PaliGemma trên dữ liệu sạch:

  • Lọc hình ảnh khiêu dâm: Bộ lọc này xoá những hình ảnh được coi là mang tính khiêu dâm.
  • Lọc nội dung văn bản không an toàn: Chúng tôi xác định và lọc ra những hình ảnh được ghép với văn bản không an toàn. Văn bản không an toàn là mọi văn bản được cho là chứa hoặc nói về hình ảnh xâm hại tình dục trẻ em (CSAI), nội dung khiêu dâm, tục tĩu hoặc gây phản cảm.
  • Lọc nội dung độc hại trong văn bản: Chúng tôi cũng sử dụng Perspective API để xác định và lọc ra những hình ảnh được ghép nối với văn bản bị coi là xúc phạm, tục tĩu, hận thù hoặc độc hại.
  • Lọc thông tin cá nhân dạng văn bản: Chúng tôi đã lọc một số thông tin cá nhân và dữ liệu nhạy cảm khác bằng cách sử dụng API Ngăn chặn mất dữ liệu (DLP) trên đám mây để bảo vệ quyền riêng tư của cá nhân. Các giá trị nhận dạng như số an sinh xã hội và các loại thông tin nhạy cảm khác đã bị xoá.
  • Các phương pháp khác: Lọc dựa trên chất lượng và mức độ an toàn của nội dung theo chính sách và phương pháp của chúng tôi.

Thông tin triển khai

Phần cứng

PaliGemma được huấn luyện bằng phần cứng Bộ xử lý tensor (TPU) thế hệ mới nhất (TPUv5e).

Phần mềm

Quá trình đào tạo đã hoàn tất bằng cách sử dụng JAX, Flax, TFDSbig_vision.

JAX cho phép các nhà nghiên cứu tận dụng thế hệ phần cứng mới nhất, bao gồm cả TPU, để huấn luyện các mô hình lớn nhanh và hiệu quả hơn.

TFDS được dùng để truy cập vào tập dữ liệu và Flax được dùng cho cấu trúc mô hình. Mã tinh chỉnh và mã suy luận của PaliGemma được phát hành trong kho lưu trữ GitHub big_vision.

Thông tin đánh giá

Kết quả đo điểm chuẩn

Để xác minh khả năng chuyển đổi của PaliGemma sang nhiều nhiệm vụ học thuật, chúng tôi điều chỉnh các mô hình được huấn luyện trước cho từng nhiệm vụ. Ngoài ra, chúng ta còn đào tạo mô hình kết hợp bằng một tổ hợp các nhiệm vụ chuyển. Chúng tôi báo cáo kết quả trên nhiều độ phân giải để cho bạn biết những tác vụ nào được hưởng lợi từ việc tăng độ phân giải. Quan trọng là không có tác vụ hoặc tập dữ liệu nào trong số này thuộc về hỗn hợp dữ liệu huấn luyện trước và hình ảnh của các tác vụ hoặc tập dữ liệu này sẽ bị xoá rõ ràng khỏi dữ liệu huấn luyện trước trên quy mô web.

Một tác vụ (chỉnh sửa chi tiết trên một tác vụ)

Điểm chuẩn (phân tách tàu) Chỉ số (phân tách) pt-224 pt-448 pt-896
Phụ đề
Phụ đề COCO (train+restval) CIDEr (val) 141,92 144,60
NoCaps (Đánh giá việc chuyển phụ đề COCO) CIDEr (val) 121,72 123,58
COCO-35L (tàu) CIDEr dev (en/avg-34/avg)
139,2
115,8
116,4
141.2
118.0
118.6
XM3600 (Đánh giá quá trình chuyển COCO-35L) CIDEr dev (en/avg-34/avg)
78,1
41,3
42,4
80.0
41.9
42.9
TextCaps (huấn luyện) CIDEr (val) 127,48 153,94
SciCap (câu đầu tiên, không có hình phụ) (huấn luyện+giá trị) CIDEr/BLEU-4 (kiểm thử)
162,25
0,192
181,49
0,211
Screen2words (huấn luyện+phát triển) CIDEr (kiểm thử) 117,57 119,59
Phụ đề tiện ích (huấn luyện+phát triển) CIDEr (kiểm thử) 136,07 148,36
Trả lời câu hỏi
VQAv2 (huấn luyện+xác thực) Độ chính xác (Máy chủ kiểm thử – std) 83,19 85,64
MMVP (Đánh giá việc chuyển VQAv2) Độ chính xác khi ghép nối 47,33 45,33
POPE (Đánh giá việc chuyển VQAv2) Độ chính xác (ngẫu nhiên/phổ biến/đối kháng)
87,80
85,87
84,27
88,23
86,77
85,90
OKVQA (huấn luyện) Độ chính xác (val) 63,54 63,15
A-OKVQA (MC) (huấn luyện+giá trị) Độ chính xác (Máy chủ thử nghiệm) 76,37 76,90
A-OKVQA (DA) (train+val) Độ chính xác (Máy chủ thử nghiệm) 61,85 63,22
GQA (train_balanced+val_balanced) Độ chính xác (testdev cân bằng) 65,61 67,03
xGQA (Đánh giá việc chuyển GQA) Độ chính xác trung bình (bn, de, en, id, ko, pt, ru, zh) 58,37 59,07
NLVR2 (huấn luyện+phát triển) Độ chính xác (kiểm thử) 90,02 88,93
MaRVL (Đánh giá quá trình chuyển NLVR2) Độ chính xác trung bình (kiểm thử) (id, sw, ta, tr, zh) 80,57 76,78
AI2D (tàu) Độ chính xác (kiểm thử) 72,12 73,28
ScienceQA (Bộ con hình ảnh, không có CoT) (huấn luyện+giá trị) Độ chính xác (kiểm thử) 95,39 95,93
RSVQA-LR (Không phải số) (huấn luyện+giá trị) Độ chính xác trung bình (kiểm thử) 92,65 93,11
RSVQA-HR (Không phải số) (huấn luyện+giá trị) Độ chính xác trung bình (test/test2)
92,61
90,58
92,79
90,54
ChartQA (human+aug)x(train+val) Độ chính xác tương đối trung bình (test_human, test_aug) 57,08 71,36
VizWiz VQA (huấn luyện+giá trị) Độ chính xác (Máy chủ kiểm thử – std) 73,7 75,52
TallyQA (huấn luyện) Độ chính xác (test_simple/test_complex)
81,72
69,56
84,86
72,27
OCR-VQA (huấn luyện+giá trị) Độ chính xác (kiểm thử) 72,32 74,61 74,93
TextVQA (huấn luyện+giá trị) Độ chính xác (Máy chủ kiểm thử – std) 55,47 73,15 76,48
DocVQA (huấn luyện+giá trị) ANLS (Máy chủ thử nghiệm) 43,74 78,02 84,77
Bản đồ hoạ thông tin VQA (huấn luyện+giá trị) ANLS (Máy chủ thử nghiệm) 28,46 40,47 47,75
SceneText VQA (huấn luyện+giá trị) ANLS (Máy chủ thử nghiệm) 63,29 81,82 84,40
Phân đoạn
RefCOCO (kết hợp refcoco, refcoco+, refcocog, ngoại trừ hình ảnh val và hình ảnh kiểm thử) MIoU (xác thực) refcoco/refcoco+/refcocog
73,40
68,32
67,65
75,57
69,76
70,17
76,94
72,18
72,22
Công việc liên quan đến video (Phụ đề/Kiểm thử chất lượng)
MSR-VTT (Phụ đề) CIDEr (kiểm thử) 70,54
MSR-VTT (QA) Độ chính xác (kiểm thử) 50,09
ActivityNet (Phụ đề) CIDEr (kiểm thử) 34,62
ActivityNet (QA) Độ chính xác (kiểm thử) 50,78
VATEX (Phụ đề) CIDEr (kiểm thử) 79,73
MSVD (QA) Độ chính xác (kiểm thử) 60,22

Mô hình kết hợp (chỉnh sửa chi tiết về sự kết hợp của các tác vụ chuyển)

Benchmark (Điểm chuẩn) Chỉ số (phân tách) mix-224 mix-448
MMVP Độ chính xác khi ghép nối 46.00 45,33
POPE Độ chính xác (ngẫu nhiên/phổ biến/đối kháng)
88,00
86,63
85,67
89,37
88,40
87,47

Đạo đức và sự an toàn

Phương pháp đánh giá

Các phương pháp đánh giá của chúng tôi bao gồm đánh giá có cấu trúc và kiểm thử nội bộ theo nhóm đối thủ về các chính sách nội dung có liên quan. Một số nhóm đã tiến hành hoạt động tấn công giả lập, mỗi nhóm có các mục tiêu và chỉ số đánh giá con người khác nhau. Các mô hình này được đánh giá theo một số danh mục liên quan đến đạo đức và an toàn, bao gồm:

  • Đánh giá thủ công về các câu lệnh liên quan đến sự an toàn của trẻ em, sự an toàn của nội dung và tác hại do nội dung gây ra. Hãy xem thẻ mô hình Gemma để biết thêm thông tin chi tiết về phương pháp đánh giá, nhưng với các chế độ cài đặt chú thích hình ảnh và trả lời câu hỏi bằng hình ảnh.
  • Đánh giá điểm chuẩn Hình ảnh sang Văn bản: So sánh với các tập dữ liệu học thuật liên quan, chẳng hạn như Tập dữ liệu FairFace (Karkkainen et al., 2021).

Kết quả đánh giá

  • Kết quả đánh giá thủ công về đạo đức và sự an toàn nằm trong ngưỡng chấp nhận được để đáp ứng chính sách nội bộ đối với các danh mục như sự an toàn cho trẻ em, sự an toàn của nội dung và nội dung gây hại.
  • Ngoài các quy trình đánh giá nội bộ nghiêm ngặt, chúng tôi cũng sử dụng API Perspective (ngưỡng 0, 8) để đo lường tính độc hại, tục tĩu và các vấn đề tiềm ẩn khác trong chú thích được tạo cho hình ảnh lấy từ tập dữ liệu FairFace. Chúng tôi báo cáo giá trị tối đa và trung bình được quan sát trên các nhóm nhỏ đối với từng thuộc tính giới tính, sắc tộc và độ tuổi được nhận biết.
Chỉ số Giới tính được nhận biết Sắc tộc Nhóm tuổi
Tối đa Trung vị Tối đa Trung vị Tối đa Trung vị
Nội dung độc hại 0,04% 0,03% 0,08% 0% 0,09% 0%
Tấn công danh tính 0% 0% 0% 0% 0% 0%
Insult 0,06% 0,04% 0,09% 0,07% 0,16% 0%
Đe dọa 0,06% 0,05% 0,14% 0,05% 0,17% 0%
Ngôn từ thô tục 0% 0% 0% 0% 0% 0%

Cách sử dụng và giới hạn

Mục đích sử dụng

Mô hình ngôn ngữ Open Vision (VLM) có nhiều ứng dụng trên nhiều ngành và lĩnh vực. Danh sách các trường hợp sử dụng tiềm năng sau đây không đầy đủ. Mục đích của danh sách này là cung cấp thông tin theo ngữ cảnh về các trường hợp sử dụng có thể xảy ra mà nhà sáng tạo mô hình đã xem xét trong quá trình huấn luyện và phát triển mô hình. Các trường hợp sử dụng bị cấm đối với mô hình Gemma được nêu trong Chính sách về các hành vi bị cấm khi sử dụng Gemma.

Điều chỉnh cho phù hợp trong một nhiệm vụ cụ thể về ngôn ngữ thị giác:

  • Bạn có thể tinh chỉnh các mô hình được huấn luyện trước cho nhiều nhiệm vụ liên quan đến ngôn ngữ thị giác, chẳng hạn như: chú thích hình ảnh, chú thích video ngắn, trả lời câu hỏi bằng hình ảnh, đọc văn bản, phát hiện đối tượng và phân đoạn đối tượng.
  • Bạn có thể tinh chỉnh các mô hình được huấn luyện trước cho các lĩnh vực cụ thể, chẳng hạn như trả lời câu hỏi cảm biến từ xa, câu hỏi hình ảnh của người khiếm thị, trả lời câu hỏi khoa học, mô tả chức năng của thành phần giao diện người dùng.
  • Bạn có thể tinh chỉnh các mô hình được huấn luyện trước cho các tác vụ có đầu ra không phải văn bản, chẳng hạn như hộp giới hạn hoặc mặt nạ phân đoạn.

Nghiên cứu về ngôn ngữ thị giác:

  • Mô hình được huấn luyện trước và mô hình được tinh chỉnh có thể đóng vai trò là nền tảng để các nhà nghiên cứu thử nghiệm các kỹ thuật VLM, phát triển thuật toán và đóng góp vào sự phát triển của lĩnh vực này.

Những điều cần cân nhắc và rủi ro về mặt đạo đức

Việc phát triển mô hình ngôn ngữ hình ảnh (VLM) làm nảy sinh một số vấn đề về đạo đức. Khi tạo mô hình mở, chúng tôi đã cân nhắc kỹ những điều sau:

  • Sự thiên vị và tính công bằng
    • VLM được huấn luyện dựa trên dữ liệu văn bản-hình ảnh thực tế, quy mô lớn có thể phản ánh các thành kiến xã hội-văn hoá được nhúng trong tài liệu huấn luyện. Các mô hình này đã được kiểm tra kỹ lưỡng, mô tả quy trình xử lý trước dữ liệu đầu vào và báo cáo các đánh giá sau trong thẻ này.
  • Thông tin sai lệch và hành vi sử dụng sai mục đích
    • VLM có thể bị sử dụng sai mục đích để tạo văn bản sai sự thật, gây hiểu lầm hoặc gây hại.
    • Chúng tôi cung cấp các nguyên tắc để sử dụng mô hình này một cách có trách nhiệm, hãy xem Bộ công cụ AI tạo sinh có trách nhiệm.
  • Tính minh bạch và trách nhiệm giải trình
    • Thẻ mô hình này tóm tắt thông tin chi tiết về cấu trúc, chức năng, giới hạn và quy trình đánh giá của mô hình.
    • Mô hình mở được phát triển một cách có trách nhiệm mang đến cơ hội chia sẻ sự đổi mới bằng cách giúp nhà phát triển và nhà nghiên cứu trên hệ sinh thái AI tiếp cận công nghệ VLM.

Các rủi ro đã xác định và biện pháp giảm thiểu:

  • Tiếp tục duy trì thành kiến: Bạn nên theo dõi liên tục (sử dụng các chỉ số đánh giá, đánh giá thủ công) và khám phá các kỹ thuật loại bỏ thành kiến trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
  • Tạo nội dung gây hại: Các cơ chế và nguyên tắc về tính an toàn của nội dung là điều cần thiết. Nhà phát triển nên thận trọng và triển khai các biện pháp bảo vệ an toàn nội dung phù hợp dựa trên các chính sách sản phẩm và trường hợp sử dụng ứng dụng cụ thể.
  • Sử dụng sai mục đích: Các giới hạn kỹ thuật và hoạt động đào tạo nhà phát triển cũng như người dùng cuối có thể giúp giảm thiểu việc ứng dụng LLM theo mục đích xấu. Chúng tôi cung cấp tài nguyên hướng dẫn và cơ chế báo cáo để người dùng gắn cờ hành vi sử dụng sai mục đích: hãy xem Bộ công cụ về AI tạo sinh có trách nhiệm. Các trường hợp sử dụng bị cấm đối với mô hình Gemma được nêu trong Chính sách về các hành vi bị cấm khi sử dụng Gemma.
  • Vi phạm quyền riêng tư: Các mô hình được huấn luyện dựa trên dữ liệu đã được lọc để xoá một số thông tin cá nhân và dữ liệu nhạy cảm. Nhà phát triển nên tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.

Các điểm hạn chế

  • Hầu hết các giới hạn kế thừa từ mô hình Gemma cơ bản vẫn được áp dụng:
    • VLM hoạt động hiệu quả hơn với những nhiệm vụ có thể được định hình bằng các lời nhắc và hướng dẫn rõ ràng. Các nhiệm vụ mở hoặc có độ phức tạp cao có thể gây khó khăn.
    • Ngôn ngữ tự nhiên vốn dĩ rất phức tạp. VLM có thể gặp khó khăn trong việc nắm bắt các sắc thái tinh tế, lời châm biếm hoặc ngôn từ hình tượng.
    • VLM tạo câu trả lời dựa trên thông tin mà chúng học được từ tập dữ liệu huấn luyện, nhưng không phải là cơ sở tri thức. Các nguồn này có thể tạo ra các câu nhận định không chính xác hoặc đã lỗi thời về thực tế.
    • VLM dựa vào các mẫu thống kê trong ngôn ngữ và hình ảnh. Chúng có thể không có khả năng áp dụng lý luận theo lẽ thường trong một số trường hợp nhất định.
  • Trước hết, PaliGemma được thiết kế để đóng vai trò là một mô hình được huấn luyện trước chung để tinh chỉnh cho các nhiệm vụ chuyên biệt. Do đó, hiệu suất "trực quan" hoặc "không có ví dụ" của mô hình này có thể kém hơn các mô hình được thiết kế riêng cho mục đích sử dụng chung.
  • PaliGemma không phải là chatbot nhiều lượt. Lớp này được thiết kế cho một vòng nhập hình ảnh và văn bản.