Thẻ mô hình PaliGemma

Trang kiểu máy: PaliGemma

Tài liệu và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản

Tác giả: Google

Thông tin mẫu

Tóm tắt mô hình

Nội dung mô tả

PaliGemma là một mô hình ngôn ngữ thị giác (VLM) linh hoạt và gọn nhẹ, lấy cảm hứng từ PaLI-3 và dựa trên các thành phần mở như mô hình thị giác SigLIPmô hình ngôn ngữ Gemma. Phương thức này lấy cả hình ảnh và văn bản làm dữ liệu đầu vào, đồng thời tạo văn bản làm đầu ra, hỗ trợ nhiều ngôn ngữ. API này được thiết kế nhằm mang lại hiệu suất tinh chỉnh hàng đầu trong nhiều công việc ở ngôn ngữ thị giác, chẳng hạn như chú thích hình ảnh và video ngắn, trả lời câu hỏi bằng hình ảnh, đọc văn bản, phát hiện đối tượng và phân đoạn đối tượng.

Cấu trúc mô hình

PaliGemma là thành phần của bộ giải mã Transformerbộ mã hoá hình ảnh Vision Transformer, có tổng cộng 3 tỷ tham số. Bộ giải mã văn bản được khởi chạy từ Gemma-2B. Bộ mã hoá hình ảnh được khởi động từ SigLIP-So400m/14. PaliGemma được đào tạo theo các công thức Pali-3.

Đầu vào và đầu ra

  • Đầu vào: Hình ảnh và chuỗi văn bản, chẳng hạn như câu lệnh tạo chú thích cho hình ảnh hoặc câu hỏi.
  • Đầu ra: Văn bản được tạo theo thông tin đầu vào, chẳng hạn như chú thích về hình ảnh, câu trả lời cho một câu hỏi, danh sách toạ độ hộp ràng buộc đối tượng hoặc từ mã phân đoạn.

Dữ liệu về mô hình

Tập dữ liệu trước khi huấn luyện

PaliGemma được huấn luyện trước trên các bộ dữ liệu sau đây:

  • WebLI: WebLI (Hình ảnh ngôn ngữ web) là một tập dữ liệu hình ảnh-văn bản đa ngôn ngữ có tỷ lệ web, được xây dựng từ web công khai. Chúng tôi sử dụng nhiều cách phân tách WebLI để có được các chức năng mô hình linh hoạt, chẳng hạn như hiểu ngữ nghĩa hình ảnh, bản địa hoá đối tượng, hiểu văn bản theo cách trực quan, tính đa ngôn ngữ, v.v.
  • CC3M-35L: Các cặp văn bản thay thế hình ảnh bằng tiếng Anh được chọn từ các trang web (Sharma et al., năm 2018). Chúng tôi đã dùng Google Cloud Translation API để dịch sang 34 ngôn ngữ bổ sung.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: Một tập hợp con của VQ2A-CC3M (Changpinyo và cộng sự, 2022a), được dịch sang cùng 34 ngôn ngữ như CC3M-35L, bằng cách sử dụng Google Cloud Translation API.
  • OpenImages: Các câu hỏi và câu trả lời giúp phát hiện và nhận biết đối tượng (Piergiovanni et al. 2022) do các quy tắc thủ công tạo ra trên tập dữ liệu OpenImages.
  • WIT: Hình ảnh và văn bản thu thập từ Wikipedia (Srinivasan và cộng sự, năm 2021).

Lọc trách nhiệm đối với dữ liệu

Các bộ lọc sau đây được áp dụng cho WebLI, với mục tiêu huấn luyện PaliGemma về dữ liệu sạch:

  • Lọc hình ảnh khiêu dâm: Bộ lọc này sẽ loại bỏ hình ảnh bị coi là có tính chất khiêu dâm.
  • Lọc an toàn văn bản: Chúng tôi xác định và lọc ra hình ảnh ghép với văn bản không an toàn. Văn bản không an toàn là bất kỳ văn bản nào được coi là có chứa hoặc có nội dung về CSAI, nội dung khiêu dâm, tục tĩu hoặc phản cảm.
  • Lọc độc tính văn bản: Chúng tôi còn sử dụng API Perspective để xác định và lọc ra những hình ảnh đi kèm với văn bản bị coi là có tính xúc phạm, tục tĩu, gây hận thù hoặc độc hại.
  • Lọc thông tin cá nhân dạng văn bản: Chúng tôi lọc một số thông tin cá nhân nhất định và các dữ liệu nhạy cảm khác bằng API Ngăn chặn mất dữ liệu (DLP) của Cloud để bảo vệ quyền riêng tư của các cá nhân. Các giá trị nhận dạng như số an sinh xã hội và các loại thông tin nhạy cảm khác đã bị xoá.
  • Các phương pháp bổ sung: Lọc dựa trên chất lượng và mức độ an toàn của nội dung phù hợp với chính sách và phương pháp của chúng tôi.

Thông tin triển khai

Phần cứng

PaliGemma được đào tạo bằng phần cứng Bộ xử lý Tensor (TPU) (TPUv5e) thế hệ mới nhất.

Phần mềm

Chúng tôi đã hoàn tất quá trình huấn luyện bằng JAX, Flax, TFDSbig_vision.

JAX cho phép các nhà nghiên cứu tận dụng thế hệ phần cứng mới nhất, bao gồm cả TPU, để huấn luyện các mô hình lớn nhanh hơn và hiệu quả hơn.

TFDS được dùng để truy cập các tập dữ liệu và Flax được dùng cho cấu trúc mô hình. Mã tinh chỉnh và mã suy luận của PaliGemma được phát hành trong kho lưu trữ big_vision trên GitHub.

Thông tin đánh giá

Kết quả đo điểm chuẩn

Để xác minh khả năng chuyển được của PaliGemma cho nhiều nhiệm vụ học thuật, chúng tôi tinh chỉnh các mô hình được huấn luyện trước cho từng nhiệm vụ. Ngoài ra, chúng tôi huấn luyện mô hình kết hợp bằng cách kết hợp các tác vụ chuyển. Chúng tôi báo cáo kết quả dựa trên nhiều độ phân giải để cho biết những nhiệm vụ nào sẽ được hưởng lợi từ việc tăng độ phân giải. Quan trọng là không có tác vụ hoặc tập dữ liệu nào trong số này thuộc tổ hợp dữ liệu huấn luyện trước. Đồng thời, hình ảnh của các tác vụ hoặc tập dữ liệu này sẽ bị xoá rõ ràng khỏi dữ liệu trước khi huấn luyện ở quy mô web.

Tác vụ đơn (tinh chỉnh trên một tác vụ)

Điểm chuẩn (phân chia tàu) Chỉ số (phân tách) pt-224 pt-448 pt-896
Phụ đề
Phụ đề COCO (tàu hoả+điểm nghỉ) Mã khách hàng (CIDEr) (val) 141,92 144,6
NoCaps (Eval của việc chuyển phụ đề COCO) Mã khách hàng (CIDEr) (val) 121,72 123,58
COCO-35L (tàu hoả) Nhà phát triển CIDEr (vi/trungbinh-34/trung bình)
139,2
115,8
116,4
141,2
118,0
118,6
XM3600 (Tương đương khi chuyển COCO-35L) Nhà phát triển CIDEr (vi/trungbinh-34/trung bình)
78.1
41.3
42.4
80,0
41,9
42,9
TextCaps (tàu hoả) Mã khách hàng (CIDEr) (val) 127,48 153,94
SciCap (câu đầu tiên, không có hình phụ) (tàu + val) CIDEr/BLEU-4 (thử nghiệm)
162,25
0,192
181,49
0,211
Screen2words (tàu+nhà phát triển) CIDEr (thử nghiệm) 117,57 119,59
Phụ đề tiện ích (tàu + nhà phát triển) CIDEr (thử nghiệm) 136,07 148,36
Trả lời câu hỏi
VQAv2 (tàu+xác thực) Độ chính xác (Máy chủ thử nghiệm – std) 83,19 85,64
MMVP (Sự kiện chuyển tiếp từ VQAv2) Độ chính xác của kết hợp 47,33 45,33
POPE (Thông tin về quá trình chuyển VQAv2) Độ chính xác (ngẫu nhiên/phổ biến/đối nghịch)
87,80
85,87
84,27
88,23
86,77
85,90
OKVQA (tàu hoả) Độ chính xác (val) 63,54 63,15
A-OKVQA (MC) (tàu + val) Độ chính xác (Máy chủ kiểm tra) 76,37 euro
A-OKVQA (DA) (tàu + val) Độ chính xác (Máy chủ kiểm tra) 61,85 63,22
GQA (train_balanced+val_balanced) Độ chính xác (cân bằng với nhà phát triển thử nghiệm) 65,61 67,03
xGQA (Tương đương về quá trình chuyển GQA) Độ chính xác trung bình (bn, de, en, id, ko, pt, ru, zh) 58,37 59,07
NLVR2 (tàu + nhà phát triển) Độ chính xác (thử nghiệm) 90,02 88,93
MaRVL (Giá trị chuyển đổi NLVR2) Độ chính xác trung bình (thử nghiệm) (id, sw, ta, tr, zh) 80,57 76,78
AI2D (tàu hoả) Độ chính xác (thử nghiệm) 72,12 73,28
ScienceQA (Tập hợp con Img, không có CoT) (tàu + val) Độ chính xác (thử nghiệm) 95,39 95,93
RSVQA-LR (Không phải số) (tàu+val) Độ chính xác trung bình (thử nghiệm) 92,65 93,11
RSVQA-HR (Không phải số) (tàu + val) Độ chính xác trung bình (thử nghiệm/thử nghiệm 2)
92,61
90,58
92,79
90,54
ChartQA (con người+aug)x(train+val) Độ chính xác trung bình tương đối (test_person, test_aug) 57,08 71,36
VizWiz VQA (tàu+val) Độ chính xác (Máy chủ thử nghiệm – std) 73,7 75,52
TallyQA (tàu) Độ chính xác (test_simple/test_complex)
81,72
69,56
84,86
72,27
OCR-VQA (tàu+val) Độ chính xác (thử nghiệm) 72,32 74,61 euro
TextVQA (tàu + val) Độ chính xác (Máy chủ thử nghiệm – std) 55,47 73,15 76,48
DocVQA (tàu+val) ANLS (Máy chủ thử nghiệm) 43,74 78,02 84,77
VQA đồ hoạ thông tin (tàu + val) ANLS (Máy chủ thử nghiệm) 28,46 40,47 47,75
SceneText VQA (tàu + val) ANLS (Máy chủ thử nghiệm) 63,29 81,82 84,4
Phân đoạn
RefCOCO (kết hợp refcoco, refcoco+, refcog không bao gồm hình ảnh val và thử nghiệm) MIoU (xác thực) refcoco/refcoco+/refcog
73,40
68,32
67,65
75,57
69,76
70,17
76,94
72,18
72,22
Nhiệm vụ đối với video (Phụ đề/QA)
MSR-VTT (Phụ đề) CIDEr (thử nghiệm) 70,54
MSR-VTT (QA) Độ chính xác (thử nghiệm) 50,09
ActivityNet (Phụ đề) CIDEr (thử nghiệm) 34,62
ActivityNet (QA) Độ chính xác (thử nghiệm) 50,78
VATEX (Phụ đề) CIDEr (thử nghiệm) 79,73
MSVD (QA) Độ chính xác (thử nghiệm) 60,22

Mô hình kết hợp (tinh chỉnh kết hợp các nhiệm vụ chuyển)

Benchmark (Điểm chuẩn) Chỉ số (phân tách) mix-224 mix-448
Người chiến thắng Độ chính xác của kết hợp 46 45,33
POPE Độ chính xác (ngẫu nhiên/phổ biến/đối nghịch)
88,00
86,63
85,67
89,37
88,40
87,47

Đạo đức và an toàn

Phương pháp đánh giá

Các phương pháp đánh giá của chúng tôi bao gồm đánh giá có cấu trúc và kiểm thử kết hợp nội bộ đối với các chính sách nội dung có liên quan. Nhiều nhóm khác nhau đã tiến hành quy trình hợp tác đỏ, mỗi nhóm có những mục tiêu và chỉ số đánh giá thủ công khác nhau. Những mô hình này được đánh giá theo một số danh mục liên quan đến đạo đức và sự an toàn, bao gồm:

  • Quy trình đánh giá thủ công đối với các câu lệnh liên quan đến sự an toàn của trẻ em, sự an toàn của nội dung và các mối nguy hại đại diện. Hãy xem thẻ mô hình Gemma để biết thêm thông tin chi tiết về phương pháp đánh giá, nhưng với tính năng chú thích hình ảnh và chế độ thiết lập câu hỏi bằng hình ảnh.
  • Đánh giá điểm chuẩn giữa hình ảnh thành văn bản: Đo điểm chuẩn dựa trên các tập dữ liệu học thuật có liên quan, chẳng hạn như Tập dữ liệu FairFace (Karkkainen và cộng sự, năm 2021).

Kết quả đánh giá

  • Kết quả đánh giá thủ công về đạo đức và sự an toàn đều nằm trong ngưỡng được chấp nhận để đáp ứng các chính sách nội bộ đối với các danh mục như sự an toàn cho trẻ em, sự an toàn của nội dung và các mối nguy hại thể hiện.
  • Ngoài các quy trình đánh giá nội bộ hiệu quả, chúng tôi cũng sử dụng Perspective API (ngưỡng 0, 8) để đo lường tính độc hại, ngôn từ thô tục và các vấn đề tiềm ẩn khác trong phụ đề được tạo cho hình ảnh lấy từ tập dữ liệu FairFace. Chúng tôi báo cáo các giá trị tối đa và trung vị quan sát được ở các nhóm con đối với từng thuộc tính giới tính, sắc tộc và độ tuổi được dự đoán.
Chỉ số Giới tính ước tính Sắc tộc Nhóm tuổi
Tối đa Trung vị Tối đa Trung vị Tối đa Trung vị
Độc tính 0,04% 0,03% 0,08% 0% 0,09% 0%
Tấn công danh tính 0% 0% 0% 0% 0% 0%
Xúc phạm 0,06% 0,04% 0,09% 0,07% 0,16% 0%
Đe dọa 0,06% 0,05% 0,14% 0,05% 0,17% 0%
Ngôn từ thô tục 0% 0% 0% 0% 0% 0%

Cách sử dụng và giới hạn

Mục đích sử dụng

Mô hình ngôn ngữ tầm nhìn mở (VLM) có nhiều ứng dụng trong nhiều ngành và lĩnh vực. Danh sách các trường hợp có thể sử dụng sau đây chưa đầy đủ. Mục đích của danh sách này là cung cấp thông tin theo bối cảnh về những trường hợp sử dụng có thể xảy ra mà người tạo mô hình đã cân nhắc trong quá trình huấn luyện và phát triển mô hình.

Tinh chỉnh nhiệm vụ cụ thể liên quan đến ngôn ngữ thị giác:

  • Các mô hình luyện sẵn có thể được tinh chỉnh cho nhiều nhiệm vụ liên quan đến ngôn ngữ thị giác, chẳng hạn như: tạo phụ đề hình ảnh, phụ đề video ngắn, trả lời câu hỏi bằng hình ảnh, đọc văn bản, phát hiện đối tượng và phân đoạn đối tượng.
  • Bạn có thể tinh chỉnh các mô hình luyện sẵn cho một số miền cụ thể, chẳng hạn như trả lời câu hỏi cảm biến từ xa, câu hỏi bằng hình ảnh của người khiếm thị, trả lời câu hỏi khoa học, mô tả các chức năng của phần tử trên giao diện người dùng.
  • Bạn có thể tinh chỉnh các mô hình luyện sẵn cho các tác vụ có đầu ra không phải văn bản, chẳng hạn như hộp giới hạn hoặc mặt nạ phân đoạn.

Nghiên cứu ngôn ngữ dựa trên thị giác:

  • Các mô hình luyện sẵn và mô hình được tinh chỉnh có thể đóng vai trò là nền tảng cho các nhà nghiên cứu thử nghiệm các kỹ thuật VLM, phát triển thuật toán và đóng góp vào sự phát triển của ngành này.

Cân nhắc và rủi ro về mặt đạo đức

Sự phát triển của các mô hình ngôn ngữ bằng thị giác (VLM) làm nảy sinh một số lo ngại về đạo đức. Khi tạo mô hình mở, chúng tôi đã xem xét cẩn thận những điều sau:

  • Thiên vị và sự công bằng
    • Các VLM được huấn luyện dựa trên dữ liệu văn bản hình ảnh thực tế, có quy mô lớn có thể phản ánh các thiên kiến văn hoá xã hội được lồng ghép trong tài liệu huấn luyện. Những mô hình này đã trải qua xem xét kỹ lưỡng, xem xét kỹ lưỡng trước khi xử lý dữ liệu đầu vào (mô tả và đánh giá sau) báo cáo trong thẻ này.
  • Thông tin sai lệch và hành vi sử dụng sai mục đích
    • VLM có thể bị sử dụng sai mục đích để tạo văn bản sai sự thật, gây hiểu lầm hoặc có hại.
    • Chúng tôi đưa ra các nguyên tắc về việc sử dụng mô hình này một cách có trách nhiệm. Vui lòng xem Bộ công cụ về AI tạo sinh có trách nhiệm.
  • Tính minh bạch và trách nhiệm giải trình
    • Thẻ mô hình này tóm tắt thông tin chi tiết về cấu trúc, khả năng, giới hạn và quy trình đánh giá của mô hình.
    • Một mô hình mở được phát triển một cách có trách nhiệm sẽ mang đến cơ hội chia sẻ các sáng kiến bằng cách giúp các nhà phát triển và nhà nghiên cứu trên hệ sinh thái AI dễ dàng tiếp cận công nghệ VLM.

Rủi ro đã xác định và biện pháp giảm thiểu:

  • Duy trì độ sai lệch: Bạn nên theo dõi liên tục (sử dụng các chỉ số đánh giá, đánh giá thủ công) và khám phá các kỹ thuật loại bỏ sai lệch trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
  • Tạo ra nội dung gây hại: Cơ chế và nguyên tắc để đảm bảo an toàn cho nội dung là cần thiết. Nhà phát triển nên thận trọng và triển khai các biện pháp bảo vệ an toàn phù hợp cho nội dung dựa trên chính sách sản phẩm và trường hợp sử dụng ứng dụng cụ thể.
  • Hành vi sử dụng sai mục đích: Những hạn chế về kỹ thuật, hướng dẫn dành cho nhà phát triển và người dùng cuối có thể giúp giảm thiểu ứng dụng độc hại của các mô hình ngôn ngữ lớn (LLM). Chúng tôi cung cấp các tài nguyên hướng dẫn và cơ chế báo cáo giúp người dùng gắn cờ hành vi sử dụng sai mục đích: xem Bộ công cụ về AI tạo sinh có trách nhiệm. Những trường hợp sử dụng mô hình Gemma bị cấm được nêu trong Chính sách về các hành vi bị cấm của Gemma.
  • Lỗi vi phạm quyền riêng tư: Các mô hình được huấn luyện về dữ liệu đã lọc để xoá một số thông tin cá nhân nhất định và dữ liệu nhạy cảm. Nhà phát triển nên tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.

Các điểm hạn chế

  • Hầu hết các hạn chế kế thừa từ mô hình Gemma cơ bản vẫn áp dụng:
    • VLM hiệu quả hơn trong các nhiệm vụ có thể được đóng khung bằng các câu lệnh và hướng dẫn rõ ràng. Các nhiệm vụ mở hoặc có độ phức tạp cao có thể khó khăn.
    • Ngôn ngữ tự nhiên vốn đã phức tạp. VLM có thể gặp khó khăn trong việc nắm bắt các sắc thái tinh tế, lời nói mỉa mai hoặc ngôn ngữ tượng trưng.
    • VLM tạo phản hồi dựa trên thông tin học được từ tập dữ liệu đào tạo, chứ không phải là cơ sở kiến thức. Những nội dung này có thể tạo ra các tuyên bố thực tế không chính xác hoặc đã lỗi thời.
    • VLM dựa trên các mẫu thống kê về ngôn ngữ và hình ảnh. Các em có thể thiếu khả năng vận dụng lập luận thông thường trong một số tình huống.
  • Trước hết, PaliGemma được thiết kế để đóng vai trò là một mô hình luyện sẵn chung nhằm tinh chỉnh các nhiệm vụ chuyên biệt. Do đó, hiệu suất "ngay lập tức" hoặc "tự quay" có thể bị tụt lại so với các mô hình được thiết kế riêng cho mục đích đó.
  • PaliGemma không phải là một bot trò chuyện đa lượt. API này được thiết kế cho một vòng nhập văn bản và hình ảnh.