Tham khảo kho lưu trữ Sách nấu ăn Gemma để xem các ví dụ về cách tạo và điều chỉnh! Tìm hiểu thêm

Trang này được dịch bởi Cloud Translation API.

Thẻ mô hình PaliGemma

Trang mẫu: PaliGemma

Tài nguyên và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản

Tác giả: Google

Thông tin mẫu

Thông tin tóm tắt về mô hình

Mô tả

PaliGemma là một mô hình ngôn ngữ tầm nhìn (VLM) linh hoạt và gọn nhẹ, lấy cảm hứng từ PaLI-3 và dựa trên các thành phần mở như mô hình tầm nhìn SigLIP và Gemma mô hình ngôn ngữ. Chế độ này chụp cả hình ảnh và văn bản làm dữ liệu đầu vào và tạo văn bản dưới dạng đầu ra, hỗ trợ nhiều ngôn ngữ. Đó là được thiết kế để tinh chỉnh hiệu suất hàng đầu trên nhiều nhiệm vụ liên quan đến tầm nhìn như hình ảnh và chú thích video ngắn, câu hỏi bằng hình ảnh trả lời, đọc văn bản, phát hiện đối tượng và phân đoạn đối tượng.

Cấu trúc mô hình

PaliGemma là thành phần của Transformer bộ giải mã và hình ảnh Tầm nhìn Transformer bộ mã hoá có tổng cộng 3 tỷ thông số. Bộ giải mã văn bản được khởi tạo từ Gemma-2B. Bộ mã hoá hình ảnh là khởi tạo từ SigLIP-So400m/14. PaliGemma được huấn luyện theo các công thức PaLI-3.

Đầu vào và đầu ra

Thông tin đầu vào: Chuỗi văn bản và hình ảnh, chẳng hạn như câu lệnh chú thích cho hình ảnh, hoặc một câu hỏi.
Đầu ra: Văn bản được tạo để phản hồi nội dung nhập, chẳng hạn như chú thích của hình ảnh, câu trả lời cho một câu hỏi, danh sách các hộp giới hạn đối tượng toạ độ hoặc từ mã phân đoạn.

Dữ liệu về mô hình

Tập dữ liệu trước chuyến tàu

PaliGemma được huấn luyện trước về hỗn hợp tập dữ liệu sau:

WebLI: WebLI (Hình ảnh bằng ngôn ngữ web) là một tập dữ liệu văn bản hình ảnh đa ngôn ngữ trên quy mô web, được xây dựng từ web công cộng. Đáp nhiều phần phân tách WebLI khác nhau được dùng để có được các chức năng linh hoạt của mô hình, như hiểu ngữ nghĩa trực quan, bản địa hoá đối tượng, khả năng hiểu văn bản với bối cảnh trực quan, tính đa ngôn ngữ, v.v.
CC3M-35L: Cặp hình ảnh-alt_text bằng tiếng Anh được chọn từ các trang web (Sharma et đồng thời, năm 2018). Chúng tôi đã sử dụng Google Cloud Translation API để dịch sang 34 các ngôn ngữ khác.
VQ²A-CC3M-35L/VQG-CC3M-35L: Một tập hợp con của VQ2A-CC3M (Changpinyo et al., 2022a), được dịch sang cùng với 34 ngôn ngữ bổ sung như CC3M-35L, bằng cách sử dụng Google Cloud Translation API.
OpenImage:Câu hỏi và câu trả lời về khả năng phát hiện và nhận biết đối tượng (Piergiovanni và cộng sự năm 2022) tạo bởi các quy tắc thủ công trên tập dữ liệu OpenImages.
WIT: Hình ảnh và văn bản được thu thập từ Wikipedia (Srinivasan và cộng sự, năm 2021).

Lọc trách nhiệm dữ liệu

Các bộ lọc sau được áp dụng cho WebLI với mục tiêu huấn luyện PaliGemma đối với dữ liệu sạch:

Lọc hình ảnh khiêu dâm: Bộ lọc này sẽ loại bỏ những hình ảnh được coi là có tính chất khiêu dâm.
Lọc văn bản an toàn: Chúng tôi xác định và lọc ra những hình ảnh được ghép nối có văn bản không an toàn. Văn bản không an toàn là văn bản bất kỳ được cho là có chứa hoặc đề cập đến hình ảnh xâm hại tình dục trẻ em, nội dung khiêu dâm, khiếm nhã hoặc phản cảm.
Lọc nội dung độc hại đối với văn bản: Chúng tôi tiếp tục sử dụng kỹ thuật Phối cảnh API để xác định và lọc ra những hình ảnh ghép với văn bản bị coi là có tính xúc phạm, tục tĩu, gây hận thù hoặc độc hại.
Lọc thông tin cá nhân văn bản: Chúng tôi đã lọc một số thông tin cá nhân nhất định và các dữ liệu nhạy cảm khác bằng tính năng Ngăn chặn mất dữ liệu của Cloud (DLP) APIđể bảo vệ quyền riêng tư của cá nhân. Các giá trị nhận dạng như số an sinh xã hội và các loại thông tin nhạy cảm khác đã bị xoá.
Các phương pháp khác: Lọc dựa trên chất lượng và sự an toàn của nội dung trong phù hợp với các chính sách và thông lệ của chúng tôi.

Thông tin triển khai

Phần cứng

PaliGemma được huấn luyện bằng đơn vị xử lý Tensor thế hệ mới nhất phần cứng (TPU) (TPUv5e).

Phần mềm

Chương trình đào tạo được thực hiện bằng JAX, Linh hoạt! TFDS và big_vision.

JAX cho phép các nhà nghiên cứu tận dụng thế hệ phần cứng mới nhất, bao gồm cả TPU, để đào tạo các mô hình lớn nhanh hơn và hiệu quả hơn.

TFDS dùng để truy cập tập dữ liệu, còn Flax dùng cho cấu trúc mô hình. Chiến lược phát hành đĩa đơn Mã tinh chỉnh và mã suy luận PaliGemma được phát hành trong big_vision Kho lưu trữ GitHub.

Thông tin đánh giá

Kết quả đo điểm chuẩn

Để xác minh khả năng có thể chuyển của PaliGemma sang nhiều nhiệm vụ học thuật, chúng tôi tinh chỉnh các mô hình huấn luyện trước cho từng nhiệm vụ. Ngoài ra, chúng tôi huấn luyện mô hình kết hợp bằng cách kết hợp các nhiệm vụ chuyển dữ liệu. Chúng tôi báo cáo kết quả về các độ phân giải khác nhau để cho biết công việc nào được hưởng lợi từ độ phân giải cao hơn. Quan trọng là không có nhiệm vụ hay tập dữ liệu nào trong số này thuộc hỗn hợp dữ liệu huấn luyện trước và hình ảnh của chúng sẽ bị xoá một cách rõ ràng khỏi dữ liệu huấn luyện trước quy mô web.

Một nhiệm vụ (tinh chỉnh một nhiệm vụ)

Điểm chuẩn (phân tách nhóm tàu)	Số liệu (phân tách)	pt-224	pt-448	pt-896
Phụ đề
Phụ đề COCO (tàu + nhà nghỉ)	CIDEr (val)	141,92	144,60
NoCaps (Chuyển phụ đề trong khoảng thời gian Eval của COCO)	CIDEr (val)	121,72	123,58
COCO-35L (tàu hoả)	CIDEr dev (vi/kiến-34/trung bình)	139,2 115,8 116.4	141,2 118,0 118,6
XM3600 (Giá trị của phiên bản chuyển cho COCO-35L)	CIDEr dev (vi/kiến-34/trung bình)	78.1 41,3 42,4	80 41,9 42,9
TextCaps (tàu hoả)	CIDEr (val)	127,48	153,94
SciCap (câu đầu tiên, không có hình phụ) (train+val)	CIDEr/BLEU-4 (thử nghiệm)	162,25 0,192	181,49 0,211
Screen2words (train+dev)	CIDEr (thử nghiệm)	117,57	119,59
Tạo phụ đề tiện ích (train+dev)	CIDEr (thử nghiệm)	136,07	148,36
Trả lời câu hỏi
VQAv2 (xác thực + tàu hoả)	Độ chính xác (Máy chủ thử nghiệm – std)	83,19	85,64
MMVP (Eval của quy trình chuyển VQAv2)	Độ chính xác của cặp	47,33	45,33
POPE (Eval của tính năng chuyển VQAv2)	Độ chính xác (ngẫu nhiên/phổ biến/đối nghịch)	87,80 85,87 84,27	88,23 86,77 85,90
OKVQA (tàu hoả)	Độ chính xác (val)	63,54	63,15
A-OKVQA (MC) (tàu +val)	Độ chính xác (Máy chủ kiểm tra)	76,37	76,90
A-OKVQA (DA) (tàu + val)	Độ chính xác (Máy chủ kiểm tra)	61,85	63,22
GQA (train_balanced+val_balanced)	Độ chính xác (thử nghiệm cân bằng)	65,61	67,03
xGQA (chuyển Eval của GQA)	Độ chính xác trung bình (bn, de, en, id, ko, pt, ru, zh)	58,37	59,07
NLVR2 (tàu +nhà phát triển)	Độ chính xác (thử nghiệm)	90,02	88,93
MaRVL (Eval của quá trình chuyển NLVR2)	Độ chính xác trung bình (thử nghiệm) (id, sw, ta, tr, zh)	80,57	76,78
AI2D (tàu hoả)	Độ chính xác (thử nghiệm)	72,12	73,28
ScienceQA (tập hợp con Img, không có CoT) (train+val)	Độ chính xác (thử nghiệm)	95,39	95,93
RSVQA-LR (Không phải số) (train+val)	Độ chính xác trung bình (thử nghiệm)	92,65	93,11
RSVQA-HR (Không phải số) (train+val)	Độ chính xác trung bình (test/test2)	92,61 90,58	92,79 90,54
ChartQA (con người+tháng 8)x(tàu+val)	Độ chính xác trung bình không thay đổi (test_person, test_aug)	57,08	71,36
VizWiz VQA (tàu +val)	Độ chính xác (Máy chủ thử nghiệm – std)	73,7	75,52
TallyQA (tàu hoả)	Độ chính xác (test_simple/test_simple)	81,72 69,56	84,86 72,27
OCR-VQA (tàu + val)	Độ chính xác (thử nghiệm)	72,32	74,61	74,93
TextVQA (tàu +val)	Độ chính xác (Máy chủ thử nghiệm – std)	55,47	73,15	76,48
DocVQA (tàu+val)	ANLS (Máy chủ kiểm thử)	43,74	78,02	84,77
Bản đồ hoạ thông tin VQA (tàu +val)	ANLS (Máy chủ kiểm thử)	28,46	40,47	47,75
SceneText VQA (tàu + val)	ANLS (Máy chủ kiểm thử)	63,29	81,82	84,40
Phân đoạn
RefCOCO (kết hợp refcoco, refcoco+, refcog không bao gồm hình ảnh val và thử nghiệm)	MIoU (xác thực) refcoco/refcoco+/refcog	73,40 68,32 67,65	75,57 69,76 70,17	76,94 72,18 72,22
Nhiệm vụ video (Phụ đề/QA)
MSR-VTT (Phụ đề)	CIDEr (thử nghiệm)	70,54
MSR-VTT (QA)	Độ chính xác (thử nghiệm)	50,09
ActivityNet (Phụ đề)	CIDEr (thử nghiệm)	34,62
ActivityNet (QA)	Độ chính xác (thử nghiệm)	50,78
VATEX (Phụ đề)	CIDEr (thử nghiệm)	79,73
MSVD (QA)	Độ chính xác (thử nghiệm)	60,22

Mô hình kết hợp (tinh chỉnh hỗn hợp các nhiệm vụ chuyển giao)

Benchmark (Điểm chuẩn)	Số liệu (phân chia)	mix-224	mix-448
MMVP	Độ chính xác của cặp	46,00	45,33
POPE	Độ chính xác (ngẫu nhiên/phổ biến/đối nghịch)	88,00 86,63 85,67	89,37 88,4 87,47

Benchmark (Điểm chuẩn)

Số liệu (phân chia)

mix-224

mix-448

MMVP

Độ chính xác của cặp

46,00

45,33

POPE

Độ chính xác (ngẫu nhiên/phổ biến/đối nghịch)

88,00

86,63

85,67

89,37

88,4

87,47

Đạo đức và an toàn

Phương pháp đánh giá

Các phương pháp đánh giá của chúng tôi bao gồm đánh giá có cấu trúc và phương pháp nhóm đỏ nội bộ thử nghiệm các chính sách nội dung có liên quan. Quá trình lập đội Đỏ được thực hiện bởi một số nhóm khác nhau, mỗi nhóm có mục tiêu và chỉ số đánh giá khác nhau. Các các mô hình này được đánh giá theo một số danh mục khác nhau có liên quan đến đạo đức và an toàn, bao gồm:

Đánh giá thủ công đối với các câu lệnh liên quan đến sự an toàn cho trẻ em, sự an toàn của nội dung và tác hại tượng trưng. Xem Mô hình Gemma thẻ cho thông tin cụ thể hơn về phương pháp đánh giá, nhưng với chú thích hình ảnh và các chỉ số trực quan chế độ thiết lập trả lời câu hỏi.
Đánh giá điểm chuẩn từ hình ảnh thành văn bản: Điểm chuẩn theo nội dung học thuật có liên quan như FairFace Dataset (Karkkainen và cộng sự, năm 2021).

Kết quả đánh giá

Kết quả đánh giá do con người thực hiện trong quá trình đánh giá về đạo đức và sự an toàn các ngưỡng có thể chấp nhận được để đáp ứng các yêu cầu nội bộ chính sách của Google cho các danh mục như sự an toàn cho trẻ em, sự an toàn của nội dung và tính tượng trưng mối nguy hại.
Ngoài các đánh giá nội bộ hiệu quả, chúng tôi còn sử dụng Perspective API (ngưỡng là 0, 8) để đo lường sự độc hại, ngôn từ thô tục và các tiềm năng khác vấn đề trong phụ đề được tạo cho hình ảnh lấy từ FairFace tập dữ liệu. Chúng tôi báo cáo giá trị tối đa và giá trị trung vị quan sát được trên các nhóm con cho từng thuộc tính được cảm nhận về giới tính, dân tộc và độ tuổi.

Chỉ số	Giới tính ước tính		Sắc tộc		Nhóm tuổi
	Tối đa	Trung vị	Tối đa	Trung vị	Tối đa	Trung vị
Độc tính	0,04%	0,03%	0,08%	0%	0,09%	0%
Tấn công về danh tính	0%	0%	0%	0%	0%	0%
Xúc phạm	0,06%	0,04%	0,09%	0,07%	0,16%	0%
Đe dọa	0,06%	0,05%	0,14%	0,05%	0,17%	0%
Ngôn từ thô tục	0%	0%	0%	0%	0%	0%

Mức sử dụng và giới hạn

Mục đích sử dụng

Các Mô hình ngôn ngữ thị giác mở (VLM) có phạm vi ứng dụng đa dạng trên nhiều ngành và lĩnh vực khác nhau. Danh sách các trường hợp sử dụng tiềm năng sau đây không toàn diện. Mục đích của danh sách này là cung cấp thông tin theo bối cảnh về các trường hợp sử dụng có thể mà người tạo mô hình đã xem xét như một phần của mô hình đào tạo và phát triển.

Tinh chỉnh nhiệm vụ ngôn ngữ cụ thể liên quan đến thị giác:

Các mô hình được huấn luyện trước có thể được tinh chỉnh bằng nhiều ngôn ngữ có khả năng thị giác các nhiệm vụ như: chú thích hình ảnh, chú thích video ngắn, câu hỏi bằng hình ảnh trả lời, đọc văn bản, phát hiện đối tượng và phân đoạn đối tượng.
Các mô hình được huấn luyện trước có thể được tinh chỉnh cho các miền cụ thể như điều khiển từ xa cảm biến trả lời câu hỏi, câu hỏi bằng hình ảnh của những người khiếm thị, trả lời câu hỏi khoa học, mô tả chức năng của các phần tử trên giao diện người dùng.
Các mô hình được huấn luyện trước có thể được tinh chỉnh cho các tác vụ có đầu ra không phải văn bản chẳng hạn như hộp giới hạn hoặc mặt nạ phân đoạn.

Nghiên cứu ngôn ngữ liên quan đến thị giác:

Các mô hình được huấn luyện trước và mô hình được tinh chỉnh có thể đóng vai trò là nền tảng cho để thử nghiệm các kỹ thuật VLM, phát triển thuật toán và đóng góp vào sự phát triển của lĩnh vực này.

Cân nhắc và rủi ro về đạo đức

Sự phát triển của mô hình ngôn ngữ tầm nhìn (VLM) đề cao một số đạo đức các mối quan ngại của mình. Khi tạo mô hình mở, chúng tôi đã xem xét cẩn thận những điều sau:

Thiên vị và công bằng
- Các VLM được huấn luyện dựa trên dữ liệu văn bản hình ảnh trong thế giới thực và quy mô lớn có thể phản ánh các thành kiến văn hoá xã hội được đề cập trong tài liệu đào tạo. Các mô hình này đã được xem xét kỹ lưỡng, tiền xử lý dữ liệu đầu vào được mô tả và các đánh giá sau được báo cáo trong thẻ này.
Thông tin sai lệch và lạm dụng
- VLM có thể bị lợi dụng để tạo văn bản sai lệch, gây hiểu lầm hoặc có hại.
- Chúng tôi đưa ra các nguyên tắc về việc sử dụng mô hình này một cách có trách nhiệm, hãy xem Bộ công cụ AI tạo sinh có trách nhiệm.
Tính minh bạch và trách nhiệm giải trình
- Thẻ mô hình này tóm tắt thông tin chi tiết về các mô hình cấu trúc, năng lực, hạn chế và quá trình đánh giá.
- Một mô hình mở được phát triển một cách có trách nhiệm mang đến cơ hội chia sẻ bằng cách giúp các nhà phát triển dễ dàng tiếp cận công nghệ VLM nhà nghiên cứu trên hệ sinh thái AI.

Rủi ro đã xác định và giảm thiểu:

Duy trì sự sai lệch: Bạn nên liên tục theo dõi (sử dụng các chỉ số đánh giá, quy trình đánh giá thủ công) và kỹ thuật khám phá cách xác định sai lệch trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
Tạo nội dung gây hại: Cơ chế và nguyên tắc đối với nội dung an toàn là điều cần thiết. Các nhà phát triển nên thận trọng và triển khai các biện pháp đảm bảo an toàn về nội dung phù hợp dựa trên chính sách sản phẩm và trường hợp sử dụng ứng dụng.
Sử dụng sai mục đích cho các mục đích xấu: Các hạn chế về kỹ thuật, nhà phát triển và hướng dẫn cho người dùng cuối có thể giúp giảm thiểu các ứng dụng độc hại của các mô hình ngôn ngữ lớn (LLM). Các tài nguyên hướng dẫn và cơ chế báo cáo để người dùng gắn cờ hành vi sử dụng sai mục đích cung cấp: xem phần Bộ công cụ AI tạo sinh có trách nhiệm. Những trường hợp sử dụng Gemma bị cấm các mô hình được nêu trong Chính sách về các hành vi bị cấm của Gemma.
Vi phạm quyền riêng tư: Các mô hình đã được huấn luyện về dữ liệu đã lọc để xoá một số thông tin cá nhân và dữ liệu nhạy cảm nhất định. Chúng tôi khuyến khích nhà phát triển tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.

Các điểm hạn chế

Hầu hết hạn chế được kế thừa từ mô hình Gemma cơ bản vẫn được áp dụng:
- VLM hiệu quả hơn khi bạn thực hiện những nhiệm vụ có thể lên khung hình bằng các câu lệnh rõ ràng và hướng dẫn. Các nhiệm vụ mở hoặc có độ phức tạp cao có thể gây khó khăn cho bạn.
- Ngôn ngữ tự nhiên vốn đã rất phức tạp. Các VLM có thể khó nắm bắt sắc thái tinh tế, ngôn ngữ châm biếm hoặc mang tính hình tượng.
- VLM tạo ra các phản hồi dựa trên thông tin mà chúng học được từ nhưng không phải là cơ sở kiến thức. Chúng có thể tạo ra nhận định thực tế không chính xác hoặc đã lỗi thời.
- VLM dựa vào các mẫu thống kê bằng ngôn ngữ và hình ảnh. Chúng có thể thiếu khả năng áp dụng lý luận thông thường trong một số tình huống.
PaliGemma được thiết kế trước tiên và trên hết để đóng vai trò là một trang web được huấn luyện trước mô hình để tinh chỉnh thành các công việc chuyên biệt. Vì vậy, ứng dụng này "có sẵn" hoặc "không bắn súng" thì hiệu suất có thể bị tụt hậu so với các mô hình được thiết kế riêng cho thực hiện việc đó.
PaliGemma không phải là một bot trò chuyện nhiều lượt. Quảng cáo này được thiết kế cho một vòng đầu vào hình ảnh và văn bản.