生成と調整の例については、Gemma クックブックリポジトリをご覧ください。詳細

このページは Cloud Translation API によって翻訳されました。

PaliGemma モデルカード

モデルページ: PaliGemma

リソースと技術ドキュメント:

利用規約: 利用規約

作成者: Google

モデル情報

モデルの概要

説明

PaliGemma は、PaLI-3 に着想を得て、SigLIP ビジョンモデルや Gemma 言語モデルなどのオープンコンポーネントをベースとする、汎用性が高く軽量のビジョン言語モデル（VLM）です。画像とテキストの両方を入力として受け取り、出力としてテキストを生成します。複数の言語をサポートします。画像や短い動画字幕、視覚的な質問応答、テキスト読み取り、オブジェクト検出、オブジェクトセグメンテーションなど、幅広い視覚言語タスクでクラストップクラスの微調整のパフォーマンスを発揮するように設計されています。

モデルアーキテクチャ

PaliGemma は Transformer デコーダと Vision Transformer 画像エンコーダで構成され、合計 30 億のパラメータを持ちます。テキストデコーダは Gemma-2B から初期化されます。画像エンコーダは SigLIP-So400m/14 から初期化されています。PaliGemma は PaLI-3 レシピに従ってトレーニングされます。

入力と出力

入力: 画像とテキスト文字列（画像にキャプションを付けるプロンプトや質問など）。
出力: 入力に応答して生成されたテキスト。画像のキャプション、質問への回答、オブジェクト境界ボックス座標のリスト、セグメンテーションコードワードなど。

モデルデータ

データセットを事前トレーニングする

PaliGemma は、次のようなデータセットの組み合わせで事前トレーニングされています。

WebLI: WebLI（ウェブ言語画像）は、一般公開ウェブから構築されたウェブスケールの多言語画像テキストデータセットです。さまざまな WebLI 分割を使用して、視覚的なセマンティック理解、オブジェクトローカライズ、視覚的状況のテキスト理解、多言語など、汎用性の高いモデル機能を取得します。
CC3M-35L: ウェブページからキュレートされた英語の image-alt_text ペア（Sharma et al.、2018）。Google Cloud Translation API を使用して、新たに 34 の言語に翻訳しました。
VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M のサブセット（Changpinyo et al.、2022a）が、Google Cloud Translation API を使用して、CC3M-35L と同じ 34 言語に追加されています。
OpenImages: OpenImages データセットに対する手作りのルールによって生成される、検出とオブジェクト認識型の質問と回答（Piergiovanni et al. 2022）。
WIT: Wikipedia（Srinivasan et al.、2021 年）。

データに関する責任のフィルタリング

クリーンなデータで PaliGemma をトレーニングするために、次のフィルタが WebLI に適用されます。

ポルノ画像のフィルタリング: ポルノ画像と思われる画像を除外します。
テキストセーフティフィルタリング: 安全でないテキストとペアになっている画像を識別して除外します。安全でないテキストとは、CSAI、ポルノ、下品な表現、または不適切であると思われるテキスト、またはそれらに関するテキストのことです。
テキストの有害性のフィルタリング: さらに Perspective API を使用して、侮辱的、わいせつ、差別的、または有害とみなされるテキストとペアになる画像を特定し、除外します。
テキストの個人情報のフィルタリング: 個人のプライバシーを保護するため、Cloud Data Loss Prevention（DLP）API を使用して特定の個人情報やその他の機密データをフィルタリングしました。社会保障番号やその他の種類の機密情報などの識別子は削除されました。
その他の方法: Google のポリシーとプラクティスに沿って、コンテンツの品質と安全性に基づいてフィルタリングします。

実装情報

ハードウェア

PaliGemma は、最新世代の Tensor Processing Unit（TPU）ハードウェア（TPUv5e）を使用してトレーニングされています。

ソフトウェア

トレーニングには、JAX、Flax、TFDS、big_vision を使用していました。

JAX を使用すると、研究者は TPU を含む最新世代のハードウェアを利用して、大規模モデルを迅速かつ効率的にトレーニングできます。

TFDS はデータセットへのアクセスに使用され、Flax はモデルアーキテクチャに使用されます。PaliGemma のファインチューニングコードと推論コードは、big_vision GitHub リポジトリでリリースされています。

評価情報

ベンチマークの結果

Google では、PaliGemma をさまざまな学術タスクに移行可能であることを確認するために、各タスクで事前トレーニング済みモデルを微調整しています。さらに、転送タスクを組み合わせて混合モデルをトレーニングします。Google はさまざまな解像度で結果を報告し、解像度の向上がどのタスクにメリットをもたらすかを把握します。重要な点は、これらのタスクやデータセットはいずれも事前トレーニングのデータ構成に含まれておらず、それらの画像はウェブスケールの事前トレーニングデータから明示的に削除されることです。

単一のタスク（単一のタスクに対する微調整）

ベンチマーク（列車分割）	指標（分割）	pt-224	pt-448	pt-896
字幕
COCO 字幕（列車 + レストラン）	CIDEr（val）	14,192 万台	14,460
NoCaps（COCO 字幕転送の評価）	CIDEr（val）	12,172 万台	12,358 万台
COCO-35L（トレイン）	CIDEr dev（en/avg-34/avg）	139.2 115.8 116.4	141.2 118.0 118.6
XM3600（COCO-35L 転送の評価）	CIDEr dev（en/avg-34/avg）	78.1 41.3 42.4	80.0 41.9 42.9
TextCaps（トレイン）	CIDEr（val）	12,748 万台	15,394 万台
SciCap（最初の文、下位数値なし）（トレーニング + 値）	CIDEr/BLEU-4（テスト）	162.25 0.192	181.49 0.211
Screen2words（トレーニング + 開発）	CIDEr（テスト）	11,757 万台	11,959 万台
ウィジェットキャプション（トレーニングと開発）	CIDEr（テスト）	13,607 万台	14,836
質問応答
VQAv2（トレーニング + 検証）	精度（テストサーバー - std）	8,319 万台	8,564 万台
MMVP（VQAv2 転送の評価）	ペアリングの精度	4,733 万台	4,533 万台
POPE（VQAv2 転送の評価）	精度（ランダム/人気/敵対的）	87.80 85.87 84.27	88.23 86.77 85.90
OKVQA（トレイン）	精度（値）	6,354 万台	6,315 万台
A-OKVQA（MC）（トレイン + 値）	精度（テストサーバー）	7,637 万台	7,690 万台
A-OKVQA（DA）（トレイン + 値）	精度（テストサーバー）	6,185 万台	6,322 万台
GQA（train_balanced+val_balanced）	精度（testdev バランス）	6,561 万台	6,703 万台
xGQA（GQA 転送の評価）	平均精度（bn、de、en、id、ko、pt、ru、zh）	5,837 万台	5,907 万台
NLVR2（トレイン + 開発）	精度（テスト）	9,002 万台	8,893
MaRVL（NLVR2 転送の評価）	平均精度（テスト）（id、sw、ta、tr、zh）	8,057 万台	7,678 万台
AI2D（トレイン）	精度（テスト）	7,212 万台	7,328 万台
ScienceQA（Img サブセット、CoT なし）（トレーニング + 値）	精度（テスト）	9,539 万台	9,593 万台
RSVQA-LR（数値以外）（train+val）	平均精度（テスト）	9,265 万台	9,311 万台
RSVQA-HR（数値以外）（トレーニングと値の組み合わせ）	平均精度（テスト/テスト 2）	92.61 90.58	92.79 90.54
ChartQA (human+aug)x(train+val)	平均緩和精度（test_human、test_aug）	5,708 万台	7,136 万台
VizWiz VQA（トレイン + 値）	精度（テストサーバー - std）	7,370 万台	7,552 万台
TallyQA（トレイン）	精度（test_simple/test_complex）	81.72 69.56	84.86 72.27
OCR-VQA（トレーニング + 値）	精度（テスト）	7,232 万台	7,461 万台	74.93
TextVQA（トレーニングと値）	精度（テストサーバー - std）	5,547 万台	7,315 万台	7,648 万台
DocVQA（トレーニングと値）	ANLS（テストサーバー）	4,374 万台	7,802 万台	8,477 万台
インフォグラフィック VQA（トレーニング + 評価）	ANLS（テストサーバー）	2,846 万台	4,047 万台	4,775 万台
SceneText VQA（トレーニングと値）	ANLS（テストサーバー）	6,329 万台	8,182 万台	8,440 万台
セグメンテーション
RefCOCO（val と test のイメージを除く refcoco、refcoco+、refcog の組み合わせ）	MIoU（検証）refcoco/refcoco+/refcog	73.40 68.32 67.65	75.57 69.76 70.17	76.94 72.18 72.22
動画タスク（字幕/QA）
MSR-VTT（字幕）	CIDEr（テスト）	7,054 万台
MSR-VTT（QA）	精度（テスト）	5,009 万台
ActivityNet（字幕）	CIDEr（テスト）	3,462 万台
ActivityNet（QA）	精度（テスト）	5,078 万台
VATEX（字幕）	CIDEr（テスト）	7,973 万台
MSVD（QA）	精度（テスト）	6,022 万台

混合モデル（転送タスクが混在している場合に微調整）

ベンチマーク	指標（分割）	mix-224	mix-448
MMVP	ペアリングの精度	4,600	4,533 万台
教皇庁	精度（ランダム/人気/敵対的）	88.00 86.63 85.67	89.37 88.40 87.47

ベンチマーク

指標（分割）

mix-224

mix-448

MMVP

ペアリングの精度

4,600

4,533 万台

教皇庁

精度（ランダム/人気/敵対的）

88.00

86.63

85.67

89.37

88.40

87.47

倫理と安全性

評価方法

Google の評価方法には、体系的な評価と、関連するコンテンツポリシーに関する内部レッドチームテストがあります。レッドチームは、それぞれ異なる目標と人間による評価指標を持つ多くのチームによって実施されました。これらのモデルは、次のような倫理と安全性に関連するさまざまなカテゴリに対して評価されました。

子どもの安全、コンテンツの安全性、代表的な危害に関するプロンプトに対する人間による評価。評価アプローチの詳細については、Gemma モデルカードをご覧ください。ただし、画像キャプションと視覚的な質問応答の設定があります。
Image-to-Text ベンチマーク評価: FairFace Dataset（Karkkainen et al.、2021 年）。

評価の結果

倫理と安全性の評価に関する人間による評価結果は、子供の安全、コンテンツの安全性、表現的危害などのカテゴリに関する内部ポリシーを満たすために許容できるしきい値の範囲内です。
堅牢な内部評価に加えて、Perspective API（しきい値 0.8）を使用して、FairFace データセットから取得した画像に対して生成された字幕の有害性、冒とく、その他の潜在的な問題を測定しています。認識された性別、民族、年齢の属性ごとに、サブグループ全体で観測された最大値と中央値を報告します。

指標	認識された性別		民族		年齢層
	最大	中央値	最大	中央値	最大	中央値
有害度	0.04%	0.03%	0.08 %	0.00%	0.09%	0.00%
ID 攻撃	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
侮辱	0.06%	0.04%	0.09%	0.07%	0.16%	0.00%
脅威	0.06%	0.05%	0.14%	0.05%	0.17%	0.00%
冒とく	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%

使用方法と制限事項

使用目的

Open Vision Language Models（VLM）は、さまざまな業界や分野で幅広い用途に使用されています。次のリストは包括的なものではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一環として検討した可能性のあるユースケースに関するコンテキスト情報を提供することです。

特定のビジョン言語タスクを微調整する:

事前トレーニング済みモデルは、画像キャプション、短い動画キャプション、視覚的な質問応答、テキスト読み取り、オブジェクト検出、オブジェクトセグメンテーションなど、さまざまな視覚言語タスクでファインチューニングできます。
事前トレーニング済みモデルは、リモートセンシングの質問応答、目の見えない人々からの視覚的な質問、科学的な質問応答、UI 要素の機能の説明など、特定の分野向けに微調整できます。
事前トレーニング済みモデルは、境界ボックスやセグメンテーションマスクなど、テキスト以外の出力を持つタスク用にファインチューニングできます。

視覚言語研究:

事前トレーニング済みモデルとファインチューニングされたモデルは、研究者が VLM 手法を試し、アルゴリズムを開発し、この分野の発展に貢献するための基盤として機能します。

倫理的考慮事項とリスク

視覚言語モデル（VLM）の開発では、いくつかの倫理的懸念が生じます。オープンモデルを作成する際は、次の点について慎重に検討しました。

バイアスと公平性
- 実際の大規模な画像テキストデータでトレーニングされた VLM には、トレーニング資料に埋め込まれた社会文化的バイアスが反映されることがあります。これらのモデルには、このカードに記載されている入力データの前処理と事後評価が慎重に行われています。
誤った情報と不正使用
- VLM は、虚偽のテキスト、誤解を招くテキスト、有害なテキストを生成するために悪用される可能性があります。
- モデルを責任を持って使用するためのガイドラインが提供されています。責任ある生成 AI ツールキットをご覧ください。
透明性とアカウンタビリティ
- このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスの詳細がまとめられています。
- 責任を持って開発されたオープンモデルは、AI エコシステム全体で VLM テクノロジーをデベロッパーや研究者が利用できるようにすることで、イノベーションを共有する機会を提供します。

特定されたリスクと緩和策:

バイアスの永続化: モデルのトレーニング、微調整、その他のユースケースでは、継続的なモニタリング（評価指標、人間によるレビューを使用）とデバイアス手法の調査を実施することをおすすめします。
有害なコンテンツの生成: コンテンツの安全性を確保するためのメカニズムとガイドラインは不可欠です。デベロッパーには、特定のプロダクトポリシーとアプリのユースケースに基づいて、注意を払い、適切なコンテンツ安全保護対策を実装することが推奨されます。
悪意のある目的での不正使用: 技術的な制限、デベロッパーとエンドユーザー向けの教育により、LLM の悪意のあるアプリケーションを軽減できます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが用意されています。責任ある生成 AI ツールキットをご覧ください。Gemma モデルの禁止される使用については、Gemma の使用禁止ポリシーに記載されています。
プライバシーの侵害: 特定の個人情報と機密データを削除するために、フィルタリングされたデータでモデルがトレーニングされました。デベロッパーには、プライバシー保護の手法でプライバシーに関する規則を遵守することが推奨されます。

制限事項

基盤となる Gemma モデルから継承されたほとんどの制限は引き続き適用されます。
- VLM は、明確なプロンプトと指示で構成できるタスクに優れています。自由回答形式のタスクや非常に複雑なタスクは、簡単なことではありません。
- 自然言語は本質的に複雑です。VLM は、微妙なニュアンス、皮肉、比喩的な表現を理解するのに苦労することがあります。
- VLM は、トレーニングデータセットから学習した情報に基づいてレスポンスを生成しますが、ナレッジベースではありません。不正確または古い事実の記述が生成される可能性があります。
- VLM は言語と画像の統計パターンに依存しています。特定の状況では常識的な推論を適用する能力がない可能性があります。
PaliGemma は何よりもまず、特殊なタスクのファインチューニングを行うための一般的な事前トレーニング済みモデルとして設計されています。したがって、その「すぐに使用できる」または「ゼロショット」のパフォーマンスは、そのように設計されたモデルよりも遅れる可能性があります。
PaliGemma はマルチターンの chatbot ではありません。画像とテキストの入力を 1 回行うように設計されています。