PaliGemma 2 モデルカード

モデルページ: PaliGemma

リソースと技術ドキュメント:

利用規約: 利用規約

作成者: Google

モデル情報

モデルの概要

PaliGemma 2 は、Gemma 2 モデルの機能を組み込んだ PaliGemma の視覚言語モデル(VLM)のアップデートです。PaliGemma ファミリーのモデルは PaLI-3 にヒントを得ており、SigLIP ビジョンモデルや Gemma 2 言語モデルなどのオープン コンポーネントに基づいています。画像とテキストの両方を入力として受け取り、出力としてテキストを生成するモデルで、複数の言語をサポートしています。画像や短い動画のキャプション、視覚的な質問応答、テキスト読み上げ、オブジェクト検出、オブジェクト分割など、幅広いビジョン言語タスクでクラス最高のファインチューニング パフォーマンスを発揮するように設計されています。

モデル アーキテクチャ

PaliGemma 2 は、Transformer デコーダVision Transformer 画像エンコーダの組み合わせです。テキスト デコーダは、2B、9B、27B のパラメータサイズの Gemma 2 から初期化されます。画像エンコーダは SigLIP-So400m/14 から初期化されます。元の PaliGemma モデルと同様に、PaliGemma 2 は PaLI-3 レシピに沿ってトレーニングされます。

入力と出力

  • 入力: 画像とテキスト文字列(画像の字幕を付けるプロンプトや質問など)。
  • 出力: 入力に応じて生成されたテキスト(画像のキャプション、質問への回答、オブジェクトの境界ボックス座標のリスト、セグメンテーション コードワードなど)。

引用

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

モデルデータ

事前トレーニング データセット

PaliGemma 2 は、次のデータセットの混合で事前トレーニングされています。

  • WebLI: WebLI(Web Language Image)は、一般公開されているウェブから構築されたウェブスケールの多言語画像テキスト データセットです。さまざまな WebLI 分割を使用して、視覚的なセマンティック理解、オブジェクトのローカライズ、視覚的に配置されたテキストの理解、多言語性などの多様なモデル機能を取得します。
  • CC3M-35L: ウェブページから選ばれた英語の画像と代替テキストのペア(Sharma et al., 2018 年)。Google Cloud Translation API を使用して、さらに 34 の言語に翻訳しました。
  • VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M のサブセット(Changpinyo ら、2022a)が、Google Cloud Translation API を使用して、CC3M-35L と同じ 34 言語に翻訳されました。
  • OpenImages: OpenImages データセットの手動作成ルールによって生成された検出とオブジェクト認識の質問と回答(Piergiovanni et al. 2022)。
  • WIT: Wikipedia から収集した画像とテキスト(Srinivasan et al., 2021 年)。

PaliGemma 2 は Gemma 2 をベースとしています。Gemma 2 の事前トレーニング データセットについては、Gemma 2 モデルカードをご覧ください。

データ責任のフィルタリング

安全で責任あるデータで PaliGemma 2 をトレーニングすることを目的として、次のフィルタが WebLI に適用されます。

  • ポルノ画像のフィルタリング: このフィルタは、ポルノ的な性質があると判断された画像を削除します。
  • テキストの安全性フィルタ: 安全でないテキストとペアになっている画像を特定して除外します。安全でないテキストとは、児童性的虐待の画像(CSAI)、ポルノ、下品な表現が含まれている、またはそれらに関するものであるとみなされるテキスト、またはその他の方法で不快であるテキストです。
  • テキストの有害性フィルタリング: さらに、Perspective API を使用して、侮辱的、わいせつ、憎悪的、または有害とみなされるテキストとペアになっている画像を特定し、除外します。
  • テキストの個人情報のフィルタリング: 個人のプライバシーを保護するため、Cloud Data Loss Prevention(DLP)API を使用して特定の個人情報やその他の機密データをフィルタリングしました。社会保障番号などの識別子やその他の機密情報の種類が削除されました。
  • その他の方法: Google のポリシーと実践に沿って、コンテンツの品質と安全性に基づくフィルタリング。

実装情報

ハードウェア

PaliGemma 2 は、最新世代の Tensor Processing Unit(TPU)ハードウェア(TPUv5e)を使用してトレーニングされました。

ソフトウェア

トレーニングは、JAXFlaxTFDSbig_vision を使用して完了しました。

JAX を使用すると、研究者は TPU などの最新世代のハードウェアを活用して、大規模なモデルをより迅速かつ効率的にトレーニングできます。

TFDS はデータセットへのアクセスに使用され、Flax はモデル アーキテクチャに使用されます。PaliGemma 2 のファインチューニング コードと推論コードは、big_vision GitHub リポジトリでリリースされています。

評価情報

ベンチマークの結果

PaliGemma 2 をさまざまな学術タスクに転移できることを確認するため、各タスクで事前トレーニング済みモデルをファインチューニングしています。解像度別の結果を報告することで、解像度の向上がどのタスクにメリットをもたらすかを把握できます。重要なのは、これらのタスクやデータセットは事前トレーニング データの混合物に含まれておらず、その画像はウェブスケールの事前トレーニング データから明示的に削除されることです。

モデルの解像度とサイズ別の PaliGemma 2 の結果

ベンチマーク 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74.7 83.1 83.2 76.0 84.4 84.6
AOKVQA-DA(val) 64.2 68.9 70.2 67.9 70.8 71.2
AOKVQA-MC(val) 79.7 83.7 84.7 82.5 85.9 87.0
ActivityNet-CAP 34.2 35.9 - - - -
ActivityNet-QA 51.3 53.2 - - - -
COCO-35L(avg34) 113.9 115.8 116.5 115.8 117.2 117.2
COCO-35L(英語) 138.4 140.8 142.4 140.4 142.4 142.3
COCOcap 141.3 143.7 144.0 143.4 145.0 145.2
ChartQA(平均) 74.4 74.2 68.9 89.2 90.1 85.1
ChartQA(人間) 42.0 48.4 46.8 54.0 66.4 61.3
CountBenchQA 81.0 84.0 86.4 82.0 85.3 87.4
DocVQA(val) 39.9 43.9 44.9 73.6 76.6 76.1
GQA 66.2 67.2 67.3 68.1 68.3 68.3
InfoVQA(val) 25.2 33.6 36.4 37.5 47.8 46.7
MARVL(平均 5) 83.5 89.5 90.6 82.7 89.1 89.7
MSRVTT-CAP 68.5 72.1 - - - -
MSRVTT-QA 50.5 51.9 - - - -
MSVD-QA 61.1 62.5 - - - -
NLVR2 91.4 93.9 94.2 91.6 93.7 94.1
NoCaps 123.1 126.3 127.1 123.5 126.9 127.0
OCR-VQA 73.4 74.7 75.3 75.7 76.3 76.6
OKVQA 64.2 68.0 71.2 64.1 68.6 70.6
RSVQA-hr(テスト) 92.7 92.6 92.7 92.8 92.8 92.8
RSVQA-hr(test2) 90.9 90.8 90.9 90.7 90.7 90.8
RSVQA-lr 93.0 92.8 93.5 92.7 93.1 93.7
RefCOCO(testA) 75.7 77.2 76.8 78.6 79.7 79.3
RefCOCO(testB) 71.0 74.2 73.9 73.5 76.2 74.8
RefCOCO(val) 73.4 75.9 75.0 76.3 78.2 77.3
RefCOCO+(testA) 72.7 74.7 73.6 76.1 77.7 76.6
RefCOCO+(testB) 64.2 68.4 67.1 67.0 71.1 68.6
RefCOCO+(val) 68.6 72.0 70.3 72.1 74.4 72.8
RefCOCOg(テスト) 69.0 71.9 70.7 72.7 74.8 73.7
RefCOCOg(val) 68.3 71.4 70.5 72.3 74.4 73.0
ST-VQA(val) 61.9 64.3 65.1 80.5 82.0 81.8
SciCap 165.1 159.5 156.9 183.3 177.2 172.7
ScienceQA 96.1 98.2 98.2 96.2 98.5 98.6
Screen2Words 113.3 117.8 122.8 114.0 119.1 123.4
TallyQA(複雑) 70.3 73.4 74.2 73.6 76.7 76.8
TallyQA(シンプル) 81.8 83.2 83.4 85.3 86.2 85.7
TextCaps 127.5 137.9 139.9 152.1 157.7 153.6
TextVQA(val) 59.6 64.0 64.7 75.2 76.6 76.2
VATEX 80.8 82.7 - - - -
VQAv2(minival) 83.0 84.3 84.5 84.8 85.8 85.8
VizWizVQA(val) 76.4 78.1 78.7 77.5 78.6 78.9
WidgetCap 138.1 139.8 138.8 151.4 151.9 148.9
XM3600(平均 35) 42.8 44.5 45.2 43.2 44.6 45.2
XM3600(英語) 79.8 80.7 81.0 80.3 81.5 81.0
xGQA(7 試合平均) 58.6 61.4 61.1 60.4 62.6 62.1

その他のベンチマーク

ICDAR 2015 偶発的

モデル 適合率 再現率 F1
PaliGemma 2 3B 81.88 70.73 75.9

Total-Text

モデル 適合率 再現率 F1
PaliGemma 2 3B 73.8. 74.54 74.17

FinTabNet

モデル S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99.18 98.94 99.43 99.21

PubTabNet

モデル S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97.6 97.31 97.99 97.84

GrandStaff

モデル CER LER SER
PaliGemma 2 3B 1.6 6.7 2.3

PubChem

  • PaliGemma 2 3B、完全一致: 94.8

DOCCI

モデル avg#char avg#sent NES(%)
PaliGemma 2 3B 529 7.74 28.42
PaliGemma 2 10B 521 7.45 20.27
  • avg#char: 平均文字数
  • avg#sent: 平均文数
  • NES: 非包含文

MIMIC-CXR

モデル CIDEr BLEU4 Rouge-L RadGraph F1
PaliGemma 2 3B 19.9% 14.6% 31.92% 28.8%
PaliGemma 2 10B 17.4% 15% 32.41% 29.5%

視覚空間推論

モデル VSR ゼロショット分割(テスト) VSR ランダム分割(テスト)
PaliGemma 2 3B 0.75 0.82
PaliGemma 2 10B 0.80 0.87

倫理と安全

評価のアプローチ

Google の評価方法には、次のような関連するコンテンツ ポリシーにわたる倫理と安全性に関する構造化された評価が含まれます。

  • 子どもの安全、コンテンツの安全性、表現による有害性に関するプロンプトに対する人間による評価。評価アプローチの詳細(画像キャプションと視覚的な質問応答の設定を含む)については、Gemma モデルカードをご覧ください。
  • 画像からテキストへのベンチマーク評価: FairFace Dataset(Karkkainen et al.,2021 年)。

評価の結果

  • 倫理と安全性の評価の人間による評価結果が、児童の安全、コンテンツの安全性、表現による有害性などのカテゴリに関する社内ポリシーを満たす許容しきい値内である。
  • 堅牢な内部評価に加えて、YouTube は Perspective API(しきい値 0.8)を使用して、FairFace データセットに由来する画像の生成された字幕の有害性、冒とく的な表現、その他の潜在的な問題を測定しています。認識された性別、民族、年齢の各属性について、サブグループ全体で観測された最大値と中央値がレポートされます。
指標 認識される性別 民族 年齢層
モデルの規模 30 億人 100 億 280 億 30 億人 100 億 280 億 30 億人 100 億 280 億
最大
有害度 0.14% 0.15% 0.19% 0.29% 0.39% 0.39% 0.26% 0.18% 0.32%
アイデンティティ攻撃 0.04% 0.02% 0.02% 0.13% 0.06% 0.06% 0.06% 0.03% 0.06%
侮辱 0.17% 0.25% 0.17% 0.37% 0.52% 0.52% 0.27% 0.39% 0.24%
脅威 0.55% 0.43% 0.57% 0.83% 0.48% 0.48% 0.64% 0.43% 0.64%
冒とく 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
中央値
有害度 0.13% 0.10% 0.18% 0.07% 0.07% 0.14% 0.12% 0.08 % 0.12%
アイデンティティ攻撃 0.02% 0.01% 0.02% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
侮辱 0.15% 0.23% 0.14% 0.14% 0.17% 0.13% 0.09% 0.18% 0.16%
脅威 0.35% 0.27% 0.41% 0.28% 0.19% 0.42% 0.27% 0.31% 0.40%
冒とく 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

使用と制限事項

想定される用途

オープン ビジョン言語モデル(VLM)は、さまざまな業界やドメインで幅広く応用されています。次の使用例は、網羅的なものではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一環として検討した、考えられるユースケースに関するコンテキスト情報を提供することです。Gemma モデルの禁止されている使用については、Gemma の使用禁止に関するポリシーをご覧ください。

特定のビジョン言語タスクでファインチューニングする:

  • 事前トレーニング済みモデルは、画像キャプション、短い動画キャプション、視覚的な質問応答、テキスト読み上げ、オブジェクト検出、オブジェクト セグメンテーションなど、さまざまなビジョン言語タスクで微調整できます。
  • 事前トレーニング済みモデルは、リモート センシングの質問応答、視覚障がい者からの視覚的な質問、科学に関する質問応答、UI 要素の機能の説明など、特定のドメインに合わせて微調整できます。
  • 事前トレーニング済みモデルは、バウンディング ボックスやセグメンテーション マスクなど、テキスト以外の出力を持つタスク用に微調整できます。

ビジョンと言語の研究:

  • 事前トレーニング済みモデルとファインチューニング済みモデルは、研究者が VLM 手法をテストし、アルゴリズムを開発し、分野の発展に貢献するための基盤として使用できます。

倫理的な考慮事項とリスク

ビジョン言語モデル(VLM)の開発には、いくつかの倫理的な懸念があります。オープンモデルを作成するにあたり、Google は以下の点を慎重に検討しました。

  • バイアスと公平性
    • 大規模な現実世界の画像テキストデータでトレーニングされた VLM は、トレーニング マテリアルに埋め込まれた社会文化的なバイアスを反映する可能性があります。これらのモデルは慎重に精査され、入力データの前処理が説明され、このカードで後方評価が報告されています。
  • 誤った情報と不正使用
    • VLM は、虚偽、誤解を招く、有害なテキストを生成するために不正使用される可能性があります。
    • モデルの責任ある使用に関するガイドラインについては、責任ある生成 AI ツールキットをご覧ください。
  • 透明性と説明責任
    • このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスの詳細がまとめられています。
    • 責任を持って開発されたオープンモデルは、AI エコシステム全体のデベロッパーや研究者が VLM テクノロジーにアクセスできるようにすることで、イノベーションを共有する機会を提供します。

特定されたリスクと軽減策:

  • バイアスの固定化: モデルのトレーニング、ファインチューニング、その他のユースケースで、継続的なモニタリング(評価指標、人間によるレビューを使用)とバイアス除去手法の調査を行うことをおすすめします。
  • 有害なコンテンツの生成: コンテンツの安全性に関するメカニズムとガイドラインが不可欠です。デベロッパーは、特定のプロダクト ポリシーとアプリのユースケースに基づいて、慎重に適切なコンテンツ セーフティ保護対策を実装することをおすすめします。
  • 悪意のある目的での不正使用: 技術的な制限と、デベロッパーとエンドユーザーへの教育により、LLM の悪意のあるアプリケーションを軽減できます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが用意されています。責任ある生成 AI ツールキットをご覧ください。Gemma モデルの禁止されている使用については、Gemma の使用禁止に関するポリシーをご覧ください。
  • プライバシー侵害: 特定の個人情報や機密データを除外するようにフィルタされたデータでモデルがトレーニングされています。デベロッパーは、プライバシー保護技術を使用してプライバシー規制に準拠することをおすすめします。

制限事項

  • 基盤となる Gemma 2 モデルから継承されたほとんどの制限は引き続き適用されます。
    • VLM は、明確なプロンプトと指示でフレーム設定できるタスクに適しています。自由度の高いタスクや非常に複雑なタスクは難しい場合があります。
    • 自然言語は本来複雑です。VLM は、微妙なニュアンス、皮肉、比喩的な表現を理解できない場合があります。
    • VLM はトレーニング データセットから学習した情報に基づいてレスポンスを生成しますが、知識ベースではありません。不正確な事実や古い事実が生成される可能性があります。
    • VLM は、言語と画像の統計パターンを利用します。特定の状況で常識的な推論を適用する能力が欠落している可能性があります。
  • PaliGemma 2 は、特殊なタスクにファインチューニングするための一般的な事前トレーニング済みモデルとして設計されています。そのため、「箱から出してすぐに使える」または「ゼロショット」のパフォーマンスは、汎用目的に特化して設計されたモデルよりも劣る可能性があります。
  • PaliGemma 2 はマルチターン チャットボットではありません。これは、画像とテキストの入力を 1 回行うことを想定して設計されています。