PaliGemma モデルカード

モデルページ: PaliGemma

リソースと技術ドキュメント:

利用規約: 利用規約

作成者: Google

モデル情報

モデルの概要

説明

PaliGemma は汎用性の高い軽量の視覚言語モデル(VLM)で、 PaLI-3。また、 SigLIP ビジョンモデルGemma 言語モデル。画像とテキストの両方を 入力として使用し、出力としてテキストを生成します。複数の言語に対応しています。内容 幅広い音域において、業界屈指のファインチューニング パフォーマンスを実現 画像と短い動画キャプション、視覚的な質問などの視覚言語タスク 応答、テキスト読み取り、オブジェクト検出、オブジェクトセグメンテーションです。

モデル アーキテクチャ

PaliGemma は Transformer を Vision Transformer Encoder、 テキスト デコーダは、エンコーダから Gemma-2B。画像エンコーダは、 初期化 SigLIP-So400m/14。 PaliGemma は PaLI-3 レシピに従ってトレーニングされます。

入力と出力

  • 入力: 画像とテキスト文字列(画像にキャプションを付けるプロンプトなど) できます。
  • 出力: 入力に応じて生成されたテキスト。たとえば、 画像、質問への回答、オブジェクト境界ボックスのリスト セグメンテーションコードワードです

モデルデータ

データセットの事前トレーニング

PaliGemma は、次のデータセットの組み合わせで事前にトレーニングされています。

  • WebLI: Web Language Image(Web Language Image)は 一般公開のウェブから構築されたウェブスケールの多言語画像テキスト データセットです。 幅広い WebLI スプリットを使用して、汎用性の高いモデル機能を取得します。 ビジュアル セマンティック理解、オブジェクト ローカライズ、 視覚に訴えるテキスト理解、多言語対応など
  • CC3M-35L: ウェブページからキュレートされた英語の image-alt_text ペア(Sharma et 他、2018)。そこで、Google Cloud Translation API を使用して 34 文字 他の言語にも対応しています。
  • VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M のサブセット(Changpinyo et al.、 2022a)が、 CC3M-35L と同じ追加の 34 言語をサポートしています。Google Cloud Translation API
  • OpenImages: 検出およびオブジェクト認識に関する質問と回答 (Piergiovanni et al. 2022)。生成: OpenImages データセットで独自に作成したルールを使用します。
  • WIT: ウィキペディア(Srinivasan et al.、 2021)。

データ責任のフィルタリング

以下のフィルタが WebLI に適用され、PaliGemma のトレーニングを目的として クリーンなデータに対して:

  • ポルノ画像のフィルタリング: このフィルタは、以下に該当すると思われる画像を削除します。 対象になります。
  • テキストの安全性フィルタリング: ペアになっている画像を識別して除外します 安全でないテキストで検出されます。安全でないテキストとは、含まれている、またはそれに関するテキスト CSAI、ポルノ、下品な表現、またはその他の不適切な表現。
  • テキストの有害度フィルタリング: さらに Perspective API を使用して、特定のトピックに関連する 侮辱的、卑猥、差別的、または有害とみなされるテキストと組み合わせる
  • テキストの個人情報のフィルタリング: 特定の個人情報を除外しました Cloud Data Loss Prevention API を使用して機密データやその他の機密データを (DLP)API を使用して、 プライバシーを保護する責任を負います。社会保障番号などの識別子は その他の機密情報の種類が削除されました。
  • その他の方法: コンテンツの品質と安全性に基づくフィルタリング ポリシーに準拠する必要があります

実装情報

ハードウェア

PaliGemma は最新世代の Tensor Processing Unit を使用してトレーニングされました (TPU)ハードウェア(TPUv5e)。

ソフトウェア

トレーニングは JAX を使用して実施しました。 亜麻 TFDSbig_vision

JAX により、研究者は最新世代のハードウェア、 大規模モデルを高速かつ効率的にトレーニングできます。

データセットへのアクセスには TFDS を、モデル アーキテクチャには Flax を使用します。「 PaliGemma のファインチューニング コードと推論コードが big_vision でリリースされました。 GitHub リポジトリ。

評価情報

ベンチマークの結果

PaliGemma をさまざまなサービス アカウントに転送できることを 各タスクに合わせて事前トレーニング済みモデルを微調整します。さらに、 複数の転送タスクを組み合わせて混合モデルをトレーニングします。レポートの結果を どのタスクが有益かという印象を与えるために、 解像度の向上。重要なのは、これらのタスクやデータセットは、 組み合わせられ、それらの画像は明示的に 事前トレーニング データを使用します。

単一タスク(単一タスクのファインチューニング)

ベンチマーク(トレーニング スプリット) 指標(分割) pt-224 pt-448 pt-896
字幕
COCO の字幕(トレーニングと休憩) CIDEr(値) 141.92 144.60
NoCaps(COCO 字幕の転送の評価) CIDEr(値) 12,172 123.58
COCO-35L(電車) CIDEr dev(en/avg-34/avg)
1,392
1,158
1,164
1,412
1,180
1,186
XM3600(COCO-35L 転送の評価) CIDEr dev(en/avg-34/avg)
7,810
4,130
4,240
80.0
4,190
4,290
TextCaps(トレーニング) CIDEr(値) 127.48 153.94
SciCap(最初の文、副文字なし)(train+val) CIDEr/BLEU-4(テスト)
1,622.25
0.192
181.49
0.211
Screen2words(トレーニングと開発用) CIDEr(テスト) 117.57 11,959
ウィジェットの字幕起こし(トレーニングと開発) CIDEr(テスト) 136.07 148.36
質問への回答
VQAv2(トレーニングと検証) 精度(テストサーバー - 標準) 83.19 85.64
MMVP(VQAv2 転送の評価) ペア設定の精度 4,733 4,533
POPE(VQAv2 転送の評価) 精度(ランダム/人気/敵対的)
8,780
8,587
8,427
8,823
8,677
8,590
OKVQA(電車) 精度(val) 63.54 63.15
A-OKVQA(MC)(トレイン + 評価) 精度(テストサーバー) 7,637 7,690
A-OKVQA(DA)(トレイン + 評価) 精度(テストサーバー) 6,185 6,322
GQA(train_balanced+val_balanced) 精度(testdev バランス) 65.61 67.03
xGQA(GQA 転送の評価) 平均精度(bn、de、en、id、ko、pt、ru、zh) 5,837 5,907
NLVR2(トレーニングと開発) 精度(テスト) 90.02 8,893
MaRVL(NLVR2 転送の評価) 平均精度(テスト)(id、sw、ta、tr、zh) 80.57 76.78
AI2D(電車) 精度(テスト) 7,212 73.28
ScienceQA(Img サブセット、CoT なし)(トレーニングと検証) 精度(テスト) 95.39 95.93
RSVQA-LR(数値以外)(トレーニング+val) 平均精度(テスト) 92.65 93.11
RSVQA-HR(数値以外)(トレーニング+val) 平均精度(テスト/テスト 2)
9,261
9,058
9,279
9,054
ChartQA(人+8)×(トレーニング+評価) 平均緩和精度(test_human、test_aug) 57.08 7,136
VizWiz VQA(トレーニングと評価) 精度(テストサーバー - 標準) 73.7 7,552
TallyQA(トレーニング) 精度(test_simple/test_complex)
8,172
6,956
8,486
7,227
OCR-VQA(トレーニングと評価) 精度(テスト) 7,232 74.61 74.93
TextVQA(トレーニングと検証) 精度(テストサーバー - 標準) 5,547 7,315 7,648
DocVQA(トレーニングと検証) ANLS(テストサーバー) 4,374 7802 8,477
インフォグラフィック VQA(トレーニングと検証) ANLS(テストサーバー) 28.46 4,047 4,775
SceneText VQA(トレーニングと評価) ANLS(テストサーバー) 63.29 8,182 84.40
セグメンテーション
RefCOCO(refcoco、refcoco+、refcog の組み合わせ、val とテスト画像を除く) MIoU(検証)refcoco/refcoco+/refcocog
7,340
6,832
6,765
7,557
6,976
7,017
7,694
7,218
7,222
動画タスク(字幕/QA)
MSR-VTT(字幕) CIDEr(テスト) 70.54
MSR-VTT(QA) 精度(テスト) 5,009
ActivityNet(Captioning) CIDEr(テスト) 34.62
ActivityNet(QA) 精度(テスト) 5,078
VATEX(字幕) CIDEr(テスト) 7,973
MSVD(QA) 精度(テスト) 6,022

混合モデル(複数の転送タスクの混合をファインチューニング)

ベンチマーク 指標(分割) mix-224 mix-448
MMVP ペア設定の精度 4,600 4,533
教皇 精度(ランダム/人気/敵対的)
8,800
8,663
8,567
8,937
8,840
8,747

倫理と安全

評価方法

FireEye の評価方法には、体系的な評価と社内のレッドチーム演習があります。 関連するコンテンツ ポリシーのテスト。レッドチーム・サービスは、 それぞれに異なる目標と人間による評価指標があります。これらの 生成 AI に関連するさまざまなカテゴリに照らし合わせて評価し、 倫理と安全を守ることを目的としています。

  • 子どもの安全、コンテンツの安全性、安全性に関するメッセージについて、人間による評価 保護する必要があります。Gemma モデルをご覧ください。 カード 画像キャプションと画像キャプションを使用して、 設定について説明します
  • Image-to-Text ベンチマーク評価: 関連する学術機関と比較したベンチマーク データセットを利用できます(Karkkainen et al.、 2021)。

評価の結果

  • 倫理と安全性の評価の人間による評価結果は、 内部の許容しきい値である ポリシー (子どもの安全、コンテンツの安全性、リプレゼンテーション)などのカテゴリで 防ぐことができます。
  • 堅牢な内部評価に加えて、Perspective API も使用 (しきい値 0.8)を使用して、有害性、冒とく的な表現、その他の潜在的な FairFace をソースとする画像に対して生成されたキャプションの問題 見てみましょう。サブグループ全体で観察された最大値と中央値を報告します。 認識された性別、民族、年齢属性の属性値を生成します。
指標 認識される性別 民族 年齢層
最大 中央値 最大 中央値 最大 中央値
有害度 0.04% 0.03% 0.08 % 0.00% 0.09% 0.00%
ID 攻撃 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
侮辱 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
脅威 0.06% 0.05% 0.14% 0.05% 0.17% 0.00%
冒とく 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

使用方法と制限事項

想定用途

オープン ビジョン言語モデル(VLM)は、アプリケーション全体、 多岐にわたります。以下の潜在的な使用法は、 包括的ですこのリストの目的は 考えられるユースケースについての説明 トレーニングと開発です

特定の視覚言語タスクをファインチューニングします。

  • 事前トレーニング済みモデルは、幅広いビジョン言語に基づいてファインチューニングできる 画像キャプション、短い動画キャプション、視覚的な質問、 応答、テキスト読み取り、オブジェクト検出、オブジェクトセグメンテーションです。
  • 事前トレーニング済みモデルは、リモートワーク、リモートワーク、 視覚に訴える方法、視覚に訴える視覚質問、 科学関連の質問応答、UI 要素機能の説明
  • 事前トレーニング済みモデルは、非テキスト出力を持つタスク向けに微調整できる たとえば境界ボックスやセグメンテーション マスクなどです

ビジョン言語研究:

  • 事前トレーニング済みモデルとファインチューニングされたモデルは、 VLM 手法のテスト、アルゴリズムの開発、 進歩に貢献しています。

倫理的な考慮事項とリスク

視覚言語モデル(VLM)の開発により、いくつかの倫理的問題と 考えていますオープンモデルの作成にあたり、Google は次の点を慎重に考慮しました。

  • バイアスと公平性
    • 実際の大規模な画像テキストデータでトレーニングした VLM は、 社会的文化的偏見これらのモデルは 入念な精査を受け、入力データの前処理について説明し、 事後評価も確認できます。
  • 誤った情報と誤用
    • VLM が悪用されて、虚偽のテキスト、誤解を招くテキスト、 有害です
    • 責任ある使用に関するガイドラインが提供されている。詳細については、 「責任ある生成 AI ツールキット」へようこそ。
  • 透明性とアカウンタビリティ
    • このモデルカードには、モデルの詳細が構築、 機能、制限、評価プロセスについて確認しました。
    • 責任を持って開発されたオープンモデルは、 VLM テクノロジーを開発者や開発者が利用しやすくし、 AI エコシステム全体の研究者や

特定されたリスクとその軽減策:

  • バイアスの永続化: 継続的なモニタリングが推奨されます。 (評価指標、人間によるレビューを使用)と、バイアス除去の探求 モデル トレーニング、ファインチューニング、その他のユースケースで使用します。
  • 有害なコンテンツの生成: コンテンツの仕組みとガイドライン 安全性が不可欠ですデベロッパーの皆様には、 具体的なコンテンツの安全保護対策を アプリケーションのユースケース。
  • 悪意のある目的での不正使用: 技術的な制約、デベロッパーおよび エンドユーザーへの教育は、LLM の悪意のあるアプリケーションを軽減するのに役立ちます。 不正使用を報告するための教育リソースと報告メカニズム 「責任ある生成 AI ツールキット」をご覧ください。Gemma の禁止された使用 Gemma の使用禁止に関するポリシーをご覧ください。
  • プライバシーの侵害: モデルは、除外されたデータでトレーニングされ、 センシティブ データを保護する。開発者は プライバシー保護の手法を使用してプライバシー規制を遵守する。

制限事項

  • 基盤となる Gemma モデルから継承されたほとんどの制限は引き続き適用されます。
    • VLM は、明確なプロンプトで構成できるタスクに向いています。 できます。終わりのないタスクや非常に複雑なタスクは難しい場合があります。
    • 自然言語は本質的に複雑です。VLM は 微妙なニュアンス、皮肉、比喩的な表現などです。
    • VLM は、 ナレッジベースではありませんがまた、 不正確または古い事実を明記する
    • VLM は言語と画像の統計パターンに依存しています。かもしれない 特定の状況で常識的な推論を応用する能力がない。
  • PaliGemma はまず、事前トレーニング済みモデル 特殊なタスクに微調整できます。したがって、すぐに使えるまたは 「ゼロショット」特定の組織向けに設計されたモデルよりも できます。
  • PaliGemma はマルチターンの chatbot ではありません。1 ラウンドのコースなので、 生成します。