Gemma ファミリーの最新モデルである Gemma 4 は、オブジェクト検出、光学式文字認識(OCR)、視覚的な質問応答、画像のキャプション生成、複数の画像にわたる推論など、幅広いビジョン言語タスクを実行できます。また、解像度可変処理もサポートしているため、推論速度と出力精度をバランスさせることができます。
このセクションでは、プロンプトで視覚データを効果的に準備して使用する方法について説明します。
視覚データ
視覚データには、さまざまな形式と解像度があります。サポートされている特定のファイル形式(JPEG や PNG など)は、視覚データをテンソルに変換するために選択するフレームワークによって異なります。
Gemma 用に視覚データを準備する際の主な考慮事項は次のとおりです。
- トークン費用: 通常、各画像は 256 トークンを使用しますが、PaliGemma の画像トークン費用は、選択した特定のモデルによって異なります。
- 解像度: 解釈される解像度(トークンにエンコードされ、モデルによって処理されるピクセル数)は、使用している Gemma のバージョンによって異なります。
- Gemma 4: トークン予算に基づく可変解像度。70、140、280、560、1120 トークンの予算サイズを選択できます。これにより、入力画像のサイズ変更と処理の量が決まります。
- Gemma 3: (4B 以上)896x896 の解像度。大きな画像の場合はパンとスキャン オプションを使用できます。
- Gemma 3n: 256x256、512x512、768x768 の解像度
- PaliGemma 2: 224x224、448x448、896x896 の解像度
解像度の低い画像は処理が速くなりますが、キャプチャできる視覚的な詳細は少なくなります。推論速度を最適化するには、選択した Gemma モデルの組み込みの解釈済み解像度のいずれかに一致する視覚データを提供する必要があります。
可変解像度とトークン予算
Gemma 4 モデルでは、さまざまな解像度で画像を処理できるため、特定のタスクに合わせて視覚的な入力を調整できます。たとえば、オブジェクト検出で小さな詳細を特定する場合は高解像度を選択しますが、個々の動画フレームを分析して処理を高速化する場合は低解像度を選択します。最終的に、この機能を使用すると、推論速度と視覚表現の精度をバランスさせることができます。
このトレードオフはトークン予算 を使用して管理します。この予算は、モデルが 1 つの画像に対して生成できる視覚トークン(視覚トークン埋め込みとも呼ばれます)の数に上限を設定します。
70、140、280、560、1120 トークンの予算を選択できます。
- 高予算(1,120 トークンなど): 画像の解像度を高く維持します。 これにより、モデルが処理するパッチが増えるため、細かい複雑な詳細をキャプチャするのに最適です。
- 低予算(70 トークンなど): 画像を縮小し、パッチの数を減らします。これにより、推論時間が大幅に短縮されます。
予算の仕組み トークン予算は、初期画像パッチの最大数を指定することで、画像のサイズ変更量を直接制御します。システムは、選択した予算の 9 倍のパッチを生成します。たとえば、280 トークンの予算では、最大 2,520 個のパッチ(280 × 9)が生成されます。
9 倍の乗数があるのは、パッチの圧縮方法が原因です。処理中、モデルは隣接するパッチの 3x3 グリッドごとに平均化して、1 つの埋め込みを作成します。これらの統合された埋め込みが最終的な視覚トークンになります。したがって、トークン予算を増やすと、最終的なエンベディングが増え、モデルは視覚データからより豊富で詳細な情報を抽出できます。
推奨事項
視覚データを使用して Gemma にプロンプトを表示する際のベスト プラクティスをいくつかご紹介します。
具体的にする: 具体的なタスクがある場合は、十分なコンテキスト とガイダンスを提供します。「この画像を説明してください」ではなく、「この画像のシーンを説明してください。人物とオブジェクトの関係に焦点を当ててください」とします。
制約を指定する: 特定のスタイルやトーンを実現するには、 プロンプトで指定する必要があります。たとえば、一般的なストーリーのリクエストではなく、「この画像についての短編小説をフィルム ノワールのスタイルで書いてください」と Gemma に依頼します。
反復的な改善: 意図した出力を得るには、 プロンプトのテストと改善が必要になることがよくあります。基本的なプロンプトから始めて、徐々に複雑さを加えていきます。
禁止事項
視覚データを使用して Gemma にプロンプトを表示する際に避けるべきことをいくつかご紹介します。
非常に密度の高いオブジェクトの正確な数を期待する: Gemma 4 は オブジェクト検出と OCR に優れていますが、非常に密度の高いオブジェクトや小さなオブジェクト(個々の草の葉を数えるなど)については、正確な数ではなく 近似値を提供する場合があります。視覚タスクで最高の精度を実現するには、トークン予算を増やします。
曖昧なプロンプト: 「この画像に基づいて 何かを生成してください」のような一般的なプロンプトではなく、意図した出力を得るための 具体的な手順を指定します。「何か」が何であるかを明確に定義します。たとえば、詩、レシピ、コード スニペットなどです。