Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

SynthID: 透かしを入れて LLM で生成されたテキストを検出するためのツール

生成 AI（GenAI）は、これまでにない規模で、非常に多様なコンテンツを生成できます。こうした使用のほとんどは正当な目的ですが、誤った情報や誤った帰属の問題につながる可能性があるという懸念があります。ウォーターマークは、こうした潜在的な影響を軽減する手法の一つです。人間には認識できない透かしを AI 生成のコンテンツに適用できます。検出モデルは任意のコンテンツにスコアを付け、透かしが入れられている可能性を示します。

SynthID は、Google DeepMind のテクノロジーです。AI 生成の画像、音声、テキスト、動画にデジタル透かしを直接埋め込むことで、AI 生成コンテンツに透かしを入れ識別します。SynthID Text はオープンソース化され、テキスト生成のウォーターマークをデベロッパーが利用できるようになりました。この方法の詳細な技術的な説明については、Nature の論文をご覧ください。

SynthID Text の製品版実装は Hugging Face Transformers v4.46.0 以降で利用できます。これは、公式の SynthID Text Space で試すことができます。リファレンス実装は GitHub でも入手できます。この手法を他のフレームワークに導入しようとしているオープンソースのメンテナンス担当者とコントリビューターにとって有用です。

透かしの適用

実用的には、SynthID Text は、Top-K と Top-P の後にモデルの生成パイプラインに適用されるログリスプロセッサです。疑似乱数 g 関数を使用してモデルのログリスを拡張し、テキストの品質に大きな影響を与えることなく、テキストがモデルによって生成されたかどうかを判断するのに役立つようにウォーターマーク情報をエンコードします。アルゴリズムの技術的な説明と、さまざまな構成値がパフォーマンスに与える影響の分析については、論文をご覧ください。

ウォーターマークは、g 関数をパラメータ化し、生成時に適用する方法を構成します。使用する各透かし構成は、安全かつ非公開に保存する必要があります。そうしないと、透かしが簡単に複製される可能性があります。

ウォーターマーク設定ごとに、次の 2 つのパラメータを定義する必要があります。

keys パラメータは、モデルの語彙全体で g 関数スコアの計算に使用される一意のランダム整数のリストです。このリストの長さによって、適用されるウォーターマークのレイヤの数が変わります。詳細については、論文の付録 C.1 をご覧ください。
ngram_len パラメータは、堅牢性と検出可能性のバランスを取るために使用されます。値が大きいほどウォーターマークは検出しやすくなりますが、変更に対して脆弱になります。デフォルト値として適切な長さは 5 です。

パフォーマンスのニーズに応じて、ウォーターマークをさらに構成できます。

サンプリングテーブルは、sampling_table_size と sampling_table_seed の 2 つのプロパティで構成されます。サンプリング時に偏見のない安定した g 関数を確保するには、sampling_table_size を\( 2^{16} \) 以上にする必要があります。ただし、サンプリングテーブルのサイズは、推論時に必要なメモリ量に影響します。sampling_table_seed には任意の整数を使用できます。
検出可能性を高めるために、context_history_size の前のトークン内の繰り返し n グラムはウォーターマーク化されません。

モデルを使用して SynthID Text ウォーターマーク付きのテキストを生成するために、追加のトレーニングは必要ありません。必要なのは、モデルの .generate() メソッドに渡され、SynthID Text ロギットプロセッサを有効にするウォーターマーク設定のみです。Transformers ライブラリでウォーターマークを適用する方法を示したコード例については、ブログ投稿と Space をご覧ください。

透かしの検出と検証

ウォーターマークの検出は確率的です。ベイジアン検出機能は、Hugging Face Transformers と GitHub で提供されています。この検出機能は、ウォーターマークあり、ウォーターマークなし、不明の 3 つの検出状態を出力できます。動作は、2 つのしきい値を設定して特定の誤検出率と誤判定率を達成することでカスタマイズできます。詳しくは、論文の付録 C.8 をご覧ください。

同じトークン化ツールを使用するモデルは、ウォーターマーク構成と検出機能を共有することもできます。これにより、検出機能のトレーニングセットに、ウォーターマークを共有するすべてのモデルのサンプルが含まれていれば、共通のウォーターマークを共有できます。

トレーニング済みの検出機能が作成されたら、ユーザーや一般の人々に公開するかどうか、公開する場合はどのように公開するかを選択できます。

完全に非公開オプションでは、検出機能をリリースしたり公開したりすることはありません。
半公開オプションでは、検出機能は公開されませんが、API を介して公開されます。
[公開] オプションを選択すると、検出機能を公開して他のユーザーがダウンロードして使用できるようになります。

検出検証のアプローチは、関連するインフラストラクチャとプロセスをサポートする能力に基づいて、ニーズに最適なものを選択する必要があります。

制限事項

SynthID テキストウォーターマークは、テキストの切り抜き、単語の変更、軽微な言い換えなどの変換に対して堅牢ですが、この方法には制限があります。

透かしの適用は、精度を低下させることなく生成を拡張する機会が少ないため、事実に基づく回答では効果が低くなります。
AI 生成テキストを徹底的に書き換えたり、別の言語に翻訳したりすると、検出機能の信頼スコアが大幅に低下する可能性があります。

SynthID Text は、悪意のある攻撃者が悪影響を及ぼすのを直接阻止するように設計されていません。ただし、AI 生成コンテンツを悪意のある目的で使用しにくくなり、他のアプローチと組み合わせて、コンテンツタイプとプラットフォーム全体でカバレッジを改善できます。