SynthID: 透かしを入れて LLM で生成されたテキストを検出するためのツール

生成 AI は、より幅広い幅広い高度な これまで想像もできなかった規模の 多様なコンテンツを配信していますこうした使用のほとんどは正当な目的ですが、誤った情報や誤った帰属の問題につながる可能性があるという懸念があります。透かしは 影響を軽減する方法を学びました人間には認識できない透かしを AI 生成のコンテンツに適用できます。検出モデルは任意のコンテンツにスコアを付け、透かしが入れられている可能性を示します。

SynthID は Google DeepMind のテクノロジーで、透かしと デジタル透かしを直接埋め込むことで、AI 生成コンテンツの AI 生成の画像、音声、テキスト、動画。SynthID Text はオープンソース化されています を使用して、デベロッパーがテキスト生成用の透かしを利用できるようにしました。この方法の詳細な技術的な説明については、Nature の論文をご覧ください。

SynthID テキストの本番環境グレードの実装は、 Hugging Face Transformers v4.46.0 以降( 公式の SynthID テキスト スペースです。リファレンス実装 GitHub でも入手できます。オープンソースで役立つ可能性があります。 この手法を他の組織にも導入しようと考えている 説明します。

透かしの適用

実質的には、SynthID Text はロジット プロセッサであり、 Top-K と Top-P 後のモデルの生成パイプライン 擬似ランダム g 関数を使用してモデルのロジットを拡張し、 情報にウォーターマークを付けて、生成品質と ウォーターマークの検出可能性。詳しくは、ホワイトペーパーをご覧ください。 アルゴリズムの技術的な説明と、アルゴリズムの パフォーマンスに影響します。

ウォーターマークは設定し、 g 関数の概要、生成時の適用方法を確認します。使用する各モデルには、独自のウォーターマーク構成が必要です。この構成は安全かつ非公開で保存する必要があります。そうしないと、ウォーターマークが簡単に複製される可能性があります。

すべてのウォーターマーク構成で、次の 2 つのパラメータを定義する必要があります。

  • keys パラメータは、モデルの語彙全体で g 関数スコアの計算に使用される一意のランダム整数のリストです。長さ このリストにより、適用する透かしレイヤの数が決まります。詳細については、論文の付録 C.1 をご覧ください。
  • ngram_len パラメータは、堅牢性と検出可能性のバランスを取るために使用します。 値が大きいほど、ウォーターマークは検出されやすくなりますが、代わりに 変化に対して脆弱になりますデフォルト値として適切な長さは 5 です。

パフォーマンスのニーズに応じて、ウォーターマークをさらに構成できます。

  • サンプリング テーブルは、sampling_table_sizesampling_table_seed の 2 つのプロパティで構成されます。少なくとも次の sampling_table_size を使用してください \( 2^{16} \) サンプリング時に偏りのない安定した g 関数を確保し、 サンプリング テーブルのサイズによって メモリを大量に消費しますsampling_table_seed には任意の整数を使用できます。
  • 検出可能性を高めるために、context_history_size の前のトークン内の繰り返しn グラムはウォーターマーク化されません。

モデルを使用して SynthID Text ウォーターマーク付きのテキストを生成するために、追加のトレーニングは必要ありません。必要なのは、モデルの .generate() メソッドに渡され、SynthID Text ロジット プロセッサを有効にするウォーターマーク設定のみです。Transformers ライブラリでウォーターマークを適用する方法を示したコード例については、ブログ投稿Space をご覧ください。

透かしの検出と検証

透かしの検出は確率的です。ベイジアン検出機能は、Hugging Face TransformersGitHub で提供されています。この検出機能は、ウォーターマークあり、ウォーターマークなし、不明の 3 つの検出状態を出力できます。この動作は、2 つのしきい値を設定してカスタマイズできます。詳しくは、論文の付録 C.8 をご覧ください。

しきい値を調整して、特定の偽陽性と偽陽性を達成できる 陰性率を表します。付録 C.8 を参照してください。 論文をご覧ください。

トレーニング済みの検出機能を用意したら、公開するかどうかと公開方法を選択できます。 一般の人々に提供できるものです

  • 完全に非公開オプションでは、検出機能をリリースしたり公開したりすることはありません。
  • 半公開オプションでは、検出機能は公開されませんが、API を介して公開されます。
  • public オプションは、検出機能をリリースして他のユーザーがダウンロード、使用できるようにします。

組織と組織は、検知の検証方法を決める必要がある 関連するサポート能力に応じて、ニーズに適したものを選ぶ プロセスに集中できます。

制限事項

SynthID テキストの透かしは一部の変換(切り抜き部分)に対して堅牢である 多少の単語を書き換えたり、軽微な言い換えにしたりしますが、この方法では 制限があります。

  • 水印の適用は、精度を低下させることなく生成を拡張する機会が少ないため、事実に基づく回答では効果が低くなります。
  • AI が生成したテキストがテキスト入力に使われていても、 完全に書き換えられたり、別の言語に翻訳されたりした

SynthID Text は、動機を持った攻撃者が 防ぐことができます。ただし、AI 生成コンテンツを悪意のある目的で使用しにくくなり、他のアプローチと組み合わせて、コンテンツ タイプとプラットフォーム全体でカバレッジを拡大できます。