モバイル デバイスに Gemma をデプロイする

このドキュメントでは、Google AI Edge Gallery アプリや MediaPipe LLM Inference API の使用など、モバイル デバイスに Gemma モデルをデプロイして実行するためのさまざまな方法とツールについて説明します。

ファインチューニングされた Gemma モデルを LiteRT バージョンに変換する方法については、変換ガイドをご覧ください。

LLM 推論 API の動作を確認し、タスク バンドルモデルをテストするには、Google AI Edge Gallery アプリを使用します。このアプリは、オンデバイス LLM とやり取りするためのユーザー インターフェースを提供します。これにより、次のことが可能になります。

  • モデルをインポート: カスタム .task モデルをアプリに読み込みます。
  • パラメータを構成する: 温度やトップ K などの設定を調整します。
  • テキストを生成: プロンプトを入力して、モデルのレスポンスを表示します。
  • パフォーマンスをテストする: モデルの速度と精度を評価します。

独自のモデルをインポートする手順など、Google AI Edge Gallery アプリの使用方法に関する詳細なガイドについては、アプリのドキュメントをご覧ください。

MediaPipe LLM

MediaPipe LLM 推論 API を使用して、モバイル デバイスで Gemma モデルを実行できます。LLM 推論 API は大規模言語モデルのラッパーとして機能し、情報検索、メールの作成、ドキュメントの要約などの一般的なテキストからテキストへの生成タスクで Gemma モデルをオンデバイスで実行できます。

LLM 推論 API は、次のモバイル プラットフォームで利用できます。

詳しくは、MediaPipe LLM 推論のドキュメントをご覧ください。