Google AI Edge Portal のご紹介: エッジ AI を大規模にベンチマークします。限定公開プレビュー中にアクセスをリクエストするには、登録してください。

Android 画像分類ガイド

MediaPipe Image Classifier タスクを使用すると、画像の分類を行うことができます。このタスクを使用すると、トレーニング時に定義された一連のカテゴリの中で、画像が表す内容を特定できます。次の手順では、Android アプリで画像分類ツールを使用する方法について説明します。これらの手順で説明するコードサンプルは GitHub で入手できます。

このタスクの動作を確認するには、ウェブデモをご覧ください。このタスクの機能、モデル、構成オプションの詳細については、概要をご覧ください。

サンプルコード

MediaPipe Tasks のサンプルコードは、Android 用画像分類アプリのシンプルな実装です。この例では、物理的な Android デバイスのカメラを使用してオブジェクトを継続的に分類します。また、デバイスのギャラリーにある画像や動画を使用して、オブジェクトを静的に分類することもできます。

このアプリは、独自の Android アプリの開始点として使用できます。また、既存のアプリを変更する際にも参照できます。画像分類器のサンプルコードは GitHub でホストされています。

コードをダウンロードする

次の手順では、git コマンドラインツールを使用してサンプルコードのローカルコピーを作成する方法について説明します。

サンプルコードをダウンロードするには:

次のコマンドを使用して、Git リポジトリのクローンを作成します。
```
git clone https://github.com/google-ai-edge/mediapipe-samples
```
必要に応じて、スパースチェックアウトを使用するように Git インスタンスを構成して、Image Classifier サンプルアプリのファイルのみを取得します。
```
cd mediapipe-samples
git sparse-checkout init --cone
git sparse-checkout set examples/image_classification/android
```

サンプルコードのローカルバージョンを作成したら、プロジェクトを Android Studio にインポートしてアプリを実行できます。手順については、Android 用セットアップガイドをご覧ください。

主要コンポーネント

次のファイルには、この画像分類サンプルアプリケーションの重要なコードが含まれています。

ImageClassifierHelper.kt - 画像分類ツールを初期化し、モデルと委任の選択を処理します。
MainActivity.kt - ImageClassificationHelper と ClassificationResultsAdapter の呼び出しなど、アプリを実装します。
ClassificationResultsAdapter.kt - 結果を処理してフォーマットします。

セットアップ

このセクションでは、Image Classifier を使用するように開発環境とコードプロジェクトを設定する主な手順について説明します。プラットフォームバージョンの要件など、MediaPipe タスクを使用する開発環境の設定に関する一般的な情報については、Android の設定ガイドをご覧ください。

依存関係

Image Classifier は com.google.mediapipe:tasks-vision ライブラリを使用します。この依存関係を Android アプリ開発プロジェクトの build.gradle ファイルに追加します。次のコードを使用して、必要な依存関係をインポートします。

dependencies {
    ...
    implementation 'com.google.mediapipe:tasks-vision:latest.release'
}

モデル

MediaPipe 画像分類タスクには、このタスクに対応したトレーニング済みモデルが必要です。Image Classifier で使用可能なトレーニング済みモデルの詳細については、タスクの概要のモデルのセクションをご覧ください。

モデルを選択してダウンロードし、プロジェクトディレクトリに保存します。

<dev-project-root>/src/main/assets

BaseOptions.Builder.setModelAssetPath() メソッドを使用して、モデルで使用するパスを指定します。このメソッドは、次のセクションのコードサンプルで参照されます。

画像分類システムのサンプルコードでは、モデルは ImageClassifierHelper.kt ファイルに定義されています。

タスクを作成する

タスクを作成するには、createFromOptions 関数を使用します。createFromOptions 関数は、実行モード、表示名のロケール、結果の最大数、信頼度のしきい値、カテゴリの許可リストまたは拒否リストなどの構成オプションを受け入れます。構成オプションの詳細については、構成の概要をご覧ください。

Image Classifier タスクは、静止画像、動画ファイル、ライブ動画ストリームの 3 つの入力データ型をサポートしています。タスクを作成するときに、入力データ型に対応する実行モードを指定する必要があります。入力データ型に対応するタブを選択して、タスクの作成方法と推論の実行方法を確認します。

画像

ImageClassifierOptions options =
  ImageClassifierOptions.builder()
    .setBaseOptions(
      BaseOptions.builder().setModelAssetPath("model.tflite").build())
    .setRunningMode(RunningMode.IMAGE)
    .setMaxResults(5)
    .build();
imageClassifier = ImageClassifier.createFromOptions(context, options);

動画

ImageClassifierOptions options =
  ImageClassifierOptions.builder()
    .setBaseOptions(
      BaseOptions.builder().setModelAssetPath("model.tflite").build())
    .setRunningMode(RunningMode.VIDEO)
    .setMaxResults(5)
    .build();
imageClassifier = ImageClassifier.createFromOptions(context, options);

ライブ配信

ImageClassifierOptions options =
  ImageClassifierOptions.builder()
    .setBaseOptions(
      BaseOptions.builder().setModelAssetPath("model.tflite").build())
    .setRunningMode(RunningMode.LIVE_STREAM)
    .setMaxResults(5)
    .setResultListener((result, inputImage) -> {
         // Process the classification result here.
    })
    .setErrorListener((result, inputImage) -> {
         // Process the classification errors here.
    })
    .build()
imageClassifier = ImageClassifier.createFromOptions(context, options)

Image Classifier のサンプルコードの実装では、ユーザーが処理モードを切り替えることができます。この方法ではタスク作成コードが複雑になり、ユースケースに適さない場合があります。このコードは、ImageClassifierHelper.kt ファイルの setupImageClassifier() 関数で確認できます。

設定オプション

このタスクには、Android アプリ用の次の構成オプションがあります。

オプション名	説明	値の範囲	デフォルト値
`runningMode`	タスクの実行モードを設定します。モードは次の 3 つです。 IMAGE: 単一画像入力のモード。動画: 動画のデコードされたフレームのモード。 LIVE_STREAM: カメラなどからの入力データのライブ配信モード。このモードでは、resultListener を呼び出して、結果を非同期で受信するリスナーを設定する必要があります。	{`IMAGE, VIDEO, LIVE_STREAM`}	`IMAGE`
`displayNamesLocale`	タスクのモデルのメタデータで指定されている表示名に使用するラベルの言語を設定します（利用可能な場合）。デフォルトは英語で `en` です。TensorFlow Lite Metadata Writer API を使用して、カスタムモデルのメタデータにローカライズされたラベルを追加できます。	言語 / 地域コード	en
`maxResults`	返されるスコア上位の分類結果の最大数を設定します（省略可）。0 未満の場合は、利用可能なすべての結果が返されます。	任意の正の数	`-1`
`scoreThreshold`	モデルメタデータで指定された予測スコアしきい値（存在する場合）をオーバーライドする予測スコアしきい値を設定します。この値を下回る結果は拒否されます。	任意の浮動小数点数	未設定
`categoryAllowlist`	許可されるカテゴリ名のリスト（省略可）。空でない場合、このセットにカテゴリ名が含まれていない分類結果は除外されます。重複するカテゴリ名または不明なカテゴリ名は無視されます。このオプションは `categoryDenylist` とは相互に排他的であり、両方を使用するとエラーが発生します。	任意の文字列	未設定
`categoryDenylist`	許可されないカテゴリ名のリスト（省略可）。空でない場合、このセットに含まれるカテゴリ名の分類結果は除外されます。重複するカテゴリ名または不明なカテゴリ名は無視されます。このオプションは `categoryAllowlist` と相互排他的であり、両方を使用するとエラーが発生します。	任意の文字列	未設定
`resultListener`	画像分類ツールがライブ配信モードのときに、分類結果を非同期で受信するように結果リスナーを設定します。実行モードが `LIVE_STREAM` に設定されている場合にのみ使用できます。	なし	未設定
`errorListener`	オプションのエラーリスナーを設定します。	なし	未設定

データの準備

Image Classifier は、画像、動画ファイル、ライブ配信動画に対応しています。このタスクは、サイズ変更、回転、値の正規化などのデータ入力前処理を処理します。

入力画像またはフレームを Image Classifier に渡す前に、com.google.mediapipe.framework.image.MPImage オブジェクトに変換する必要があります。

画像

import com.google.mediapipe.framework.image.BitmapImageBuilder;
import com.google.mediapipe.framework.image.MPImage;

// Load an image on the user’s device as a Bitmap object using BitmapFactory.

// Convert an Android’s Bitmap object to a MediaPipe’s Image object.
Image mpImage = new BitmapImageBuilder(bitmap).build();

動画

import com.google.mediapipe.framework.image.BitmapImageBuilder;
import com.google.mediapipe.framework.image.MPImage;

// Load a video file on the user's device using MediaMetadataRetriever

// From the video’s metadata, load the METADATA_KEY_DURATION and
// METADATA_KEY_VIDEO_FRAME_COUNT value. You’ll need them
// to calculate the timestamp of each frame later.

// Loop through the video and load each frame as a Bitmap object.

// Convert the Android’s Bitmap object to a MediaPipe’s Image object.
Image mpImage = new BitmapImageBuilder(frame).build();

ライブ配信

import com.google.mediapipe.framework.image.MediaImageBuilder;
import com.google.mediapipe.framework.image.MPImage;

// Create a CameraX’s ImageAnalysis to continuously receive frames 
// from the device’s camera. Configure it to output frames in RGBA_8888
// format to match with what is required by the model.

// For each Android’s ImageProxy object received from the ImageAnalysis, 
// extract the encapsulated Android’s Image object and convert it to 
// a MediaPipe’s Image object.
android.media.Image mediaImage = imageProxy.getImage()
Image mpImage = new MediaImageBuilder(mediaImage).build();

Image Classifier のサンプルコードでは、データの準備は ImageClassifierHelper.kt ファイルで処理されます。

タスクを実行する

実行モードに対応する classify 関数を呼び出して、推論をトリガーできます。Image Classifier API は、入力画像またはフレーム内のオブジェクトの可能性のあるカテゴリを返します。

画像

ImageClassifierResult classifierResult = imageClassifier.classify(image);

動画

// Calculate the timestamp in milliseconds of the current frame.
long frame_timestamp_ms = 1000 * video_duration * frame_index / frame_count;

// Run inference on the frame.
ImageClassifierResult classifierResult =
    imageClassifier.classifyForVideo(image, frameTimestampMs);

ライブ配信

// Run inference on the frame. The classifications results will be available 
// via the `resultListener` provided in the `ImageClassifierOptions` when 
// the image classifier was created.
imageClassifier.classifyAsync(image, frameTimestampMs);

次の点にご注意ください。

動画モードまたはライブ配信モードで実行する場合は、入力フレームのタイムスタンプを Image Classifier タスクに指定する必要があります。
画像モードまたは動画モードで実行する場合、Image Classifier タスクは、入力画像またはフレームの処理が完了するまで現在のスレッドをブロックします。ユーザーインターフェースがブロックされないように、処理はバックグラウンドスレッドで実行します。
ライブ配信モードで実行する場合、Image Classifier タスクは現在のスレッドをブロックせず、すぐに返します。入力フレームの処理が完了するたびに、検出結果とともに結果リスナーが呼び出されます。Image Classifier タスクが別のフレームの処理でビジー状態になっているときに classifyAsync 関数が呼び出されると、タスクは新しい入力フレームを無視します。

画像分類器のコードサンプルでは、classify 関数は ImageClassifierHelper.kt ファイルで定義されています。

結果を処理して表示する

推論を実行すると、画像分類タスクは、入力画像またはフレーム内のオブジェクトの候補カテゴリのリストを含む ImageClassifierResult オブジェクトを返します。

このタスクの出力データの例を次に示します。

ImageClassifierResult:
 Classifications #0 (single classification head):
  head index: 0
  category #0:
   category name: "/m/01bwb9"
   display name: "Passer domesticus"
   score: 0.91406
   index: 671
  category #1:
   category name: "/m/01bwbt"
   display name: "Passer montanus"
   score: 0.00391
   index: 670

この結果は、次の環境で Bird Classifier を実行して得られました。

ドバトのクローズアップ写真

画像分類システムのコード例では、ClassificationResultsAdapter.kt ファイルの ClassificationResultsAdapter クラスが結果を処理します。

fun updateResults(imageClassifierResult: ImageClassifierResult? = null) {
    categories = MutableList(adapterSize) { null }
    if (imageClassifierResult != null) {
        val sortedCategories = imageClassifierResult.classificationResult()
            .classifications()[0].categories().sortedBy { it.index() }
        val min = kotlin.math.min(sortedCategories.size, categories.size)
        for (i in 0 until min) {
            categories[i] = sortedCategories[i]
        }
    }
}