Memperkenalkan Google AI Edge Portal: Lakukan benchmark Edge AI dalam skala besar. Daftar untuk meminta akses selama pratinjau pribadi.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Men-deploy model Gemma 270m yang telah disesuaikan dengan stack Google AI Edge

Tutorial ini akan memandu Anda melalui proses menyeluruh untuk men-deploy model Gemma yang disesuaikan dalam aplikasi contoh Android.

Dalam tutorial ini, kita akan:

Mulai dengan model yang telah disesuaikan
Mengonversi model yang telah disesuaikan dengan library AI Edge Torch
1. Tindakan ini akan mengonversi checkpoint HuggingFace ke file .litertlm
Mengevaluasi kualitas model yang telah disesuaikan
Menjalankan perintah adb untuk mengirim model kustom ke perangkat pengujian
1. Tindakan ini akan mengirim model dalam format .litertlm ke Perangkat Android untuk pengujian lokal
Menjalankan aplikasi contoh Pirate Gemma
1. Tindakan ini akan menggunakan library Kotlin LiteRT-LM untuk menjalankan inferensi pada model yang telah disesuaikan dalam aplikasi contoh Android

Langkah 1: Mulai dengan model yang telah disesuaikan

Untuk tutorial ini, kita akan mulai dengan model yang telah disesuaikan. Untuk menunjukkan perbedaan yang jelas antara model dasar dan model yang telah disesuaikan, kami mengambil model Gemma270m dasar dan menyesuaikannya agar dapat berbicara seperti bajak laut.

Anda dapat menemukan model Pirate Gemma yang telah disesuaikan di https://huggingface.co/erintwalsh/pirate-gemma

Untuk mengetahui informasi selengkapnya tentang penyesuaian model, lihat Panduan Gemma dan Unsloth.

Langkah 2: Mengonversi dan menjalankan model kustom di command line

Setelah model kustom dipublikasikan di HuggingFace, Anda dapat menggunakan library AI Edge Torch untuk mendownload dan mengonversi model tersebut ke format .litertlm.

Prasyarat

Pastikan Anda telah menginstal alat uv dan Python 3.11 atau yang lebih baru di perangkat.

Mengonversi model

uv tool install litert-torch-nightly

litert-torch export_hf \
  --model=[YOUR-HF-USERNAME]/pirate-gemma \
  --output_dir=/tmp/pirate-gemma \
  --externalize_embedder

Menjalankan model secara lokal

uv tool install litert-lm

litert-lm run  \
  /tmp/pirate-gemma/model.litertlm \
  --prompt="Where is the nearest buried treasure?"

Langkah 3: Mengevaluasi kualitas model

Menilai kualitas penyesuaian

Setelah model berjalan secara lokal, Anda dapat menggunakan alat CLI evaluasi AI Edge untuk menganalisis kualitas model LiteRT-LM dari penyesuaian. Alat ini menawarkan validasi paritas kualitas pasca-konversi bawaan antara model HF asli dan model LiteRT-LM yang dikonversi dengan set data publik. Selain set data publik, Anda dapat membuat tugas evaluasi yang disesuaikan menggunakan data dan metrik tertentu. Lihat contoh tugas kustom untuk mengevaluasi model yang telah disesuaikan ini menggunakan LLM-as-a-Judge.

uv tool install ai-edge-eval

GEMINI_API_KEY="your_actual_api_key_here"
ai_edge_eval \
  --framework custom \
  --runner litert-lm \
  --model-path /path/to/your/model.litertlm \
  --custom-tasks-file pirate_gemma_custom_task.py \
  --tasks pirate_gemma_eval \
  --output-dir /tmp/results

Langkah 4: Mengirim model lokal ke perangkat pengujian

Gunakan petunjuk adb ini untuk mengirim model yang baru saja Anda jalankan ke perangkat Android fisik.

adb shell rm -r /data/local/tmp/llm/ # Remove any previously loaded models

adb shell mkdir -p /data/local/tmp/llm/

adb push /tmp/pirate-gemma/model.litertlm  /data/local/tmp/llm/pirate-gemma.litertlm

Langkah 5: Menjalankan inferensi pada model kustom dengan aplikasi contoh Captain Gemma

Captain Gemma adalah aplikasi yang menunjukkan antarmuka dengan model di perangkat. Temukan di GitHub dan clone repositori untuk menjalankannya di Android Studio.

Buka aplikasi contoh Captain Gemma dan jalankan di perangkat Anda. Ini adalah aplikasi yang menggunakan elemen Android Compose untuk menunjukkan cara menjalankan inferensi pada model yang telah disesuaikan di perangkat Android Anda. Aplikasi ini mengambil input teks dari pengguna, dan menampilkan kebijaksanaan bajak laut model Gemma yang telah disesuaikan.

Jalankan aplikasi di perangkat pengujian, yang baru saja Anda kirimi file .litertlm. Masukkan kueri, dan lihat output model di kotak ucapan putih.

Layar utama aplikasi contoh

Kode contoh

Lihat contoh cara menyiapkan model dan menjalankan inferensi dengan LiteRT-LM API dalam kode contoh Captain Gemma.

Langkah 6: Deployment model

Setelah selesai menguji model kustom secara lokal dan siap men-deploy, ada opsi untuk menghosting model, seperti:

Anda dapat mengirim file .litertlm ke repo model HuggingFace yang dibuat sebelumnya, dan mendownloadnya di aplikasi menggunakan HuggingFace API
Anda dapat menggunakan layanan hosting seperti Firebase, yang menyediakan API agar aplikasi Anda mengambil URL model dan mendownload untuk Android atau iOS.