Pengoptimalan model

Perangkat edge sering kali memiliki memori atau daya komputasi yang terbatas. Berbagai pengoptimalan dapat diterapkan pada model sehingga dapat dijalankan dalam batasan ini. Selain itu, beberapa pengoptimalan memungkinkan penggunaan hardware khusus untuk inferensi yang dipercepat.

TensorFlow Lite dan Toolkit Pengoptimalan Model TensorFlow menyediakan alat untuk meminimalkan kompleksitas pengoptimalan inferensi.

Sebaiknya pertimbangkan pengoptimalan model selama proses pengembangan aplikasi Anda. Dokumen ini menguraikan beberapa praktik terbaik guna mengoptimalkan model TensorFlow untuk deployment ke hardware edge.

Alasan model harus dioptimalkan

Ada beberapa cara utama pengoptimalan model dapat membantu pengembangan aplikasi.

Pengurangan ukuran

Beberapa bentuk pengoptimalan dapat digunakan untuk mengurangi ukuran model. Model yang lebih kecil memiliki manfaat sebagai berikut:

  • Ukuran penyimpanan yang lebih kecil: Model yang lebih kecil menggunakan lebih sedikit ruang penyimpanan di perangkat pengguna Anda. Misalnya, aplikasi Android yang menggunakan model yang lebih kecil akan menggunakan lebih sedikit ruang penyimpanan pada perangkat seluler pengguna.
  • Ukuran download yang lebih kecil: Model yang lebih kecil memerlukan lebih sedikit waktu dan bandwidth untuk mendownload ke perangkat pengguna.
  • Penggunaan memori lebih sedikit: Model yang lebih kecil menggunakan lebih sedikit RAM saat dijalankan, sehingga mengosongkan memori untuk digunakan oleh bagian lain aplikasi Anda, dan dapat menerjemahkan performa dan stabilitas yang lebih baik.

Kuantisasi dapat mengurangi ukuran model dalam semua kasus ini, kemungkinan dengan mengorbankan beberapa akurasi. Pruning dan pengelompokan dapat mengurangi ukuran model yang akan didownload dengan menjadikannya lebih mudah dikompresi.

Pengurangan latensi

Latensi adalah jumlah waktu yang diperlukan untuk menjalankan satu inferensi dengan model tertentu. Beberapa bentuk pengoptimalan dapat mengurangi jumlah komputasi yang diperlukan untuk menjalankan inferensi menggunakan model, sehingga menghasilkan latensi yang lebih rendah. Latensi juga dapat berdampak pada konsumsi daya.

Saat ini, kuantisasi dapat digunakan untuk mengurangi latensi dengan menyederhanakan perhitungan yang terjadi selama inferensi, yang mungkin mengorbankan beberapa akurasi.

Kompatibilitas akselerator

Beberapa akselerator hardware, seperti Edge TPU, dapat menjalankan inferensi sangat cepat dengan model yang telah dioptimalkan dengan benar.

Umumnya, jenis perangkat ini mengharuskan model dikuantisasi dengan cara tertentu. Lihat setiap dokumentasi akselerator hardware untuk mempelajari persyaratannya lebih lanjut.

Kompromi

Pengoptimalan berpotensi menyebabkan perubahan pada akurasi model, yang harus dipertimbangkan selama proses pengembangan aplikasi.

Perubahan akurasi bergantung pada masing-masing model yang dioptimalkan, dan sulit untuk diprediksi sebelumnya. Umumnya, model yang dioptimalkan untuk ukuran atau latensi akan kehilangan sedikit akurasi. Bergantung pada aplikasi Anda, hal ini mungkin atau mungkin tidak memengaruhi pengalaman pengguna Anda. Dalam kasus yang jarang terjadi, model tertentu mungkin memperoleh akurasi tertentu sebagai hasil dari proses pengoptimalan.

Jenis pengoptimalan

TensorFlow Lite saat ini mendukung pengoptimalan melalui kuantisasi, pemangkasan, dan pengelompokan.

Alat ini adalah bagian dari Toolkit Pengoptimalan Model TensorFlow, yang menyediakan resource untuk teknik pengoptimalan model yang kompatibel dengan TensorFlow Lite.

Kuantisasi

Kuantisasi berfungsi dengan mengurangi presisi angka yang digunakan untuk mewakili parameter model, yang secara default adalah bilangan floating point 32 bit. Hal ini menghasilkan ukuran model yang lebih kecil dan komputasi yang lebih cepat.

Jenis kuantisasi berikut tersedia di TensorFlow Lite:

Teknik Persyaratan data Pengurangan ukuran Akurasi Hardware yang didukung
Kuantisasi float16 pasca pelatihan Tidak ada data Hingga 50% Kehilangan akurasi yang tidak signifikan CPU, GPU
Kuantisasi rentang dinamis pascapelatihan Tidak ada data Hingga 75% Kehilangan akurasi terkecil CPU, GPU (Android)
Kuantisasi bilangan bulat setelah pelatihan Sampel perwakilan tidak berlabel Hingga 75% Kehilangan akurasi kecil CPU, GPU (Android), EdgeTPU
Pelatihan berbasis kuantisasi Data pelatihan berlabel Hingga 75% Kehilangan akurasi terkecil CPU, GPU (Android), EdgeTPU

Pohon keputusan berikut membantu Anda memilih skema kuantisasi yang mungkin ingin digunakan untuk model Anda, cukup berdasarkan ukuran dan akurasi model yang diharapkan.

pohon-keputusan-kuantisasi

Berikut adalah hasil latensi dan akurasi untuk kuantisasi pasca pelatihan dan pelatihan berbasis kuantisasi pada beberapa model. Semua jumlah latensi diukur di perangkat Pixel 2 menggunakan satu CPU inti besar. Seiring dengan berkembangnya toolkit, angka-angka di sini juga akan meningkat:

Model Akurasi Teratas (Asli) Akurasi Teratas (Dikuantisasi Pasca-Pelatihan) Akurasi Teratas (Pelatihan Sadar Kuantisasi) Latensi (Asli) (md) Latensi (Dikuantisasi Pasca Pelatihan) (md) Latensi (Pelatihan Kuantisasi Aware) (md) Ukuran (Asli) (MB) Ukuran (Dioptimalkan) (MB)
Mobilenet-v1-1-2240,7090,6570,70 1241126416,94,3
Mobilenet-v2-1-2240,7190,6370,709 899854143,6
Inception_v30,780,7720,775 113084554395,723,9
Resnet_v2_1010,7700,768T/A 39732868T/A178,344,9
Tabel 1 Manfaat kuantisasi model untuk model CNN tertentu

Kuantisasi bilangan bulat penuh dengan aktivasi int16 dan bobot int8

Kuantisasi dengan aktivasi int16 adalah skema kuantisasi bilangan bulat penuh dengan aktivasi dalam int16 dan bobot dalam int8. Mode ini dapat meningkatkan akurasi model terkuantisasi dibandingkan dengan skema kuantisasi bilangan bulat penuh dengan aktivasi dan bobot dalam int8 dengan mempertahankan ukuran model yang sama. Disarankan jika aktivasi sensitif terhadap kuantisasi.

CATATAN: Saat ini, hanya implementasi kernel referensi yang tidak dioptimalkan yang tersedia di TFLite untuk skema kuantisasi ini, sehingga secara default performanya akan lambat dibandingkan dengan kernel int8. Manfaat penuh mode ini saat ini dapat diakses melalui hardware khusus atau software kustom.

Berikut adalah hasil akurasi untuk beberapa model yang memanfaatkan mode ini.

Model Jenis metrik akurasi Akurasi (aktivasi float32) Akurasi (aktivasi in8) Akurasi (aktivasi in16)
Wav2letterWER6,7%7,7% 7,2%
DeepSpeech 0.5.1 (dibentangkan)CER6,13%43,67% 6,52%
YoloV3mAP(IOU=0,5)0,5770,563 0,574
MobileNetV1Akurasi Teratas0,70620,694 0,6936
MobileNetV2Akurasi Teratas0,7180,7126 0,7137
MobileBertF1(Pencocokan persis)88,81(81,23)2,08(0) 88,73(81,15)
Tabel 2 Manfaat kuantisasi model dengan aktivasi int16

Pemangkasan

Pruning berfungsi dengan menghapus parameter dalam model yang hanya memiliki dampak kecil pada prediksinya. Model yang dipangkas memiliki ukuran yang sama pada disk, dan memiliki latensi runtime yang sama, tetapi dapat dikompresi dengan lebih efektif. Hal ini menjadikan pemangkasan sebagai teknik yang berguna untuk mengurangi ukuran download model.

Ke depannya, TensorFlow Lite akan menyediakan pengurangan latensi untuk model yang dipangkas.

Dukungan

Pengelompokan berfungsi dengan mengelompokkan bobot setiap lapisan dalam model ke dalam jumlah cluster yang telah ditentukan, lalu membagikan nilai sentroid untuk bobot yang dimiliki setiap cluster. Hal ini mengurangi jumlah nilai bobot unik dalam model, sehingga mengurangi kompleksitasnya.

Akibatnya, model yang dikelompokkan dapat dikompresi secara lebih efektif, sehingga memberikan manfaat deployment yang mirip dengan pemangkasan.

Alur kerja pengembangan

Sebagai titik awal, periksa apakah model dalam model yang dihosting dapat berfungsi untuk aplikasi Anda. Jika tidak, sebaiknya pengguna memulai dengan alat kuantisasi pasca pelatihan karena hal ini berlaku secara luas dan tidak memerlukan data pelatihan.

Untuk kasus dengan target akurasi dan latensi tidak terpenuhi, atau dukungan akselerator hardware penting, pelatihan berbasis kuantisasi adalah opsi yang lebih baik. Lihat teknik pengoptimalan tambahan di bagian Toolkit Pengoptimalan Model TensorFlow.

Jika ingin mengurangi ukuran model lebih jauh, Anda dapat mencoba pruning dan/atau pengelompokan sebelum melakukan kuantisasi model.