دليل استنتاج النموذج اللغوي الكبير لنظام التشغيل Android

تتيح لك واجهة برمجة التطبيقات LLM Inference API تشغيل النماذج اللغوية الكبيرة (LLM) بالكامل على الجهاز لتطبيقات Android، والتي يمكنك استخدامها لتنفيذ مجموعة كبيرة من المهام، مثل إنشاء النصوص واسترداد المعلومات بتنسيق لغة طبيعية وملخّص للمستندات. توفّر المهمة دعمًا مضمّنًا لعدة نماذج لغوية كبيرة لتحويل النص إلى نص، ما يتيح لك تطبيق أحدث نماذج الذكاء الاصطناعي التوليدي على الجهاز على تطبيقات Android.

تتيح المهمة الصيغ التالية من Gemma: Gemma-2 2B وGemma 2B وGemma 7B. ‫Gemma هي مجموعة من أحدث النماذج المتطوّرة والخفيفة المتاحة للجميع، والتي تم إنشاؤها بناءً على الأبحاث والتكنولوجيا نفسها المستخدَمة في إنشاء نماذج Gemini. وهو متوافق أيضًا مع نماذج الأجهزة الخارجية التالية: Phi-2 وFalcon-RW-1B وStableLM-3B.

بالإضافة إلى النماذج المتوافقة، يمكن للمستخدمين استخدام AI Edge Torch من Google لتصدير نماذج PyTorch إلى نماذج LiteRT (tflite) متعددة التوقيعات، والتي يتم تجميعها مع مَعلمات أداة تحليل النصوص لإنشاء حِزم مهام متوافقة مع واجهة برمجة التطبيقات LLM Inference API.

يمكنك الاطّلاع على هذه المهمة في العرض التمهيدي لتطبيق MediaPipe Studio. لمزيد من المعلومات عن الإمكانات والنماذج وخيارات الضبط لهذه المهمة، اطّلِع على نظرة عامة.

مثال على الرمز البرمجي

يشير هذا الدليل إلى مثال على تطبيق أساسي لإنشاء النصوص على أجهزة Android. يمكنك استخدام التطبيق كنقطة بداية لتطبيق Android الخاص بك، أو الرجوع إليه عند تعديل تطبيق حالي. يتم استضافة مثال الرمز على GitHub.

تنزيل الرمز

توضّح لك التعليمات التالية كيفية إنشاء نسخة محلية من مثال الرمز البرمجي باستخدام أداة سطر الأوامر git.

لتنزيل نموذج الرمز البرمجي:

  1. استنسِخ مستودع git باستخدام الأمر التالي:
    git clone https://github.com/google-ai-edge/mediapipe-samples
    
  2. يمكنك اختياريًا ضبط مثيل git لاستخدام ميزة "الفحص الخفيف"، بحيث تتوفّر لديك فقط ملفات مثال تطبيق واجهة برمجة التطبيقات LLM Inference API:
    cd mediapipe
    git sparse-checkout init --cone
    git sparse-checkout set examples/llm_inference/android
    

بعد إنشاء نسخة محلية من رمز المثال، يمكنك استيراد المشروع إلى Android Studio وتشغيل التطبيق. للحصول على التعليمات، اطّلِع على دليل الإعداد لنظام Android.

ضبط إعدادات الجهاز

يوضّح هذا القسم الخطوات الرئيسية لإعداد بيئة التطوير و مشاريع الرموز البرمجية على وجه التحديد لاستخدام واجهة برمجة التطبيقات Inference API لنموذج اللغة الكبيرة. للحصول على معلومات عامة حول إعداد بيئة التطوير لاستخدام مهام MediaPipe، بما في ذلك requirements لإصدار النظام الأساسي، يُرجى الاطّلاع على دليل الإعداد لنظام Android.

التبعيات

تستخدِم واجهة برمجة التطبيقات LLM Inference API مكتبة com.google.mediapipe:tasks-genai. أضِف هذه التبعية إلى ملف build.gradle لتطبيق Android:

dependencies {
    implementation 'com.google.mediapipe:tasks-genai:0.10.14'
}

بالنسبة إلى الأجهزة التي تعمل بالإصدار 12 من Android (المستوى 31 من واجهة برمجة التطبيقات) أو إصدار أحدث، أضِف مكتبة OpenCL الأصلية التابعة. لمزيد من المعلومات، يُرجى الاطّلاع على المستندات المتعلّقة بالعلامة uses-native-library.

أضِف علامات uses-native-library التالية إلى ملف AndroidManifest.xml:

<uses-native-library android:name="libOpenCL.so" android:required="false"/>
<uses-native-library android:name="libOpenCL-car.so" android:required="false"/>
<uses-native-library android:name="libOpenCL-pixel.so" android:required="false"/>

الطراز

تتطلّب واجهة برمجة التطبيقات MediaPipe LLM Inference API نموذجًا لغويًا مدرَّبًا للتحويل من نص إلى نص وهو متوافق مع هذه المهمة. بعد تنزيل نموذج، ثبِّت التبعيات المطلوبة وأرسِل النموذج إلى جهاز Android. إذا كنت تستخدم نموذجًا بخلاف Gemma، عليك تحويل النموذج إلى تنسيق متوافق مع MediaPipe.

لمزيد من المعلومات عن النماذج المدربة المتاحة لواجهة برمجة التطبيقات LLM Inference API، اطّلِع على قسم النماذج ضمن النظرة العامة على المهام.

تنزيل نموذج

قبل بدء واجهة برمجة التطبيقات Inference API لنموذج اللغة الكبيرة، نزِّل أحد النماذج المتوافقة واخزِّن الملف ضمن دليل مشروعك:

  • Gemma-2 2B: أحدث إصدار من مجموعة نماذج Gemma جزء من مجموعة نماذج مفتوحة فائقة التطور وخفيفة الوزن تم إنشاؤها استنادًا إلى الأبحاث وتكنولوجيات المعالجة نفسها المستخدَمة في إنشاء نماذج Gemini.
  • Gemma 2B: يندرج هذا النموذج ضمن مجموعة من أحدث النماذج المتطوّرة والخفيفة المتاحة للجميع، والتي تم إنشاؤها بناءً على الأبحاث والتكنولوجيا نفسها المستخدَمة في إنشاء نماذج Gemini. مناسبة بشكلٍ جيد لمجموعة متنوعة من مهام إنشاء النصوص، بما في ذلك الإجابة عن الأسئلة والتلخيص والاستدلال
  • Phi-2: نموذج تحويل بيانات يضمّ 2.7 مليار مَعلمة، وهو الأنسب لتنسيق طلبات الأسئلة والأجوبة والمحادثات والرموز البرمجية.
  • Falcon-RW-1B: نموذج فريد للمشفّر السببي فقط يتضمّن مليار مَعلمة، وتم تدريبه على 350 مليار رمز مميّز من RefinedWeb.
  • StableLM-3B: نموذج لغة مكوّن من 3 مليار رمز فقط لفك التشفير تم تدريبه مسبقًا على تريليون رمز من مجموعات بيانات متنوعة باللغة الإنجليزية والرموز البرمجية.

بالإضافة إلى النماذج المتوافقة، يمكنك استخدام AI Edge Torch من Google لتصدير نماذج PyTorch إلى نماذج LiteRT (tflite) متعددة التوقيعات. لمزيد من المعلومات، يُرجى الاطّلاع على محوِّل Torch التوليدي لنماذج PyTorch.

ننصحك باستخدام Gemma-2 2B، وهي متاحة على Kaggle Models. لمزيد من المعلومات عن النماذج الأخرى المتاحة، يمكنك الاطّلاع على النظرة العامة على المهمة قسم "النماذج".

تحويل النموذج إلى تنسيق MediaPipe

تتوافق واجهة برمجة التطبيقات LLM Inference API مع نوعَين من الفئات، ويتطلّب بعض هذه الأنواع تحويل النموذج. استخدِم الجدول لتحديد الخطوات المطلوبة الطريقة المناسبة لنموذجك.

النماذج طريقة الإحالة الناجحة الأنظمة الأساسية المتوافقة نوع الملف
الطُرز المتوافقة Gemma 2B وGemma 7B وGemma-2 2B وPhi-2 وStableLM وFalcon MediaPipe Android وiOS والويب ‎.bin
نماذج PyTorch الأخرى جميع نماذج PyTorch LLM مكتبة AI Edge Torch التوليدية Android وiOS ‎.task

نحن نستضيف ملفات .bin المحوَّلة لبيانات Gemma 2B وGemma 7B وGemma-2 2B على Kaggle. ويمكن نشر هذه النماذج مباشرةً باستخدام واجهة برمجة التطبيقات LLM Inference API. للاطّلاع على كيفية تحويل نماذج أخرى، اطّلِع على قسم تحويل النماذج.

دفع النموذج إلى الجهاز

أرسِل محتوى مجلد output_path إلى جهاز Android.

$ adb shell rm -r /data/local/tmp/llm/ # Remove any previously loaded models
$ adb shell mkdir -p /data/local/tmp/llm/
$ adb push output_path /data/local/tmp/llm/model_version.bin

أنشئ المهمة.

تستخدِم MediaPipe LLM Inference API الدالة createFromOptions() لإعداد المَهمّة. تقبل الدالة createFromOptions() قيمًا لإعدادات options. لمزيد من المعلومات حول خيارات الضبط، يُرجى الاطّلاع على خيارات الضبط.

تهيئ التعليمة البرمجية التالية المهمة باستخدام خيارات الإعداد الأساسية:

// Set the configuration options for the LLM Inference task
val options = LlmInferenceOptions.builder()
        .setModelPATH('/data/local/.../')
        .setMaxTokens(1000)
        .setTopK(40)
        .setTemperature(0.8)
        .setRandomSeed(101)
        .build()

// Create an instance of the LLM Inference task
llmInference = LlmInference.createFromOptions(context, options)

خيارات الضبط

استخدِم خيارات الضبط التالية لإعداد تطبيق Android:

اسم الخيار الوصف نطاق القيمة القيمة التلقائية
modelPath مسار مكان تخزين النموذج ضمن دليل المشروع. PATH لا ينطبق
maxTokens الحد الأقصى لعدد الرموز المميّزة (رموز الإدخال + رموز الإخراج) التي يعالجها النموذج عدد صحيح 512
topK عدد الرموز التي يأخذها النموذج في الاعتبار في كل خطوة من خطوات الإنشاء حصر التوقّعات بأكبر عدد من الرموز التعبيرية الأكثر احتمالًا عدد صحيح 40
temperature مقدار العشوائية التي تمّ إدخالها أثناء إنشاء النموذج يؤدي تحديد قيمة أعلى لإعداد درجة الحرارة إلى زيادة الإبداع في النص الذي يتم إنشاؤه، في حين يؤدي تحديد قيمة أقل لإعداد درجة الحرارة إلى زيادة إمكانية توقّع النص الذي يتم إنشاؤه. عدد عائم 0.8
randomSeed البذرة العشوائية المستخدَمة أثناء إنشاء النص عدد صحيح 0
loraPath المسار المطلق إلى نموذج LoRA على الجهاز ملاحظة: لا يتوافق هذا الإجراء إلا مع طُرز وحدة معالجة الرسومات. PATH لا ينطبق
resultListener لضبط مستمع النتائج لتلقّي النتائج بشكل غير متزامن. لا ينطبق إلا عند استخدام طريقة الإنشاء غير المتزامنة. لا ينطبق لا ينطبق
errorListener تُستخدَم لضبط مستمع أخطاء اختياري. لا ينطبق لا ينطبق

إعداد البيانات

تقبل واجهة برمجة التطبيقات LLM Inference API الإدخالات التالية:

  • prompt (سلسلة): سؤال أو طلب.
val inputPrompt = "Compose an email to remind Brett of lunch plans at noon on Saturday."

تنفيذ المهمة

استخدِم الطريقة generateResponse() لإنشاء ردّ نصي على محتوى الإدخال الذي تم تقديمه في القسم السابق (inputPrompt). يؤدي ذلك إلى إنشاء ردّ واحد من إنشاء الذكاء الاصطناعي.

val result = llmInference.generateResponse(inputPrompt)
logger.atInfo().log("result: $result")

لبثّ الردّ، استخدِم الطريقة generateResponseAsync().

val options = LlmInference.LlmInferenceOptions.builder()
  ...
  .setResultListener { partialResult, done ->
    logger.atInfo().log("partial result: $partialResult")
  }
  .build()

llmInference.generateResponseAsync(inputPrompt)

معالجة النتائج وعرضها

تعرض واجهة برمجة التطبيقات LLM Inference API الرمز LlmInferenceResult الذي يتضمّن نص الردّ الذي تم إنشاؤه.

Here's a draft you can use:

Subject: Lunch on Saturday Reminder

Hi Brett,

Just a quick reminder about our lunch plans this Saturday at noon.
Let me know if that still works for you.

Looking forward to it!

Best,
[Your Name]

تخصيص نموذج LoRA

يمكن ضبط واجهة برمجة التطبيقات Mediapipe LLM inference API للتوافق مع تقنية Low-Rank Adaptation (LoRA) للنماذج اللغوية الكبيرة. باستخدام نماذج LoRA المحسّنة، يمكن للمطوّرين تخصيص سلوك النماذج اللغوية الكبيرة من خلال عملية تدريب فعّالة من حيث التكلفة.

إنّ توافق LoRA مع واجهة برمجة التطبيقات LLM Inference API يعمل مع جميع أنواع Gemma ونماذج Phi-2 لنظام التشغيل الخلفي لوحدة معالجة الرسومات، مع تطبيق أوزان LoRA على طبقات الانتباه فقط. يُعدّ هذا التنفيذ الأولي واجهة برمجة تطبيقات تجريبية للتطويرات القادمة، مع خطط لإتاحة المزيد من النماذج وأنواع مختلفة من الطبقات في التحديثات القادمة.

إعداد نماذج LoRA

اتّبِع التعليمات الواردة في HuggingFace لتدريب نموذج LoRA محسّن على مجموعة البيانات الخاصة بك باستخدام أنواع النماذج المتوافقة، Gemma أو Phi-2. يتوفّر كل من نماذج Gemma-2 2B وGemma 2B وPhi-2 على منصّة HuggingFace بتنسيق safetensors. بما أنّ واجهة برمجة التطبيقات LLM Inference API لا تتوافق إلا مع LoRA في طبقات الانتباه، حدِّد طبقات الانتباه فقط أثناء إنشاء LoraConfig على النحو التالي:

# For Gemma
from peft import LoraConfig
config = LoraConfig(
    r=LORA_RANK,
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
)

# For Phi-2
config = LoraConfig(
    r=LORA_RANK,
    target_modules=["q_proj", "v_proj", "k_proj", "dense"],
)

للاختبار، تتوفّر نماذج LoRA محسّنة متاحة للجميع تتوافق مع واجهة برمجة التطبيقات LLM Inference API المتوفّرة على HuggingFace. على سبيل المثال، monsterapi/gemma-2b-lora-maths-orca-200k لجهاز Gemma-2B و lole25/phi-2-sft-ultrachat-lora لجهاز Phi-2.

بعد التدريب على مجموعة البيانات المعدّة وحفظ النموذج، ستحصل على ملف adapter_model.safetensors يحتوي على أوزان نموذج LoRA المحسّنة. ملف safetensors هو نقطة تفتيش LoRA المستخدَمة في تحويل النموذج.

في الخطوة التالية، عليك تحويل أوزان النموذج إلى تنسيق TensorFlow Lite Flatbuffer باستخدام حزمة MediaPipe Python. يجب أن يحدد ConversionConfig خيارات النموذج الأساسي بالإضافة إلى خيارات LoRA الإضافية. يُرجى العلم أنّه بما أنّ واجهة برمجة التطبيقات لا تتيح استخدام LoRA إلا مع وحدة معالجة الرسومات، يجب ضبط الخلفية على 'gpu'.

import mediapipe as mp
from mediapipe.tasks.python.genai import converter

config = converter.ConversionConfig(
  # Other params related to base model
  ...
  # Must use gpu backend for LoRA conversion
  backend='gpu',
  # LoRA related params
  lora_ckpt=LORA_CKPT,
  lora_rank=LORA_RANK,
  lora_output_tflite_file=LORA_OUTPUT_TFLITE_FILE,
)

converter.convert_checkpoint(config)

سيُنشئ المحوِّل ملفَّين من ملفات TFLite flatbuffer، أحدهما للنموذج الأساسي والآخر لنموذج LoRA.

استنتاج نموذج LoRA

تم تعديل واجهة برمجة التطبيقات الخاصة بعملية الاستنتاج في نموذج اللغة الضخمة (LLM) على الويب وAndroid وiOS لتتيح الاستنتاج في نموذج LoRA.

يتوافق Android مع بروتوكول LoRA الثابت أثناء الإعداد. لتحميل نموذج LoRA، يحدّد المستخدمون مسار نموذج LoRA بالإضافة إلى النموذج اللغوي الكبير الأساسي.

// Set the configuration options for the LLM Inference task
val options = LlmInferenceOptions.builder()
        .setModelPath('<path to base model>')
        .setMaxTokens(1000)
        .setTopK(40)
        .setTemperature(0.8)
        .setRandomSeed(101)
        .setLoraPath('<path to LoRA model>')
        .build()

// Create an instance of the LLM Inference task
llmInference = LlmInference.createFromOptions(context, options)

لتنفيذ الاستنتاج بالاستناد إلى نموذج لغوي كبير باستخدام LoRA، استخدِم طريقة generateResponse() أو generateResponseAsync() نفسها المستخدَمة في النموذج الأساسي.