Mit der LLM Inference API können Sie Large Language Models (LLMs) vollständig auf dem Gerät für iOS-Anwendungen ausführen. Sie können damit eine Vielzahl von Aufgaben ausführen, z. B. Text generieren, Informationen in natürlicher Sprache abrufen und Dokumente zusammenfassen. Die Aufgabe bietet integrierte Unterstützung für mehrere Large Language Models für die Text-zu-Text-Transformation, sodass Sie die neuesten On-Device-Modelle für generative KI auf Ihre iOS-Apps anwenden können.
Wenn Sie Ihrer iOS-Anwendung schnell die LLM Inference API hinzufügen möchten, folgen Sie der Kurzanleitung. Ein einfaches Beispiel für eine iOS-Anwendung, in der die LLM Inference API verwendet wird, finden Sie in der Beispielanwendung. Weitere Informationen zur Funktionsweise der LLM Inference API finden Sie in den Abschnitten Konfigurationsoptionen, Modellkonvertierung und LoRA-Abstimmung.
In der MediaPipe Studio-Demo können Sie sich diese Aufgabe in Aktion ansehen. Weitere Informationen zu den Funktionen, Modellen und Konfigurationsoptionen dieser Aufgabe finden Sie in der Übersicht.
Kurzanleitung
So fügen Sie Ihrer iOS-Anwendung die LLM Inference API hinzu:
Die LLM Inference API verwendet die MediaPipeTasksGenai
-Bibliothek, die mit CocoaPods installiert werden muss. Die Bibliothek ist sowohl mit Swift- als auch mit Objective-C-Apps kompatibel und erfordert keine zusätzliche sprachspezifische Einrichtung.
Eine Anleitung zum Installieren von CocoaPods unter macOS findest du in der Installationsanleitung für CocoaPods.
Eine Anleitung zum Erstellen einer Podfile
mit den erforderlichen Pods für Ihre App finden Sie unter CocoaPods verwenden.
Abhängigkeiten hinzufügen
Fügen Sie den MediaPipeTasksGenai
-Pod mit dem folgenden Code in den Podfile
ein:
target 'MyLlmInferenceApp' do
use_frameworks!
pod 'MediaPipeTasksGenAI'
pod 'MediaPipeTasksGenAIC'
end
Wenn Ihre App Unit-Testziele enthält, finden Sie im Einrichtungsleitfaden für iOS weitere Informationen zur Einrichtung Ihrer Podfile
.
Modell herunterladen
Laden Sie Gemma-2 2B in einem 8‑Bit-Quantisierungsformat von Kaggle-Modellen herunter. Weitere Informationen zu den verfügbaren Modellen finden Sie in der Modelldokumentation.
Fügen Sie das Modell mit Xcode Ihrem Projektverzeichnis hinzu. Eine Anleitung zum Hinzufügen von Dateien zu Ihrem Xcode-Projekt finden Sie unter Dateien und Ordner in Ihrem Xcode-Projekt verwalten.
Aufgabe initialisieren
Initialisieren Sie die Aufgabe mit den grundlegenden Konfigurationsoptionen:
import MediaPipeTasksGenai
let modelPath = Bundle.main.path(forResource: "model",
ofType: "bin")
let options = LlmInferenceOptions()
options.baseOptions.modelPath = modelPath
options.maxTokens = 1000
options.topk = 40
options.temperature = 0.8
options.randomSeed = 101
let llmInference = try LlmInference(options: options)
Task ausführen
Verwenden Sie die Methode generateResponse(inputText:)
, um eine Textantwort zu generieren. Dadurch wird eine einzelne generierte Antwort erstellt.
let result = try LlmInference.generateResponse(inputText: inputPrompt)
Verwenden Sie die Methode generateResponseAsync(inputText:)
, um die Antwort zu streamen.
let resultStream = LlmInference.generateResponseAsync(inputText: inputPrompt)
do {
for try await partialResult in resultStream {
print("\(partialResult)")
}
print("Done")
}
catch {
print("Response error: '\(error)")
}
Beispielanwendung
Die Beispielanwendung ist ein Beispiel für eine einfache App zur Textgenerierung für iOS, die die LLM Inference API verwendet. Sie können die App als Ausgangspunkt für Ihre eigene iOS-App verwenden oder sich an ihr orientieren, wenn Sie eine vorhandene App ändern. Der Beispielcode wird auf GitHub gehostet.
Klonen Sie das Git-Repository mit dem folgenden Befehl:
git clone https://github.com/google-ai-edge/mediapipe-samples
Nachdem Sie eine lokale Version des Beispielcodes erstellt haben, können Sie das Projekt in iOS Studio importieren und die App ausführen. Weitere Informationen finden Sie im Einrichtungsleitfaden für iOS.
Konfigurationsoptionen
Verwenden Sie die folgenden Konfigurationsoptionen, um eine iOS-App einzurichten:
Option | Beschreibung | Wertebereich | Standardwert |
---|---|---|---|
modelPath |
Der Pfad zum Speicherort des Modells im Projektverzeichnis. | PFAD | – |
maxTokens |
Die maximale Anzahl von Tokens (Eingabe- und Ausgabetokens), die vom Modell verarbeitet werden. | Ganzzahl | 512 |
topk |
Die Anzahl der Tokens, die das Modell bei jedem Schritt der Generierung berücksichtigt. Begrenzt die Vorhersagen auf die k wahrscheinlichsten Tokens. | Ganzzahl | 40 |
temperature |
Der Grad der Zufälligkeit, der bei der Generierung eingeführt wird. Eine höhere Temperatur führt zu mehr Kreativität im generierten Text, während eine niedrigere Temperatur zu einer vorhersehbareren Generierung führt. | Gleitkommazahl | 0,8 |
randomSeed |
Der Zufallszahlengenerator, der bei der Textgenerierung verwendet wird. | Ganzzahl | 0 |
loraPath |
Der absolute Pfad zum LoRA-Modell lokal auf dem Gerät. Hinweis: Diese Funktion ist nur mit GPU-Modellen kompatibel. | PFAD | – |
Modellkonvertierung
Die LLM Inference API ist mit den folgenden Modelltypen kompatibel. Für einige davon ist eine Modellkonvertierung erforderlich. Anhand der Tabelle können Sie die erforderlichen Schritte für Ihr Modell ermitteln.
Modelle | Conversion-Methode | Kompatible Plattformen | Dateityp |
---|---|---|---|
Gemma-3 1B | Keine Conversion erforderlich | Android, Web | .task |
Gemma 2B, Gemma 7B, Gemma-2 2B | Keine Conversion erforderlich | Android, iOS, Web | .bin |
Phi-2, StableLM, Falcon | MediaPipe-Konvertierungsskript | Android, iOS, Web | .bin |
Alle PyTorch-LLM-Modelle | AI Edge Torch Generative Library | Android, iOS | .task |
Informationen zum Konvertieren anderer Modelle finden Sie im Abschnitt Modellkonvertierung.
LoRA-Anpassung
Die LLM Inference API unterstützt die LoRA-Abstimmung (Low-Rank Adaptation) mithilfe der Bibliothek PEFT (Parameter-Efficient Fine-Tuning). Bei der LoRA-Optimierung wird das Verhalten von LLMs durch einen kosteneffizienten Trainingsablauf angepasst. Dabei werden anhand neuer Trainingsdaten eine kleine Anzahl trainierbarer Gewichte erstellt, anstatt das gesamte Modell neu zu trainieren.
Die LLM Inference API unterstützt das Hinzufügen von LoRA-Gewichten zu den Aufmerksamkeitsschichten der Modelle Gemma-2 2B, Gemma 2B und Phi-2. Laden Sie das Modell im safetensors
-Format herunter.
Das Basismodell muss das Format safetensors
haben, um LoRA-Gewichte zu erstellen. Nach dem LoRA-Training können Sie die Modelle in das FlatBuffers-Format konvertieren, um sie in MediaPipe auszuführen.
LoRA-Gewichte vorbereiten
Verwenden Sie den Leitfaden LoRA-Methoden von PEFT, um ein optimiertes LoRA-Modell mit Ihrem eigenen Datensatz zu trainieren.
Die LLM Inference API unterstützt LoRA nur auf Aufmerksamkeitsebenen. Geben Sie daher nur die Aufmerksamkeitsebenen in LoraConfig
an:
# For Gemma
from peft import LoraConfig
config = LoraConfig(
r=LORA_RANK,
target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
)
# For Phi-2
config = LoraConfig(
r=LORA_RANK,
target_modules=["q_proj", "v_proj", "k_proj", "dense"],
)
Nachdem Sie das Modell mit dem vorbereiteten Dataset trainiert und gespeichert haben, sind die optimierten LoRA-Modellgewichte in adapter_model.safetensors
verfügbar. Die Datei safetensors
ist der LoRA-Prüfpunkt, der bei der Modellkonvertierung verwendet wird.
Modellkonvertierung
Verwenden Sie das MediaPipe-Python-Paket, um die Modellgewichte in das Flatbuffer-Format zu konvertieren. Mit ConversionConfig
werden die Optionen des Basismodells sowie die zusätzlichen LoRA-Optionen angegeben.
import mediapipe as mp
from mediapipe.tasks.python.genai import converter
config = converter.ConversionConfig(
# Other params related to base model
...
# Must use gpu backend for LoRA conversion
backend='gpu',
# LoRA related params
lora_ckpt=LORA_CKPT ,
lora_rank=LORA_RANK ,
lora_output_tflite_file=LORA_OUTPUT_FILE ,
)
converter.convert_checkpoint(config)
Der Konverter erstellt zwei Flatbuffer-Dateien, eine für das Basismodell und eine für das LoRA-Modell.
LoRA-Modellinferenz
iOS unterstützt statische LoRA-Verbindungen während der Initialisierung. Wenn Sie ein LoRA-Modell laden möchten, geben Sie den Pfad zum LoRA-Modell sowie das Basis-LLM an.
import MediaPipeTasksGenai
let modelPath = Bundle.main.path(forResource: "model",
ofType: "bin")
let loraPath= Bundle.main.path(forResource: "lora_model",
ofType: "bin")
let options = LlmInferenceOptions()
options.modelPath = modelPath
options.maxTokens = 1000
options.topk = 40
options.temperature = 0.8
options.randomSeed = 101
options.loraPath = loraPath
let llmInference = try LlmInference(options: options)
Verwenden Sie für die Ausführung der LLM-Inferenz mit LoRA dieselben generateResponse()
- oder generateResponseAsync()
-Methoden wie für das Basismodell.