|
|
Jalankan di Google Colab
|
|
|
Lihat sumber di GitHub
|
Panduan ini memandu Anda cara menyetel Gemma dengan baik pada set data text-to-SQL kustom menggunakan Transformers dan TRL Hugging Face. Anda akan mempelajari:
- Apa yang dimaksud dengan Quantized Low-Rank Adaptation (QLoRA)
- Menyiapkan lingkungan pengembangan
- Membuat dan menyiapkan set data penyesuaian
- Menyesuaikan Gemma menggunakan TRL dan SFTTrainer
- Menguji Inferensi Model dan membuat kueri SQL
Apa yang dimaksud dengan Quantized Low-Rank Adaptation (QLoRA)
Panduan ini menunjukkan penggunaan Quantized Low-Rank Adaptation (QLoRA), yang muncul sebagai metode populer untuk menyesuaikan LLM secara efisien karena mengurangi persyaratan resource komputasi sekaligus mempertahankan performa tinggi. Di QloRA, model terlatih dikuantisasi menjadi 4-bit dan bobotnya dibekukan. Kemudian, lapisan adaptor yang dapat dilatih (LoRA) dilampirkan dan hanya lapisan adaptor yang dilatih. Setelah itu, bobot adaptor dapat digabungkan dengan model dasar atau disimpan sebagai adaptor terpisah.
Menyiapkan lingkungan pengembangan
Langkah pertama adalah menginstal Hugging Face Libraries, termasuk TRL, dan set data untuk menyempurnakan model terbuka, termasuk berbagai teknik RLHF dan penyelarasan.
# Install Pytorch & other libraries
%pip install torch tensorboard
# Install Transformers
%pip install transformers
# Install Hugging Face libraries
%pip install datasets accelerate evaluate bitsandbytes trl peft protobuf sentencepiece
# COMMENT IN: if you are running on a GPU that supports BF16 data type and flash attn, such as NVIDIA L4 or NVIDIA A100
#%pip install flash-attn
Catatan: Jika Anda menggunakan GPU dengan arsitektur Ampere (seperti NVIDIA L4) atau yang lebih baru, Anda dapat menggunakan Flash attention. Flash Attention adalah metode yang secara signifikan mempercepat komputasi dan mengurangi penggunaan memori dari kuadratik menjadi linear dalam panjang urutan, sehingga mempercepat pelatihan hingga 3x. Pelajari lebih lanjut di FlashAttention.
Anda memerlukan Token Hugging Face yang valid untuk memublikasikan model Anda. Jika Anda menjalankan di dalam Google Colab, Anda dapat menggunakan Token Hugging Face Anda secara aman menggunakan rahasia Colab. Jika tidak, Anda dapat menetapkan token secara langsung dalam metode login. Pastikan token Anda juga memiliki akses tulis, saat Anda mengirimkan model ke Hub selama pelatihan.
# Login into Hugging Face Hub
from huggingface_hub import login
login()
Membuat dan menyiapkan set data penyesuaian
Saat melakukan penyesuaian LLM, penting untuk mengetahui kasus penggunaan dan tugas yang ingin Anda selesaikan. Hal ini membantu Anda membuat set data untuk menyempurnakan model. Jika belum menentukan kasus penggunaan, Anda mungkin perlu kembali ke tahap perencanaan.
Sebagai contoh, panduan ini berfokus pada kasus penggunaan berikut:
- Menyesuaikan model natural language ke SQL untuk integrasi yang lancar ke dalam alat analisis data. Tujuannya adalah untuk mengurangi secara signifikan waktu dan keahlian yang diperlukan untuk pembuatan kueri SQL, sehingga pengguna non-teknis sekalipun dapat mengekstrak insight yang bermakna dari data.
Text-to-SQL dapat menjadi kasus penggunaan yang baik untuk menyempurnakan LLM, karena merupakan tugas kompleks yang memerlukan banyak pengetahuan (internal) tentang data dan bahasa SQL.
Setelah menentukan bahwa penyesuaian adalah solusi yang tepat, Anda memerlukan set data untuk melakukan penyesuaian. Set data harus berupa beragam demonstrasi tugas yang ingin Anda selesaikan. Ada beberapa cara untuk membuat set data tersebut, termasuk:
- Menggunakan set data open source yang ada, seperti Spider
- Menggunakan set data sintetis yang dibuat oleh LLM, seperti Alpaca
- Menggunakan set data yang dibuat oleh manusia, seperti Dolly.
- Menggunakan kombinasi metode, seperti Orca
Setiap metode memiliki kelebihan dan kekurangannya sendiri serta bergantung pada persyaratan anggaran, waktu, dan kualitas. Misalnya, menggunakan set data yang ada adalah cara termudah, tetapi mungkin tidak disesuaikan dengan kasus penggunaan spesifik Anda. Sementara itu, menggunakan pakar domain mungkin paling akurat, tetapi dapat memakan waktu dan mahal. Anda juga dapat menggabungkan beberapa metode untuk membuat set data instruksi, seperti yang ditunjukkan dalam Orca: Progressive Learning from Complex Explanation Traces of GPT-4.
Panduan ini menggunakan set data yang sudah ada (philschmid/gretel-synthetic-text-to-sql), set data Text-to-SQL sintetis berkualitas tinggi yang mencakup petunjuk bahasa alami, definisi skema, penalaran, dan kueri SQL yang sesuai.
Hugging Face TRL mendukung pembuatan template otomatis untuk format set data percakapan. Artinya, Anda hanya perlu mengonversi set data menjadi objek json yang tepat, dan trl akan menangani pembuatan template dan memasukkannya ke dalam format yang tepat.
{"messages": [{"role": "system", "content": "You are..."}, {"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]}
{"messages": [{"role": "system", "content": "You are..."}, {"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]}
{"messages": [{"role": "system", "content": "You are..."}, {"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]}
philschmid/gretel-synthetic-text-to-sql berisi lebih dari 100 ribu sampel. Agar panduan tetap kecil, panduan ini di-downsampling hanya untuk menggunakan 10.000 sampel.
Sekarang Anda dapat menggunakan library Hugging Face Datasets untuk memuat set data dan membuat template perintah untuk menggabungkan petunjuk bahasa alami, definisi skema, dan menambahkan pesan sistem untuk asisten Anda.
from datasets import load_dataset
# System message for the assistant
system_message = """You are a text to SQL query translator. Users will ask you questions in English and you will generate a SQL query based on the provided SCHEMA."""
# User prompt that combines the user query and the schema
user_prompt = """Given the <USER_QUERY> and the <SCHEMA>, generate the corresponding SQL command to retrieve the desired data, considering the query's syntax, semantics, and schema constraints.
<SCHEMA>
{context}
</SCHEMA>
<USER_QUERY>
{question}
</USER_QUERY>
"""
def create_conversation(sample):
return {
"messages": [
{"role": "system", "content": system_message},
{"role": "user", "content": user_prompt.format(question=sample["sql_prompt"], context=sample["sql_context"])},
{"role": "assistant", "content": sample["sql"]}
]
}
# Load dataset from the hub
dataset = load_dataset("philschmid/gretel-synthetic-text-to-sql", split="train")
dataset = dataset.shuffle().select(range(12500))
# Convert dataset to OAI messages
dataset = dataset.map(create_conversation, remove_columns=dataset.features,batched=False)
# split dataset into 80% training samples and 20% test samples
dataset = dataset.train_test_split(test_size=0.2)
# Print formatted user prompt
for item in dataset["train"][0]["messages"]:
print(item)
README.md: 0%| | 0.00/737 [00:00<?, ?B/s]
synthetic_text_to_sql_train.snappy.parqu(…): 0%| | 0.00/32.4M [00:00<?, ?B/s]
synthetic_text_to_sql_test.snappy.parque(…): 0%| | 0.00/1.90M [00:00<?, ?B/s]
Generating train split: 0%| | 0/100000 [00:00<?, ? examples/s]
Generating test split: 0%| | 0/5851 [00:00<?, ? examples/s]
Map: 0%| | 0/12500 [00:00<?, ? examples/s]
{'content': 'You are a text to SQL query translator. Users will ask you questions in English and you will generate a SQL query based on the provided SCHEMA.', 'role': 'system'}
{'content': "Given the <USER_QUERY> and the <SCHEMA>, generate the corresponding SQL command to retrieve the desired data, considering the query's syntax, semantics, and schema constraints.\n\n<SCHEMA>\nCREATE TABLE Menu (id INT PRIMARY KEY, name VARCHAR(255), category VARCHAR(255), price DECIMAL(5,2));\n</SCHEMA>\n\n<USER_QUERY>\nCalculate the average price of all menu items in the Vegan category\n</USER_QUERY>\n", 'role': 'user'}
{'content': "SELECT AVG(price) FROM Menu WHERE category = 'Vegan';", 'role': 'assistant'}
Menyesuaikan Gemma menggunakan TRL dan SFTTrainer
Sekarang Anda siap menyetel model. SFTTrainer Hugging Face TRL memudahkan pengawasan penyesuaian LLM terbuka. SFTTrainer adalah subclass dari Trainer dari library transformers dan mendukung semua fitur yang sama, termasuk logging, evaluasi, dan pembuatan titik pemeriksaan, tetapi menambahkan fitur kualitas pengalaman tambahan, termasuk:
- Pemformatan set data, termasuk format percakapan dan petunjuk
- Pelatihan hanya pada penyelesaian, mengabaikan perintah
- Mengemas set data untuk pelatihan yang lebih efisien
- Dukungan parameter-efficient fine-tuning (PEFT), termasuk QLoRA
- Menyiapkan model dan tokenizer untuk penyesuaian percakapan (seperti menambahkan token khusus)
Kode berikut memuat model dan tokenizer Gemma dari Hugging Face dan menginisialisasi konfigurasi kuantisasi.
import torch
from transformers import AutoTokenizer, AutoModelForImageTextToText, BitsAndBytesConfig
# Hugging Face model id
model_id = "google/gemma-4-E2B" # @param ["google/gemma-4-E2B","google/gemma-4-E4B"] {"allow-input":true}
# Check if GPU benefits from bfloat16
if torch.cuda.get_device_capability()[0] >= 8:
torch_dtype = torch.bfloat16
else:
torch_dtype = torch.float16
# Define model init arguments
model_kwargs = dict(
dtype=torch_dtype,
device_map="auto", # Let torch decide how to load the model
)
# BitsAndBytesConfig: Enables 4-bit quantization to reduce model size/memory usage
model_kwargs["quantization_config"] = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type='nf4',
bnb_4bit_compute_dtype=model_kwargs['dtype'],
bnb_4bit_quant_storage=model_kwargs['dtype'],
)
# Load model and tokenizer
model = AutoModelForImageTextToText.from_pretrained(model_id, **model_kwargs)
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-E2B-it") # Load the Instruction Tokenizer to use the official Gemma template
config.json: 0.00B [00:00, ?B/s] model.safetensors: 0%| | 0.00/10.2G [00:00<?, ?B/s] Loading weights: 0%| | 0/2011 [00:00<?, ?it/s] generation_config.json: 0%| | 0.00/181 [00:00<?, ?B/s] config.json: 0.00B [00:00, ?B/s] tokenizer_config.json: 0.00B [00:00, ?B/s] tokenizer.json: 0%| | 0.00/32.2M [00:00<?, ?B/s] chat_template.jinja: 0.00B [00:00, ?B/s]
SFTTrainer mendukung integrasi bawaan dengan peft, sehingga memudahkan penyetelan LLM secara efisien menggunakan QLoRA. Anda hanya perlu membuat LoraConfig dan memberikannya kepada pelatih.
from peft import LoraConfig
peft_config = LoraConfig(
lora_alpha=16,
lora_dropout=0.05,
r=16,
bias="none",
target_modules="all-linear",
task_type="CAUSAL_LM",
modules_to_save=["lm_head", "embed_tokens"], # make sure to save the lm_head and embed_tokens as you train the special tokens
ensure_weight_tying=True,
)
Sebelum dapat memulai pelatihan, Anda perlu menentukan hyperparameter yang ingin digunakan dalam instance SFTConfig.
import torch
from trl import SFTConfig
args = SFTConfig(
output_dir="gemma-text-to-sql", # directory to save and repository id
max_length=512, # max length for model and packing of the dataset
num_train_epochs=3, # number of training epochs
per_device_train_batch_size=1, # batch size per device during training
optim="adamw_torch_fused", # use fused adamw optimizer
logging_steps=10, # log every 10 steps
save_strategy="epoch", # save checkpoint every epoch
eval_strategy="epoch", # evaluate checkpoint every epoch
learning_rate=5e-5, # learning rate
fp16=True if model.dtype == torch.float16 else False, # use float16 precision
bf16=True if model.dtype == torch.bfloat16 else False, # use bfloat16 precision
max_grad_norm=0.3, # max gradient norm based on QLoRA paper
lr_scheduler_type="constant", # use constant learning rate scheduler
push_to_hub=True, # push model to hub
report_to="tensorboard", # report metrics to tensorboard
dataset_kwargs={
"add_special_tokens": False, # Template with special tokens
"append_concat_token": True, # Add EOS token as separator token between examples
}
)
Sekarang Anda memiliki setiap elemen penyusun yang diperlukan untuk membuat SFTTrainer guna memulai pelatihan model Anda.
from trl import SFTTrainer
# Create Trainer object
trainer = SFTTrainer(
model=model,
args=args,
train_dataset=dataset["train"],
eval_dataset=dataset["test"],
peft_config=peft_config,
processing_class=tokenizer,
)
Tokenizing train dataset: 0%| | 0/10000 [00:00<?, ? examples/s] Tokenizing eval dataset: 0%| | 0/2500 [00:00<?, ? examples/s]
Mulai pelatihan dengan memanggil metode train().
# Start training, the model will be automatically saved to the Hub and the output directory
trainer.train()
# Save the final model again to the Hugging Face Hub
trainer.save_model()
The tokenizer has new PAD/BOS/EOS tokens that differ from the model config and generation config. The model config and generation config were aligned accordingly, being updated with the tokenizer's values. Updated tokens: {'eos_token_id': 1, 'bos_token_id': 2, 'pad_token_id': 0}.
Sebelum Anda dapat menguji model, pastikan untuk mengosongkan memori.
# free the memory again
del model
del trainer
torch.cuda.empty_cache()
Saat menggunakan QLoRA, Anda hanya melatih adaptor, bukan model lengkap. Artinya, saat menyimpan model selama pelatihan, Anda hanya menyimpan bobot adaptor, bukan model lengkap. Jika ingin menyimpan model lengkap, yang mempermudah penggunaan dengan stack penayangan seperti vLLM atau TGI, Anda dapat menggabungkan bobot adaptor ke dalam bobot model menggunakan metode merge_and_unload, lalu menyimpan model dengan metode save_pretrained. Tindakan ini akan menyimpan model default, yang dapat digunakan untuk inferensi.
from peft import PeftModel
# Load Model base model
model = AutoModelForImageTextToText.from_pretrained(model_id, low_cpu_mem_usage=True)
# Merge LoRA and base model and save
peft_model = PeftModel.from_pretrained(model, args.output_dir)
merged_model = peft_model.merge_and_unload()
merged_model.save_pretrained("merged_model", safe_serialization=True, max_shard_size="2GB")
processor = AutoTokenizer.from_pretrained(args.output_dir)
processor.save_pretrained("merged_model")
Loading weights: 0%| | 0/2011 [00:00<?, ?it/s]
Writing model shards: 0%| | 0/5 [00:00<?, ?it/s]
('merged_model/tokenizer_config.json',
'merged_model/chat_template.jinja',
'merged_model/tokenizer.json')
Menguji Inferensi Model dan membuat kueri SQL
Setelah pelatihan selesai, Anda harus mengevaluasi dan menguji model. Anda dapat memuat berbagai sampel dari set data pengujian dan mengevaluasi model pada sampel tersebut.
import torch
from transformers import pipeline
model_id = "merged_model"
# Load Model with PEFT adapter
model = AutoModelForImageTextToText.from_pretrained(
model_id,
device_map="auto",
dtype="auto",
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
Loading weights: 0%| | 0/2012 [00:00<?, ?it/s] The tied weights mapping and config for this model specifies to tie model.language_model.embed_tokens.weight to lm_head.weight, but both are present in the checkpoints with different values, so we will NOT tie them. You should update the config with `tie_word_embeddings=False` to silence this warning.
Mari kita muat sampel acak dari set data pengujian dan buat perintah SQL.
from random import randint
import re
from transformers import pipeline, GenerationConfig
config = GenerationConfig.from_pretrained(model_id)
config.max_new_tokens = 256
# Load the model and tokenizer into the pipeline
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
# Load a random sample from the test dataset
rand_idx = randint(0, len(dataset["test"]))
test_sample = dataset["test"][rand_idx]
# Convert as test example into a prompt with the Gemma template
prompt = pipe.tokenizer.apply_chat_template(test_sample["messages"][:2], tokenize=False, add_generation_prompt=True)
print(prompt)
# Generate our SQL query.
outputs = pipe(prompt, generation_config=config)
# Extract the user query and original answer
print(f"Context:\n", re.search(r'<SCHEMA>\n(.*?)\n</SCHEMA>', test_sample['messages'][1]['content'], re.DOTALL).group(1).strip())
print(f"Query:\n", re.search(r'<USER_QUERY>\n(.*?)\n</USER_QUERY>', test_sample['messages'][1]['content'], re.DOTALL).group(1).strip())
print(f"Original Answer:\n{test_sample['messages'][2]['content']}")
print(f"Generated Answer:\n{outputs[0]['generated_text'][len(prompt):].strip()}")
<bos><|turn>system You are a text to SQL query translator. Users will ask you questions in English and you will generate a SQL query based on the provided SCHEMA.<turn|> <|turn>user Given the <USER_QUERY> and the <SCHEMA>, generate the corresponding SQL command to retrieve the desired data, considering the query's syntax, semantics, and schema constraints. <SCHEMA> CREATE TABLE broadband_plans (plan_id INT, plan_name VARCHAR(255), download_speed INT, upload_speed INT, price DECIMAL(5,2)); </SCHEMA> <USER_QUERY> Delete a broadband plan from the 'broadband_plans' table </USER_QUERY><turn|> <|turn>model Context: CREATE TABLE broadband_plans (plan_id INT, plan_name VARCHAR(255), download_speed INT, upload_speed INT, price DECIMAL(5,2)); Query: Delete a broadband plan from the 'broadband_plans' table Original Answer: DELETE FROM broadband_plans WHERE plan_id = 3001; Generated Answer: DELETE FROM broadband_plans WHERE plan_name = 'Basic';
Ringkasan dan langkah berikutnya
Tutorial ini membahas cara melakukan fine-tuning model Gemma menggunakan TRL dan QLoRA. Selanjutnya, lihat dokumen berikut:
- Pelajari cara membuat teks dengan model Gemma.
- Pelajari cara menyesuaikan Gemma untuk tugas visi menggunakan Hugging Face Transformers.
- Pelajari cara melakukan penyesuaian dan inferensi terdistribusi pada model Gemma.
- Pelajari cara menggunakan model terbuka Gemma dengan Vertex AI.
- Pelajari cara meningkatkan Gemma menggunakan KerasNLP dan men-deploy ke Vertex AI.
Jalankan di Google Colab
Lihat sumber di GitHub