مشکل: مدلهای بزرگ، GPUهای کوچک
اپیزود قبلی دیدیم که LoRA خیلی کمک میکنه، ولی هنوز یه مشکل داریم. فرض کن میخوای مدل LLaMA 3.1 70B رو Fine-tune کنی. حتی با LoRA، فقط لود کردن مدل در FP16 حدود ۱۴۰ گیگابایت حافظه میخواد. هیچ GPU مصرفی این حافظه رو نداره.
اینجاست که QLoRA وارد میشه — ترکیب هوشمندانه Quantization و LoRA.
Quantization چیه؟
Quantization یعنی کاهش دقت اعداد. به جای اینکه هر وزن رو با ۱۶ بیت (FP16) ذخیره کنی، با ۸ بیت یا حتی ۴ بیت ذخیرهاش کن. اینطوری حافظه مصرفی به شدت کم میشه.
# مقایسه حافظه مصرفی مدل 70B
model_params = 70e9 # 70 میلیارد پارامتر
fp32 = model_params * 4 / 1e9 # هر پارامتر 4 بایت
fp16 = model_params * 2 / 1e9 # هر پارامتر 2 بایت
int8 = model_params * 1 / 1e9 # هر پارامتر 1 بایت
int4 = model_params * 0.5 / 1e9 # هر پارامتر 0.5 بایت
print(f"FP32: {fp32:.0f} GB") # 280 GB
print(f"FP16: {fp16:.0f} GB") # 140 GB
print(f"INT8: {int8:.0f} GB") # 70 GB
print(f"INT4: {int4:.0f} GB") # 35 GB
یعنی با 4-bit quantization، مدل ۷۰ میلیاردی فقط ۳۵ گیگابایت حافظه میخواد! که توی یه A100 80GB یا حتی دو تا RTX 4090 جا میشه.
QLoRA: بهترین دو دنیا
QLoRA (Quantized LoRA) از سه نوآوری کلیدی استفاده میکنه:
۱. NF4: نوع جدید 4-bit
NF4 (NormalFloat 4-bit) یه فرمت عددی خاصه که برای وزنهای شبکه عصبی بهینه شده. چون وزنهای شبکه عصبی معمولاً توزیع نرمال دارن، NF4 بیتها رو طوری تقسیم میکنه که دقت بیشتری توی بازههای پرتراکمتر داشته باشه.
from transformers import BitsAndBytesConfig
# تنظیم 4-bit quantization با NF4
bnb_config = BitsAndBytesConfig(
load_in_4bit=True, # 4-bit quantization
bnb_4bit_quant_type="nf4", # NormalFloat 4-bit
bnb_4bit_compute_dtype=torch.bfloat16, # محاسبات در bfloat16
bnb_4bit_use_double_quant=True, # Double Quantization
)
۲. Double Quantization
توی quantization معمولی، هر بلاک از وزنها یه ثابت مقیاس (scaling constant) داره که خودش ۳۲ بیته. Double Quantization میاد و این ثابتهای مقیاس رو هم quantize میکنه! نتیجه: صرفهجویی بیشتر در حافظه.
# Double Quantization — مفهومی
# Quantization معمولی:
# وزنها: 4-bit
# ثابت مقیاس: 32-bit (هر 64 وزن یه ثابت)
# overhead: 32/64 = 0.5 bit per param
# Double Quantization:
# وزنها: 4-bit
# ثابت مقیاس: quantize شده به 8-bit
# overhead: 8/64 + 32/1024 ≈ 0.16 bit per param
# صرفهجویی: ~0.34 bit per param
# برای مدل 70B: 0.34 × 70e9 / 8 / 1e9 ≈ 3 GB کمتر!
۳. Paged Optimizers
وقتی GPU حافظهاش پر میشه، QLoRA از مکانیزم paging استفاده میکنه و optimizer states رو موقتاً به RAM سیستم منتقل میکنه. اینطوری GPU هیچوقت out of memory نمیده.
پیادهسازی عملی QLoRA
import torch
from transformers import (
AutoModelForCausalLM,
AutoTokenizer,
BitsAndBytesConfig,
TrainingArguments,
)
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from trl import SFTTrainer
# ۱. تنظیم Quantization
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_use_double_quant=True,
)
# ۲. لود مدل با 4-bit quantization
model = AutoModelForCausalLM.from_pretrained(
"meta-llama/Llama-3.1-8B-Instruct",
quantization_config=bnb_config,
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3.1-8B-Instruct")
tokenizer.pad_token = tokenizer.eos_token
# ۳. آمادهسازی مدل برای آموزش k-bit
model = prepare_model_for_kbit_training(model)
# ۴. تنظیم LoRA
lora_config = LoraConfig(
r=16,
lora_alpha=32,
target_modules=[
"q_proj", "k_proj", "v_proj", "o_proj",
"gate_proj", "up_proj", "down_proj",
],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM",
)
# ۵. اعمال LoRA
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# خروجی: trainable params: 41,943,040 || all params: 4,579,280,896
# || trainable%: 0.9160%
مقایسه مصرف حافظه
# مقایسه عملی — مدل LLaMA 3.1 8B
methods = {
"Full Fine-tuning (FP16)": "~60 GB VRAM",
"LoRA (FP16)": "~18 GB VRAM",
"QLoRA (4-bit + LoRA)": "~6 GB VRAM",
}
for method, memory in methods.items():
print(f"{method}: {memory}")
# مدل LLaMA 3.1 70B
methods_70b = {
"Full Fine-tuning (FP16)": "~500 GB VRAM (غیرممکن)",
"LoRA (FP16)": "~150 GB VRAM (چند GPU)",
"QLoRA (4-bit + LoRA)": "~48 GB VRAM (1× A100 80GB!)",
}
کتابخانه bitsandbytes
bitsandbytes کتابخانهایه که quantization رو انجام میده. نصبش سادهست:
# نصب
# pip install bitsandbytes
# بررسی نصب
import bitsandbytes as bnb
print(bnb.__version__)
# بررسی CUDA
import torch
print(f"CUDA available: {torch.cuda.is_available()}")
print(f"GPU: {torch.cuda.get_device_name(0)}")
print(f"VRAM: {torch.cuda.get_device_properties(0).total_mem / 1e9:.1f} GB")
نکته مهم درباره bitsandbytes
- فقط روی GPUهای NVIDIA کار میکنه (نیاز به CUDA)
- برای Mac با Apple Silicon، از MLX استفاده کن
- نسخه ۰.۴۲+ نیاز داری برای بهترین عملکرد
آموزش کامل با QLoRA
from datasets import load_dataset
# ۱. لود دیتاست
dataset = load_dataset("json", data_files="my_data.jsonl", split="train")
# ۲. فرمتدهی داده
def format_chat(example):
messages = [
{"role": "system", "content": "تو یه دستیار هوشمند هستی."},
{"role": "user", "content": example["question"]},
{"role": "assistant", "content": example["answer"]},
]
text = tokenizer.apply_chat_template(
messages, tokenize=False, add_generation_prompt=False
)
return {"text": text}
dataset = dataset.map(format_chat)
# ۳. تنظیمات آموزش
training_args = TrainingArguments(
output_dir="./qlora-output",
num_train_epochs=3,
per_device_train_batch_size=4,
gradient_accumulation_steps=4, # effective batch size = 16
learning_rate=2e-4,
warmup_ratio=0.03,
logging_steps=10,
save_strategy="epoch",
fp16=False,
bf16=True, # bfloat16 برای محاسبات
optim="paged_adamw_8bit", # Paged optimizer
gradient_checkpointing=True, # صرفهجویی بیشتر حافظه
max_grad_norm=0.3,
lr_scheduler_type="cosine",
)
# ۴. شروع آموزش
trainer = SFTTrainer(
model=model,
tokenizer=tokenizer,
train_dataset=dataset,
args=training_args,
max_seq_length=2048,
dataset_text_field="text",
)
trainer.train()
GPUهای مناسب QLoRA
با QLoRA، Fine-tuning دیگه محدود به GPUهای گرون نیست:
- RTX 3060 12GB: مدلهای ۷-۸ میلیاردی (batch size=1)
- RTX 3090 / 4090 24GB: مدلهای ۷-۸ میلیاردی راحت، ۱۳ میلیاردی با تنظیم
- A100 40GB: مدلهای تا ۳۰ میلیاردی
- A100 80GB: مدلهای ۷۰ میلیاردی
# تنظیم batch size بر اساس حافظه GPU
def suggest_batch_size(gpu_vram_gb, model_size_b, quantization_bits=4):
"""پیشنهاد batch size بر اساس GPU و مدل"""
# تخمین حافظه مدل quantize شده
model_memory = model_size_b * quantization_bits / 8 / 1e9
# حافظه باقیمانده برای آموزش
available = gpu_vram_gb - model_memory - 2 # 2GB overhead
if available < 2:
return 1, 8 # batch_size=1, grad_accum=8
elif available < 6:
return 2, 4
elif available < 12:
return 4, 2
else:
return 8, 1
# مثال
bs, ga = suggest_batch_size(gpu_vram_gb=24, model_size_b=8)
print(f"Batch size: {bs}, Gradient accumulation: {ga}")
# خروجی: Batch size: 4, Gradient accumulation: 2
QLoRA در سرویسهای ابری
اگه GPU مناسب نداری، میتونی از سرویسهای ابری استفاده کنی:
- Google Colab (رایگان): T4 16GB — برای مدلهای ۷-۸B
- Google Colab Pro: A100 40GB — برای مدلهای تا ۳۰B
- RunPod / Lambda Labs: انتخاب GPU دلخواه با قیمت ساعتی
- Kaggle: P100 16GB یا T4 16GB رایگان
آیا Quantization کیفیت رو کم میکنه؟
سوال خوبیه. وقتی دقت عددی رو کم میکنی، یه مقدار اطلاعات از دست میره. ولی تحقیقات نشون داده:
مقاله اصلی QLoRA نشون داد که عملکرد QLoRA (4-bit) تقریباً برابر با Full Fine-tuning (16-bit) هست. تفاوت در اکثر benchmarkها کمتر از ۱ درصده.
دلیلش اینه که وزنهای quantize شده فقط برای forward pass استفاده میشن. گرادیانها و آپدیتها در دقت بالاتر (bfloat16) محاسبه میشن.
نکات مهم
- از
bnb_4bit_compute_dtype=torch.bfloat16استفاده کن (نه float16) gradient_checkpointing=Trueرو فعال کن برای صرفهجویی بیشترoptim="paged_adamw_8bit"برای paged optimizer- اگه GPU حافظه کم داره، batch_size رو کم کن و gradient_accumulation رو زیاد کن
- مدل quantize شده رو نمیتونی مستقیم merge کنی — اول باید dequantize بشه
جمعبندی
QLoRA دموکراتیزه کردن Fine-tuning رو واقعیت بخشیده. حالا هرکسی با یه GPU معمولی میتونه مدلهای بزرگ رو Fine-tune کنه. ترکیب 4-bit quantization با LoRA، حافظه مصرفی رو به شکل چشمگیری کاهش میده بدون اینکه کیفیت رو فدا کنه.
ولی بهترین مدل و بهترین ابزار بدون داده خوب فایدهای نداره. توی اپیزود بعدی، مهمترین بخش Fine-tuning رو بررسی میکنیم: آمادهسازی دیتاست.
نظرات
هنوز نظری ثبت نشده. اولین نفر باشید!
نظر خود را بنویسید