Snapshot Depolama Optimizasyonu: Copy-on-Write

Depolama yönetiminde en çok göz ardı edilen konulardan biri, snapshot’ların disk üzerinde nasıl yer kapladığı ve bu alanı nasıl optimize edebileceğimizdir. Bir sistemde onlarca snapshot biriktiğinde “neden diskimiz doldu?” sorusuyla karşılaşmak kaçınılmaz oluyor. Bu noktada Copy-on-Write mekanizmasını gerçekten anlamak, hem disk alanını verimli kullanmak hem de beklenmedik depolama krizlerinden kaçınmak için kritik önem taşıyor.

Copy-on-Write Nedir ve Neden Önemlidir?

Copy-on-Write (CoW), bir veri bloğu değiştirilmek istendiğinde mevcut bloğun üzerine yazılmadığı, bunun yerine değişikliğin yeni bir konuma yazıldığı ve orijinal bloğun olduğu gibi korunduğu bir depolama stratejisidir. Snapshot alındığı andaki veri durumunu korumak için bu yaklaşım kullanılır.

Bunu somut bir örnekle açıklayalım. Diyelim ki 100 GB’lık bir sanal makinenin snapshot’ını aldınız. CoW mekanizmasında snapshot anında ek disk alanı neredeyse sıfırdır. Asıl alan tüketimi, snapshot alındıktan sonra değişen her veri bloğuyla birlikte başlar. Orijinal blok snapshot için korunur, yeni veri ise farklı bir konuma yazılır.

Bu mekanizma LVM thin provisioning, ZFS, Btrfs, QEMU/KVM’nin qcow2 formatı ve VMware VMFS gibi pek çok modern depolama çözümünde kullanılır.

CoW’un Disk Tüketimini Nasıl Etkiler?

Snapshot’ların disk tüketimi konusunda sık yapılan bir yanlış anlama var: “Snapshot almak disk alanı kaplamaz.” Bu ifade kısmen doğrudur, ancak tam resmi yansıtmıyor.

Başlangıç durumu: Snapshot alındığında sadece metadata yazılır, veri kopyalanmaz.

Sonrası: Orijinal veri her değiştiğinde eski blok snapshot için ayrılır, yeni blok aktif sistem için yazılır. Bu süreç devam ettikçe snapshot boyutu büyür.

Birden fazla snapshot: Eğer 5 tane snapshot’ınız varsa ve bunlar zincirleme bağlıysa, en eski snapshot silindiğinde CoW zinciri yeniden düzenlenmek zorundadır. Bu işlem disk I/O açısından oldukça maliyetli olabilir.

Gerçek dünyada karşılaştığım bir senaryoyu paylaşayım. Bir e-ticaret şirketinin veritabanı sunucusunda 30 günlük günlük snapshot politikası uygulanıyordu. Sistem yöneticisi snapshot’ların toplam diskin %20’sini geçmeyeceğini düşünüyordu. Ancak veritabanı her gün yoğun yazma işlemi yaptığından, iki haftadan sonra snapshot’lar toplam disk alanının %60’ını kaplamıştı.

LVM ile CoW Snapshot Yönetimi

Linux sistemlerde LVM snapshot’ları klasik CoW implementasyonunun en yaygın örneğidir. Önce mevcut durumu inceleyelim.

# Mevcut LVM yapısını görüntüle
lvdisplay
vgdisplay
pvdisplay

# Daha özet bilgi için
lvs -a -o +devices
vgs -o +lv_count,snap_count

Snapshot oluştururken boyut seçimi kritiktir. Snapshot boyutu dolduğunda snapshot geçersiz hale gelir ve CoW mekanizması çalışmayı durdurur.

# /dev/vg0/data lv'si için snapshot oluştur
# -L ile snapshot için ayrılan alan belirleniyor
lvcreate -L 10G -s -n data_snap_20241201 /dev/vg0/data

# Snapshot doluluk oranını izle
lvs -o name,lv_size,data_percent,snap_percent /dev/vg0

# Snapshot boyutunu canlı olarak artır (snapshot %80 dolduğunda)
lvextend -L +5G /dev/vg0/data_snap_20241201

Snapshot alanının dolma riskini otomatik yönetmek için bir izleme scripti yazalım.

#!/bin/bash
# snapshot_monitor.sh - LVM snapshot doluluk izleme

THRESHOLD=80
LOG_FILE="/var/log/snapshot_monitor.log"
ALERT_EMAIL="[email protected]"

while IFS= read -r line; do
    snap_name=$(echo "$line" | awk '{print $1}')
    snap_percent=$(echo "$line" | awk '{print $2}' | tr -d '%')
    
    if [ -z "$snap_percent" ] || [ "$snap_percent" == "" ]; then
        continue
    fi
    
    if (( $(echo "$snap_percent > $THRESHOLD" | bc -l) )); then
        echo "$(date): UYARI - $snap_name snapshot doluluk orani: %$snap_percent" >> "$LOG_FILE"
        
        # Otomatik genisletme
        lv_path="/dev/vg0/$snap_name"
        lvextend -L +2G "$lv_path" >> "$LOG_FILE" 2>&1
        
        if [ $? -eq 0 ]; then
            echo "$(date): $snap_name 2GB genisletildi" >> "$LOG_FILE"
        else
            # Genisletemezse mail at
            echo "Kritik: $snap_name snapshot doluluk orani %$snap_percent, genisletilemedi!" | 
                mail -s "Snapshot Alarm - $snap_name" "$ALERT_EMAIL"
        fi
    fi
done < <(lvs --noheadings -o lv_name,snap_percent | grep -v "^$" | awk '$2 != "" {print}')

Bu scripti crontab’a ekleyin:

# Her 15 dakikada bir çalıştır
*/15 * * * * /usr/local/bin/snapshot_monitor.sh

LVM Thin Provisioning ile Optimizasyon

Klasik LVM snapshot’larının aksine thin provisioning, CoW için çok daha verimli bir yaklaşım sunar. Thin pool üzerinde birden fazla volume ve snapshot paylaşımlı bir şekilde alan kullanır.

# Thin pool oluştur
lvcreate -L 100G --thinpool thin_pool vg0

# Thin pool üzerinde volume oluştur
lvcreate -V 50G --thin -n data_vol vg0/thin_pool

# Thin volume'dan snapshot al
lvcreate -s --name data_snap_thin vg0/data_vol

# Thin pool durumunu kontrol et
lvs -o name,lv_size,data_percent,metadata_percent vg0/thin_pool

# Thin pool metadata kontrolü
thin_check /dev/vg0/thin_pool_tmeta

Thin provisioning ile eski CoW yaklaşımı arasındaki fark şudur: Klasik snapshot’ta her snapshot için önceden alan ayırmak zorundasınız. Thin provisioning’de ise tüm volume’lar ve snapshot’lar aynı havuzdan ihtiyaç duydukça alan alır. Bu, depolama kullanım verimliliğini önemli ölçüde artırır.

ZFS ile CoW Optimizasyonu

ZFS, CoW’u en etkin kullanan dosya sistemlerinden biridir. ZFS snapshot’ları gerçek anlamda “sıfır maliyetli” başlar çünkü ZFS’de her yazma işlemi zaten CoW prensibiyle gerçekleşir.

# ZFS pool ve dataset oluştur
zpool create -o ashift=12 tank /dev/sdb /dev/sdc
zfs create tank/data

# Snapshot al
zfs snapshot tank/data@backup_20241201

# Tüm snapshot'ları listele ve boyutlarını gör
zfs list -t snapshot -o name,used,refer,compressratio

# Snapshot'lar arası farkı görüntüle
zfs diff tank/data@backup_20241130 tank/data@backup_20241201

# Snapshot'ın gerçek disk tüketimini hesapla
zfs get used,referenced,compressratio tank/data@backup_20241201

ZFS’in bir diğer güçlü özelliği compression ile CoW’un birleşimidir. Compression aktifken, CoW ile yazılan yeni bloklar sıkıştırılmış olarak depolanır.

#!/bin/bash
# zfs_snapshot_optimizer.sh - ZFS snapshot temizleme ve optimizasyon

DATASET="tank/data"
RETENTION_DAYS=30
DRY_RUN=false

echo "=== ZFS Snapshot Optimizasyon Raporu ==="
echo "Dataset: $DATASET"
echo "Saklanacak gun sayisi: $RETENTION_DAYS"
echo ""

# Eski snapshot'ları bul ve listele
echo "Silinecek snapshot'lar:"
zfs list -t snapshot -o name,creation,used -s creation | grep "^$DATASET@" | while read snap creation_info used; do
    # Snapshot tarihini parse et
    snap_date=$(zfs get -H -o value creation "$snap")
    snap_epoch=$(date -d "$snap_date" +%s 2>/dev/null)
    current_epoch=$(date +%s)
    age_days=$(( (current_epoch - snap_epoch) / 86400 ))
    
    if [ "$age_days" -gt "$RETENTION_DAYS" ]; then
        echo "  $snap - $age_days gun onceki - Boyut: $used"
        if [ "$DRY_RUN" = false ]; then
            zfs destroy "$snap"
            echo "  -> Silindi"
        fi
    fi
done

# Guncel durum
echo ""
echo "=== Guncel Durum ==="
zfs list -t snapshot -o name,used,refer "$DATASET"
echo ""
echo "Dataset toplam: $(zfs get -H -o value used $DATASET)"

Btrfs CoW Snapshot Yönetimi

Btrfs, özellikle sistem volume’leri için popüler bir CoW dosya sistemi tercihidir. Btrfs’te subvolume ve snapshot kavramları iç içe geçmiştir.

# Btrfs subvolume oluştur
btrfs subvolume create /mnt/data/production

# Read-only snapshot al (yedekleme için ideal)
btrfs subvolume snapshot -r /mnt/data/production /mnt/data/snapshots/prod_20241201

# Yazılabilir snapshot al (test ortamı klonlama için)
btrfs subvolume snapshot /mnt/data/production /mnt/data/test_env

# Snapshot listesi ve boyutları
btrfs subvolume list /mnt/data
btrfs filesystem du -s /mnt/data/snapshots/

# Snapshot'lar arası veri paylaşımını görüntüle
btrfs inspect-internal dump-super /dev/sdb

Btrfs’te reflink özelliği de CoW’un bir uzantısıdır. Dosya kopyalarken gerçek veri kopyalanmaz, sadece referanslar oluşturulur.

# Reflink ile "sıfır maliyetli" dosya kopyası
cp --reflink=always /mnt/data/production/database.db /mnt/data/backup/database.db

# Dosyanın paylaşılan bloklarını kontrol et
filefrag -v /mnt/data/backup/database.db

QEMU/KVM qcow2 ile CoW Optimizasyonu

Sanallaştırma ortamlarında CoW optimizasyonu biraz farklı bir boyut kazanır. QEMU’nun qcow2 formatı, sanal disk imajları için CoW implementasyonuna sahiptir ve backing file mekanizmasıyla zincirli snapshot desteği sunar.

# qcow2 imajı oluştur
qemu-img create -f qcow2 /var/lib/libvirt/images/base_ubuntu.qcow2 50G

# Backing file ile CoW snapshot imajı oluştur
qemu-img create -f qcow2 -b /var/lib/libvirt/images/base_ubuntu.qcow2 
    -F qcow2 /var/lib/libvirt/images/vm1_overlay.qcow2

# İmaj bilgilerini görüntüle
qemu-img info /var/lib/libvirt/images/vm1_overlay.qcow2
qemu-img info --backing-chain /var/lib/libvirt/images/vm1_overlay.qcow2

# CoW zincirini birleştir (flatten) - tüm değişiklikler base imaja yazılır
qemu-img commit /var/lib/libvirt/images/vm1_overlay.qcow2

# Bağımsız imaj oluştur (zinciri kır)
qemu-img convert -O qcow2 /var/lib/libvirt/images/vm1_overlay.qcow2 
    /var/lib/libvirt/images/vm1_standalone.qcow2

Libvirt üzerinden snapshot yönetimi için de pratik bir script yazalım.

#!/bin/bash
# kvm_snapshot_cleanup.sh - KVM snapshot zincir optimizasyonu

VM_NAME="production-db"
MAX_CHAIN_DEPTH=3

echo "VM: $VM_NAME snapshot zinciri analiz ediliyor..."

# Snapshot listesi
virsh snapshot-list "$VM_NAME" --tree

# Snapshot zincir derinliği
chain_depth=$(virsh snapshot-list "$VM_NAME" | grep -c "snapshot")
echo "Mevcut snapshot sayisi: $chain_depth"

if [ "$chain_depth" -gt "$MAX_CHAIN_DEPTH" ]; then
    echo "UYARI: Snapshot zinciri cok derin ($chain_depth), performans etkilenebilir"
    echo "Eski snapshot'larin temizlenmesi onerilir"
    
    # En eski snapshot'i bul ve sil
    oldest_snap=$(virsh snapshot-list "$VM_NAME" --roots --name | head -1)
    if [ -n "$oldest_snap" ]; then
        echo "En eski snapshot siliniyor: $oldest_snap"
        virsh snapshot-delete "$VM_NAME" "$oldest_snap" --children-only
    fi
fi

Snapshot Zinciri Performans Sorunları ve Çözümleri

CoW zincirlerinde dikkat edilmesi gereken en önemli konu okuma performansıdır. Derin zincirli snapshot yapılarında, bir veri bloğunu okumak için zincirin tüm katmanlarının taranması gerekebilir. Bu, özellikle çok sayıda snapshot biriktirmiş sistemlerde ciddi I/O latency sorununa yol açar.

Zincirleme okuma maliyeti: Her ek snapshot katmanı, okuma işlemine ek gecikme ekler. 10 katmanlı bir zincirde teorik olarak en kötü senaryoda 10 farklı konuma bakılması gerekebilir.

Yazma amplifikasyonu: CoW’da yazma işlemi, yeni blok tahsisi, metadata güncellenmesi ve eski bloğun korunması adımlarını içerir. Bu, özellikle SSD’lerde wear leveling üzerinde ekstra baskı yaratır.

Pratik optimizasyon önerilerini şöyle sıralayabiliriz.

Snapshot derinliğini sınırlayın: LVM ve qcow2 için maksimum 5-6 katman, ZFS için ise sayıyı değil yaşı kontrol edin
Periyodik birleştirme (flatten/squash) yapın: Aylık maintenance pencerelerinde eski zincirleri birleştirin
Yedekleme snapshot’larını ayrı tutun: Production read path’ini etkilememek için backup snapshot’larını ayrı bir storage pool’da tutun
Metadata I/O’yu izleyin: CoW metadata yazmaları genellikle gözden kaçar ama yoğun ortamlarda IOPS tüketimi önemli olabilir

Gerçek Dünya: E-Ticaret Sunucusu Optimizasyon Hikayesi

Büyük bir indirim günü öncesinde bir e-ticaret altyapısını optimize etmek durumunda kaldım. Sistemde 3 aylık birikmiş LVM snapshot’ları vardı ve veritabanı sunucusunun disk I/O latency’si normalin 4 katına çıkmıştı.

Sorun tespiti için şu adımları izledim.

# I/O latency ölçümü
iostat -x 1 10

# Snapshot zincir derinliği
lvs -a -o name,origin,snap_percent,lv_size | grep -i snap

# CoW metadata I/O oranı
dmsetup status | grep snapshot
dmsetup table | grep snapshot-origin

# Hangi bloğun ne kadar CoW tetiklediğini bul
blktrace -d /dev/vg0/data -o - | blkparse -i - | grep 'W' | head -50

Tespit ettiğim sorun şuydu: 45 adet snapshot birikmiş ve aralarında oluşan CoW zinciri ciddi okuma gecikmeleri yaratıyordu. Çözüm olarak şu adımları uyguladım.

Tüm snapshot’ların yedeğini aldım (rsync ile ayrı bir storage’a)
Eski snapshot’ları temizledim ve son 7 günü korudum
LVM thin provisioning’e geçiş için yeni bir thin pool kurdum
Veritabanını kısa bir maintenance penceresiyle yeni yapıya migrate ettim

Bu işlem sonrasında I/O latency %70 azaldı ve disk kullanımı %55’ten %18’e geriledi.

CoW Kullanımı İçin Kapasite Planlama

Kapasite planlamasında CoW’u göz önüne almak için şu değerlendirmeleri yapmanız gerekir.

Değişiklik hızı (change rate) hesaplama:

#!/bin/bash
# cow_change_rate.sh - CoW veri değişiklik hızı ölçüm

SNAPSHOT_NAME="data_snap_baseline"
INTERVAL_HOURS=24

# Temel snapshot al
lvcreate -L 20G -s -n "$SNAPSHOT_NAME" /dev/vg0/data

# Belirli süre sonra doluluk oranını ölç
sleep $((INTERVAL_HOURS * 3600)) &
SLEEP_PID=$!

# Her saat ölç ve kaydet
for i in $(seq 1 $INTERVAL_HOURS); do
    sleep 3600
    percent=$(lvs --noheadings -o snap_percent "$SNAPSHOT_NAME" | tr -d ' ')
    used_gb=$(echo "20 * $percent / 100" | bc -l)
    echo "$(date): Doluluk %$percent - Kullanilan: ${used_gb}GB"
done

echo "Sonuc: 24 saatte degisim orani hesaplandi"
echo "Snapshot boyutlandirmasi icin bu degeri kullanin"

Genel kural olarak şunu söyleyebilirim: Snapshot boyutunu, veri kaynağının günlük değişiklik hızının 1.5 katı olarak ayarlayın ve bunu snapshot tutma süresiyle çarpın. Örneğin günde 10 GB değişen bir sistem için 7 günlük snapshot tutuyorsanız, toplam snapshot alanı için 105 GB ayırmak makuldur.

Sonuç

Copy-on-Write mekanizması, modern depolama altyapılarının bel kemiğini oluşturuyor. Ancak bu mekanizmanın nasıl çalıştığını anlamadan snapshot yönetimi yapmak, zamanla hem performans sorunlarına hem de beklenmedik depolama krizlerine kapı aralıyor.

En kritik nokta şudur: Snapshot sayısı ile depolama maliyeti ve I/O performansı arasında doğrusal olmayan bir ilişki vardır. İlk birkaç snapshot neredeyse maliyetsizken, zincir derinleştikçe her yeni snapshot’ın hem depolama hem de performans üzerindeki etkisi katlanarak artar.

Pratik tavsiyelerim şöyle sıralanabilir.

LVM kullanıyorsanız thin provisioning’e geçin, klasik snapshot’ları bırakın
ZFS veya Btrfs mümkünse production sistemlerde CoW için en olgun seçeneklerdir
Snapshot politikanızı belirlerken sadece tutma süresini değil, sistemin değişiklik hızını da hesaba katın
Snapshot zincir derinliğini periyodik olarak izleyin ve maksimum 5-6 katmanla sınırlı tutun
Büyük maintenance pencerelerinde zincir birleştirme (flatten) işlemi yapın
CoW metadata I/O’sunu da izleme sisteminize dahil edin

Snapshot optimizasyonu tek seferlik bir çalışma değil, süregelen bir yönetim pratiğidir. Sistemlerinizi kurduğunuzda doğru yapıyı seçmek, ilerleyen dönemlerde ciddi kurtarma operasyonlarından sizi korur. Ve en önemlisi, bir gün gerçekten felaket kurtarma senaryosuyla karşılaştığınızda, snapshot’larınızın sağlıklı çalışıyor olması hayat kurtarır.

Snapshot Depolama Optimizasyonu: Copy-on-Write Nasıl Çalışır?