OpenAI Kodunu Değiştirmeden LocalAI'e Geçiş

OpenAI API’sine bağımlı bir uygulama geliştirdiniz, her şey güzel çalışıyor ama her ay gelen fatura giderek kabarıyor. Ya da şirket politikası gereği hassas verileri dışarıya göndermemeniz gerekiyor. Belki de internet bağlantısı olmayan bir ortamda AI özelliklerini çalıştırmanız şart. İşte tam bu noktada LocalAI devreye giriyor ve güzel bir haber var: mevcut kodunuzda neredeyse hiçbir şeyi değiştirmenize gerek yok.

LocalAI, OpenAI API’siyle birebir uyumlu bir arayüz sunuyor. Yani openai.ChatCompletion.create() çağrılarınız, embedding istekleriniz, hatta whisper ile ses tanıma işlemleriniz aynen çalışmaya devam ediyor. Tek yapmanız gereken endpoint URL’ini değiştirmek.

LocalAI Nedir ve Neden Önemlidir

LocalAI, Go ile yazılmış, tamamen açık kaynaklı bir AI inference sunucusudur. Arkasında llama.cpp, whisper.cpp, stable-diffusion.cpp gibi native kütüphaneleri kullanır. OpenAI’nin REST API formatını taklit ettiği için mevcut SDK’larla, kütüphanelerle ve araçlarla doğrudan çalışır.

Temel avantajları şunlardır:

Veri mahremiyeti: Hiçbir veri dışarıya çıkmaz, tüm işlem kendi sunucunuzda döner
Maliyet: Model bir kez indirildikten sonra sınırsız istek ücretsizdir
Özelleştirme: Kendi fine-tune ettiğiniz modelleri kolayca yükleyebilirsiniz
Çevrimdışı çalışma: İnternet bağlantısı gerektirmez
OpenAI uyumluluğu: API formatı aynıdır, SDK değişikliği gerekmez

LocalAI Kurulumu

Docker ile Hızlı Başlangıç

En pratik yol Docker kullanmaktır. GPU’nuz varsa CUDA destekli imajı, yoksa CPU imajını kullanabilirsiniz.

# CPU kullanımı için
docker run -p 8080:8080 
  -v /opt/localai/models:/build/models 
  -e THREADS=4 
  -e CONTEXT_SIZE=4096 
  --name localai 
  quay.io/go-skynet/local-ai:latest

# NVIDIA GPU için
docker run -p 8080:8080 
  --gpus all 
  -v /opt/localai/models:/build/models 
  -e THREADS=8 
  --name localai-gpu 
  quay.io/go-skynet/local-ai:latest-gpu-nvidia-cuda-12

Binary ile Kurulum (Ubuntu/Debian)

Doğrudan binary indirip çalıştırmak isteyenler için:

# Son sürümü indir
curl -Lo localai https://github.com/mudler/LocalAI/releases/latest/download/local-ai-Linux-x86_64
chmod +x localai

# Model dizini oluştur
mkdir -p /opt/localai/models

# Çalıştır
./localai --models-path /opt/localai/models --address 0.0.0.0:8080

Systemd Servisi Olarak Yapılandırma

Canlı ortamlarda LocalAI’yi bir servis olarak çalıştırmak isteyeceksiniz:

# /etc/systemd/system/localai.service dosyası
cat > /etc/systemd/system/localai.service << 'EOF'
[Unit]
Description=LocalAI Service
After=network.target
Wants=network-online.target

[Service]
Type=simple
User=localai
Group=localai
WorkingDirectory=/opt/localai
ExecStart=/usr/local/bin/localai 
  --models-path /opt/localai/models 
  --address 0.0.0.0:8080 
  --threads 8 
  --context-size 4096
Restart=always
RestartSec=5
LimitNOFILE=65536
Environment=GOMAXPROCS=8

[Install]
WantedBy=multi-user.target
EOF

# Kullanıcı oluştur ve servisi etkinleştir
useradd -r -s /bin/false -d /opt/localai localai
chown -R localai:localai /opt/localai
systemctl daemon-reload
systemctl enable --now localai

Model Yapılandırması

LocalAI’de modeller YAML yapılandırma dosyalarıyla tanımlanır. Bu yaklaşım hem esneklik sağlar hem de farklı modelleri farklı ayarlarla sunmanıza olanak tanır.

# Model dizinine config dosyası oluştur
mkdir -p /opt/localai/models

cat > /opt/localai/models/gpt-3.5-turbo.yaml << 'EOF'
name: gpt-3.5-turbo
parameters:
  model: mistral-7b-instruct-v0.2.Q4_K_M.gguf
  temperature: 0.9
  top_p: 0.9
  top_k: 40
  max_new_tokens: 512
context_size: 4096
roles:
  user: "[INST]"
  assistant: "[/INST]"
  system: "<<SYS>>"
template:
  chat_message: "{{.RoleName}} {{.Content}}"
  chat: |
    {{.Input}}
EOF

Bu yapılandırmanın güzelliği şu: uygulamanız gpt-3.5-turbo model adını istediğinde, LocalAI arkada gerçekte Mistral 7B modelini çalıştırıyor. Kod tarafında hiçbir değişiklik gerekmez.

GGUF Formatında Model İndirme

# Hugging Face'den model indir
cd /opt/localai/models

# Mistral 7B Instruct (yaklaşık 4GB, Q4 quantization)
wget https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.2-GGUF/resolve/main/mistral-7b-instruct-v0.2.Q4_K_M.gguf

# Daha küçük model istiyorsanız (Phi-2, yaklaşık 1.6GB)
wget https://huggingface.co/TheBloke/phi-2-GGUF/resolve/main/phi-2.Q4_K_M.gguf

# Embedding için (nomic-embed-text)
wget https://huggingface.co/nomic-ai/nomic-embed-text-v1.5-GGUF/resolve/main/nomic-embed-text-v1.5.Q4_K_M.gguf

# İzinleri ayarla
chown -R localai:localai /opt/localai/models/

Mevcut OpenAI Kodunu Değiştirmeden Geçiş

İşte asıl büyü burada başlıyor. Python, Node.js veya başka bir dilde OpenAI SDK kullanıyor olun, yapmanız gereken tek şey base_url parametresini değiştirmek.

Python OpenAI SDK

# ÖNCE (OpenAI API)
from openai import OpenAI

client = OpenAI(api_key="sk-xxxx")

response = client.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[
        {"role": "system", "content": "Sen yardımsever bir asistansın."},
        {"role": "user", "content": "Python'da decorator nedir?"}
    ]
)
print(response.choices[0].message.content)

# SONRA (LocalAI - sadece iki satır değişti)
from openai import OpenAI

client = OpenAI(
    api_key="localai",        # Herhangi bir string olabilir, LocalAI doğrulamaz
    base_url="http://localhost:8080/v1"  # LocalAI endpoint'i
)

# Geri kalan KOD TAMAMEN AYNI kalıyor!
response = client.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[
        {"role": "system", "content": "Sen yardımsever bir asistansın."},
        {"role": "user", "content": "Python'da decorator nedir?"}
    ]
)
print(response.choices[0].message.content)

Ortam değişkeni ile yönetmek daha temiz bir yaklaşımdır:

import os
from openai import OpenAI

# .env dosyasından veya sistem ortam değişkenlerinden oku
client = OpenAI(
    api_key=os.getenv("OPENAI_API_KEY", "localai"),
    base_url=os.getenv("OPENAI_BASE_URL", "http://localhost:8080/v1")
)

# Production'da OPENAI_BASE_URL=https://api.openai.com/v1 set edersiniz
# Development/Staging'de OPENAI_BASE_URL=http://localai-server:8080/v1 set edersiniz
# Kod hiç değişmiyor!

Node.js / TypeScript Uygulamaları

// ÖNCE
const OpenAI = require('openai');
const client = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

// SONRA - sadece baseURL eklendi
const OpenAI = require('openai');
const client = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY || 'localai',
  baseURL: process.env.OPENAI_BASE_URL || 'http://localhost:8080/v1'
});

// Streaming dahil tüm özellikler çalışır
async function streamResponse() {
  const stream = await client.chat.completions.create({
    model: 'gpt-3.5-turbo',
    messages: [{ role: 'user', content: 'Bana kısa bir hikaye anlat.' }],
    stream: true,
  });

  for await (const chunk of stream) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

streamResponse();

LangChain ile Kullanım

LangChain kullananlar için de değişiklik minimaldır:

from langchain_openai import ChatOpenAI
from langchain.schema import HumanMessage, SystemMessage

# LocalAI endpoint'ini işaret et
llm = ChatOpenAI(
    model_name="gpt-3.5-turbo",
    openai_api_key="localai",
    openai_api_base="http://localhost:8080/v1",
    temperature=0.7,
    max_tokens=1024
)

# LangChain chain'leri, agent'ları, RAG pipeline'ları aynen çalışır
messages = [
    SystemMessage(content="Sen bir Linux uzmanısın."),
    HumanMessage(content="Disk kullanımını izlemek için hangi araçları kullanırsın?")
]

response = llm.invoke(messages)
print(response.content)

Gerçek Dünya Senaryosu: Müşteri Destek Botu

Bir e-ticaret şirketinde OpenAI tabanlı müşteri destek botu çalıştırdığınızı düşünelim. Aylık 500 dolar API maliyeti var ve KVKK gereği müşteri verilerini yurt içinde tutmanız gerekiyor.

import os
from openai import OpenAI
from flask import Flask, request, jsonify

app = Flask(__name__)

# Ortam değişkeniyle tam esneklik
client = OpenAI(
    api_key=os.getenv("AI_API_KEY", "localai"),
    base_url=os.getenv("AI_BASE_URL", "http://localhost:8080/v1")
)

SYSTEM_PROMPT = """Sen bir e-ticaret şirketinin müşteri destek asistanısın.
Sipariş takibi, iade işlemleri ve ürün bilgileri konularında yardımcı oluyorsun.
Türkçe cevap veriyorsun ve samimi bir dil kullanıyorsun."""

@app.route('/chat', methods=['POST'])
def chat():
    data = request.json
    user_message = data.get('message', '')
    conversation_history = data.get('history', [])

    messages = [{"role": "system", "content": SYSTEM_PROMPT}]
    messages.extend(conversation_history)
    messages.append({"role": "user", "content": user_message})

    try:
        response = client.chat.completions.create(
            model=os.getenv("AI_MODEL", "gpt-3.5-turbo"),
            messages=messages,
            temperature=0.7,
            max_tokens=512
        )

        assistant_message = response.choices[0].message.content
        return jsonify({
            "response": assistant_message,
            "model_used": response.model,
            "tokens_used": response.usage.total_tokens
        })

    except Exception as e:
        return jsonify({"error": str(e)}), 500

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

Bu uygulamayı LocalAI’ye geçirmek için .env dosyasını değiştirmek yeterli:

# .env dosyası
AI_API_KEY=localai
AI_BASE_URL=http://localai-server:8080/v1
AI_MODEL=gpt-3.5-turbo

Embedding API Desteği

RAG (Retrieval Augmented Generation) pipeline’larında embedding API de kullanılıyorsa o da aynı şekilde çalışır:

from openai import OpenAI
import numpy as np

client = OpenAI(
    api_key="localai",
    base_url="http://localhost:8080/v1"
)

def get_embedding(text: str) -> list[float]:
    """OpenAI embedding formatıyla birebir uyumlu."""
    response = client.embeddings.create(
        model="text-embedding-ada-002",  # LocalAI'de nomic-embed-text ile maplenebilir
        input=text
    )
    return response.data[0].embedding

def cosine_similarity(vec1: list, vec2: list) -> float:
    a = np.array(vec1)
    b = np.array(vec2)
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

# Test
embedding1 = get_embedding("Linux sunucu yönetimi")
embedding2 = get_embedding("Server administration on Linux")
embedding3 = get_embedding("Pasta tarifi")

similarity_1_2 = cosine_similarity(embedding1, embedding2)
similarity_1_3 = cosine_similarity(embedding1, embedding3)

print(f"İlgili konular benzerliği: {similarity_1_2:.3f}")
print(f"Alakasız konular benzerliği: {similarity_1_3:.3f}")

Nginx ile Ters Proxy ve Yük Dengeleme

Production ortamında LocalAI’yi Nginx arkasına almak isteyeceksiniz:

# /etc/nginx/sites-available/localai
upstream localai_backends {
    # Birden fazla LocalAI instance çalıştırıyorsanız
    server 127.0.0.1:8080 weight=1;
    server 127.0.0.1:8081 weight=1;
    keepalive 32;
}

server {
    listen 443 ssl http2;
    server_name ai.sirketiniz.com;

    ssl_certificate /etc/letsencrypt/live/ai.sirketiniz.com/fullchain.pem;
    ssl_certificate_key /etc/letsencrypt/live/ai.sirketiniz.com/privkey.pem;

    # API anahtarı doğrulaması (basit bir güvenlik katmanı)
    location /v1/ {
        if ($http_authorization = "") {
            return 401 '{"error": "Authorization header required"}';
        }

        proxy_pass http://localai_backends;
        proxy_http_version 1.1;
        proxy_set_header Connection "";
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;

        # Streaming için önemli
        proxy_buffering off;
        proxy_cache off;
        proxy_read_timeout 300s;
        chunked_transfer_encoding on;
    }
}

Performans Tuning

CPU bound çalışıyorsanız thread sayısını optimize etmek önemlidir:

# Sisteminizdeki fiziksel CPU çekirdek sayısını öğrenin
nproc --all

# NUMA node yapısını kontrol edin
numactl --hardware

# LocalAI'yi NUMA farkındalığıyla başlatın
numactl --cpunodebind=0 --membind=0 ./localai 
  --models-path /opt/localai/models 
  --threads $(nproc) 
  --address 0.0.0.0:8080 
  --context-size 2048

# Swap kullanımını izle, model RAM'e sığmıyorsa sorun çıkar
watch -n 1 'free -h && cat /proc/meminfo | grep -E "MemFree|SwapFree"'

Hangi Quantization Seviyesini Seçmeli

Model dosyası boyutu ve kalitesi arasındaki dengeyi kurmanız gerekir:

Q2_K: En küçük boyut (~2.9GB/7B model), belirgin kalite kaybı
Q4_K_M: Dengeli seçim (~4.1GB/7B model), kalite/boyut oranı en iyi
Q5_K_M: Daha iyi kalite (~4.8GB/7B model), Q4’e göre %15 daha büyük
Q8_0: Neredeyse kayıpsız (~7.7GB/7B model), yeterli RAM’iniz varsa tercih edin
F16: Tam hassasiyet (~14GB/7B model), GPU inference için

Genel tavsiye: RAM’iniz yeterliyse Q4_K_M ile başlayın, kalite yetersizse Q5_K_M deneyin.

Sık Karşılaşılan Sorunlar

Model yükleme hatası alıyorsanız:

# Log'ları kontrol et
journalctl -u localai -f

# Model dosyasının bütünlüğünü doğrula
md5sum /opt/localai/models/mistral-7b-instruct-v0.2.Q4_K_M.gguf

# LocalAI'nin modeli tanıyıp tanımadığını test et
curl http://localhost:8080/v1/models

Context uzunluğu hatası alıyorsanız, YAML config dosyasındaki context_size değerini düşürün ya da isteğin max_tokens değerini azaltın.

Yanıt çok yavaşsa:

# CPU kullanımını izle
htop

# LocalAI process'inin kaç thread kullandığını kontrol et
ps aux | grep localai
cat /proc/$(pgrep localai)/status | grep -E "Threads|VmRSS"

Sonuç

LocalAI geçişi göründüğü kadar karmaşık değil. Özetlemek gerekirse, Python’da sadece base_url parametresini eklemek, Node.js’de baseURL eklemek, LangChain’de openai_api_base değiştirmek yeterli. Bunların dışında uygulama koduna dokunan tek şey ortam değişkenleri.

Production’a geçmeden önce önerdiğim test süreci şöyle: Önce geliştirme ortamında LocalAI’yi kurun, model olarak mevcut gpt-3.5-turbo adını kullanacak şekilde Mistral veya benzeri bir modeli yapılandırın. Uygulamanızı bu endpoint’e yönlendirin ve mevcut testlerinizi çalıştırın. Çıktı kalitesi kabul edilebilir düzeydeyse staging’e taşıyın, oradan da production’a geçin.

Maliyet ve mahremiyet avantajlarının yanı sıra, kendi altyapınızda çalışan bir AI servisine sahip olmak operasyonel kontrol açısından da çok değerli. API kotası aşmak yok, rate limit hatası yok, dışarıya giden veri yok. Doğru model seçimi ve yeterli donanımla OpenAI kalitesine yakın sonuçlar almak artık oldukça mümkün.

Mevcut OpenAI Kodunu Değiştirmeden LocalAI’e Geçiş