AI sistemlerini güvenilir şekilde dağıtın: altyapı kalıpları, maliyet kontrolü ve operasyonel kılavuzlar.
11 dakika okumaYeni modeli 72 saat boyunca eskisiyle birlikte çalıştırın. Tam geçişten önce çıktıları, gecikmeyi ve hata oranlarını karşılaştırın. Gölge başlamadan önce geri alma planı mevcut olmalıdır.
Kullanıcı başına token sınırı ayarlayın. Aylık LLM bütçesinin %80'inde uyarı verin. Token sayımını API çağrısından önce uygulayın — sonra değil. Türkçe için: ortalama İngilizce'den 1.4× daha fazla token.
Anlamsal önbellek (Redis + vektör benzerliği), SSS tarzı iş yüklerinde %40-60 isabet oranı sağlar. API düzeyinde değil, prompt düzeyinde önbelleğe alın. TTL: olgusal için 24 saat, dinamik için 1 saat.
Araçlayın: giriş/çıkış günlüğü, token kullanımı, gecikme P50/P95/P99, hata oranı, model sürümü. Yapılandırılmış günlükler (JSON) kullanın — sorgulanabilirler. Basefyio analitik tablosunda saklayın.
Olaylar olmadan önce kılavuzu yazın. Kapsamı: yüksek hata oranı, maliyet artışı, gecikme bozulması, güvenlik ihlali. Her birinin <5 dakika tespit-azaltma SLA'sı olmalıdır.