Rehberler / Değerlendirme

AI Sistemlerini Değerlendirme

Dağıtımdan önce ve sonra AI kalitesi, güvenilirliği ve güvenliğini ölçmek için sistematik bir yaklaşım.

10 dakika okuma

Önce metriklerinizi tanımlayın

Değerlendirme çalıştırmadan önce: "iyi"nin nasıl göründüğünü yazın. Türkçe NLP için: tam eşleşme, ROUGE-L, BERTScore-Turkish ve insan tercih derecelendirmeleri.

Altın veri seti oluşturun

Uç vakaları kapsayan 200-500 insan doğrulamalı örnek. Üç ayda bir yenileyin. Eval'de train verisini asla yeniden kullanmayın — kontaminasyon skorları %10-20 şişirir.

Otomatik vs. insan değerlendirmesi

Otomatikleştirin: doğruluk, format uyumu, gecikme, maliyet. İnsanlaştırın: ton, kültürel uygunluk, Türkçe doğallık. Çıktıların %10'unda aylık insan değerlendirmesi çalıştırın.

Regresyon testi

Her prompt değişikliği, model güncellemesi veya bağımlılık artışı değerlendirme paketini tetikler. <%2 doğruluk gerileme ve <20ms P95 gecikme artışında dağıtımı kilitleyin.

Güvenlik için değerlendirme

Şunlar için test edin: prompt enjeksiyonu, jailbreak'ler, PII sızıntısı, Türkçe nefret söylemi üretimi. Düşmanca örnekler kullanın. Büyük sürümlerden önce aylık kırmızı takım çalıştırın.