Türkçe belgeler için üretim kalitesinde Retrieval-Augmented Generation hattı oluşturun.
15 dakika okuma512 token ve %10 örtüşme ile özyinelemeli karakter bölme kullanın. Türkçe için: cümle ortasında bölmekten kaçının — dil, parça sınırlarına yayılan uzun bileşik kelimeler içerir.
Türkçe için: multilingual-e5-large, Türkçe alma benchmark'larında text-embedding-3-small'ı geride bırakır. Maliyet kontrolü için Sentence-Transformers aracılığıyla kendi sunucunuzda barındırın.
Basefyio (Basefyio) örneğinizde pgvector kullanın — ek altyapı yok. 1M vektörde <50ms alma için HNSW dizinini etkinleştirin.
CREATE INDEX ON embeddings USING hnsw (embedding vector_cosine_ops) WITH (m = 16, ef_construction = 64);
Yoğun (vektör) ve seyrek (BM25/tsvector) almayı birleştirin. Türkçe için "turkish" sözlüğüyle FTS, morfolojik varyantları yönetir — büyümek, büyüme, büyüdü vb. ile eşleşir.
Çapraz kodlayıcı yeniden sıralama (bge-reranker-v2-m3), en alakalı parçaları öne çıkararak halüsinasyonu azaltır. İlk 20'de yeniden sıralama çalıştırın, LLM'e ilk 5'i geçin.