Die klassische Antwort ist: “Wir haben stichprobenartig getestet, sieht gut aus.”
Der Pain Point: "Looks good to me" skaliert nicht.
In der POC-Phase mag manuelles Testen noch gehen. Aber im Betrieb mit tausenden Anfragen pro Woche? Niemand hat die Zeit, 5.000 Chat-Verläufe manuell zu lesen und auf Fakten zu prüfen. Wer RAG (Retrieval-Augmented Generation) nur nach Bauchgefühl entwickelt, spielt Vabanque mit der Datenqualität.
Der Deep Dive: Automatisierte Evaluation (LLM-as-a-Judge)
Wir verlassen uns nicht auf Zufall. Wir nutzen Frameworks wie RAGAS oder Arize Phoenix, um unsere Pipelines automatisiert zu bewerten. Das Prinzip: Ein starkes LLM (der "Judge") bewertet den Output des kleineren Produktions-LLMs.
Wir schauen dabei vor allem auf zwei Metriken:
- Faithfulness (Faktentreue)
Hier prüft der Evaluator: "Stammt jede Information in der Antwort wirklich aus den abgerufenen Dokumenten?"
Ist der Score niedrig, halluziniert der Bot Fakten hinzu, die nicht im Kontext standen. Ein absolutes No-Go im Enterprise-Umfeld. - Answer Relevance
Hier prüft der Evaluator: "Beantwortet die Antwort eigentlich die Frage des Nutzers?"
Ein Bot kann faktisch korrekte Dinge sagen, aber vollkommen am Thema vorbeireden. Diese Metrik entlarvt das.
Das Ergebnis: Messbare Qualität
Anstatt zu sagen "Der Bot wirkt heute besser", sagen wir: “Nach dem Update des Chunking-Algorithmus ist unser Faithfulness-Score von 0.78 auf 0.92 gestiegen.” So wird aus KI-Bastelei verlässliches Software-Engineering. Qualität muss messbar sein – sonst ist sie nur Zufall. Wie sichert ihr eure RAG-Systeme ab? Team "Manuelle Stichprobe" oder Team "Auto-Eval"?