Evaluation / Evals
TL;DR
Systematisches Messen und Bewerten der KI-Qualität.
Was bedeutet das?
Evals sind Tests und Metriken, mit denen die Qualität von KI-Outputs gemessen wird. Sie helfen zu erkennen, ob ein System zuverlässig arbeitet und wo Schwächen liegen.
So funktioniert es
Man definiert Testfälle mit erwarteten Ergebnissen und lässt die KI diese bearbeiten. Automatische und manuelle Bewertungen zeigen, wie korrekt und hilfreich die Antworten sind.
Beispiel
100 typische Kundenanfragen als Testset definieren. Der KI-Agent beantwortet sie, und die Ergebnisse werden auf Korrektheit, Tonalität und Vollständigkeit geprüft.
Warum es wichtig ist
Ohne Evals fliegt man blind. Systematische Evaluation ist die Grundlage für kontinuierliche Verbesserung und Vertrauen in KI-Systeme.
Verwandte Begriffe