KI-InfrastrukturAutomatisierungKI im Mittelstand

KI-Outputs im Betrieb: Wie wir Qualität sichern

· 3 min Lesen

Qualitätssicherung für KI-Outputs ist das Problem, über das niemand spricht wenn er KI-Systeme verkauft — und das erste, womit wir uns nach dem Go-Live beschäftigt haben.

Ein System das im Oktober gut funktioniert, kann im Januar andere Outputs produzieren, ohne dass wir etwas geändert haben. Nicht dramatisch schlechter, nur leicht anders. Oft fällt es erst auf wenn ein Fehler bereits durch ist.

Wie Qualitätsprobleme entstehen

Es gibt drei Quellen für schleichende Qualitätsdrift bei KI-Outputs.

Modellupdates. Wenn ein Anbieter sein Modell aktualisiert, verändert sich manchmal das Verhalten für bestimmte Input-Typen. Wir hatten 2024 einen konkreten Fall: Ein System das Kundenfeedback kategorisiert hatte, verschob seine Verteilung. Früher landeten etwa 15 % der Eingaben in der Kategorie "neutral", danach 28 %. Kein Fehler, keine Fehlermeldung — veränderte Kalibrierung.

Prompt-Kontextdrift. Die Welt ändert sich. Ein Prompt der 2023 geschrieben wurde, enthält Annahmen über den Kontext, die heute nicht mehr stimmen. Das betrifft vor allem Systeme die mit aktuellen Daten arbeiten: Marktsituationen, Produktbeschreibungen, Wettbewerb.

Datendrift. Wenn die Input-Daten anders aussehen als beim ersten Testen, produziert ein System zuverlässig Outputs — aber für eine Frage, die sich inzwischen verändert hat.

Was wir messen und wie

Für unsere 40+ Systeme haben wir drei Schichten eingeführt.

Formale Prüfung. Jeder Output wird automatisch auf Format, Länge und Grundstruktur geprüft. Das klingt trivial, fängt aber einen großen Teil der offensichtlichen Probleme. Ein Klassifikationssystem das plötzlich leere Strings zurückgibt, oder eine Zusammenfassung die zehnmal länger ist als erwartet: das fällt sofort auf, bevor ein Mensch hinschaut.

Stichprobenprüfung. Für Systeme mit weniger als 200 Outputs pro Woche prüfen wir 10 % manuell. Bei 150 Outputs pro Woche kostet das etwa 30 Minuten, wenn man weiß was man sucht. Das Entscheidende: Man sucht nicht nach einzelnen Fehlern, sondern nach Verschiebungen. Ändert sich die Kategorisierungsverteilung? Wird die Tonalität anders?

Goldene Testfälle. Wir haben für 18 unserer Systeme feste Testfälle: 10 bis 20 Inputs mit bekanntem, validiertem Output. Diese laufen einmal pro Monat automatisch durch. Wenn ein System auf einen Goldfall-Input anders antwortet als erwartet, ist das ein Signal — kein Alarm, aber ein Anlass zur Prüfung.

Ab wann manuelle Prüfung nicht mehr reicht

Bei Systemen mit 500 oder mehr Outputs täglich ist manuelle Stichprobenprüfung kein realistisches Instrument mehr. Dort setzen wir automatisiertes Flagging ein: Outputs die außerhalb statistischer Normwerte liegen, werden markiert. Ein Mensch entscheidet dann ob der Ausreißer ein Problem ist oder ein legitimer Randfall.

Der Aufwand liegt in der initialen Kalibrierung: Was ist ein normaler Output-Wert für dieses System? Sobald das steht, läuft die Überwachung passiv.

Was uns das konkret erspart hat: Im März 2025 hat unser Flagging-System einen ungewöhnlichen Anstieg in bestimmten Output-Kategorien markiert. Die manuelle Prüfung zeigte: ein Prompt-Satz der nachträglich ergänzt worden war, kollidierte mit einem Modellupdate. Ohne automatisiertes Flagging wären die veränderten Outputs geschätzt drei Wochen unbemerkt geblieben.

Wer das im Alltag macht

Qualitätssicherung für KI-Outputs ist keine technische Einrichtungsaufgabe. Sie ist eine laufende Betriebsaufgabe die jemand besitzen muss.

Bei uns ist das der Systemeigentümer: jede Person die ein System verantwortet, prüft monatlich drei Dinge — die Goldfall-Ergebnisse, die Stichprobe, die Nutzungsstatistik. Pro System kostet das etwa 45 Minuten. Wer das nicht einplant, bemerkt Qualitätsprobleme erst wenn Kunden sie melden.

KI-Systeme sind keine Maschinen die man einschaltet und die dann laufen. Ein System das sechs Monate ohne Prüfung betrieben wurde, ist kein betreutes System — es ist ein unkontrolliertes Risiko.

Verwandte Notizen

Mehr zum Thema: KI-Automatisierung

← Alle NotizenSchreib mir →