KPI-Messung für Agent-Systeme: Welche Metriken wirklich zählen

Wenn wir Unternehmen fragen, wie sie den Erfolg ihrer KI-Automatisierung messen, bekommen wir meist dieselbe Antwort: Token-Kosten, Latenz, Verfügbarkeit. Das sind Betriebskennzahlen — wichtig, aber sie beantworten nicht die entscheidende Frage: Wirkt es?

Ein Agent-System kann 99,9 % Verfügbarkeit haben und trotzdem keinen Mehrwert liefern, wenn die Ergebnisse nicht stimmen. Umgekehrt kann ein System mit gelegentlichen Timeouts erheblichen Geschäftswert schaffen, wenn die Qualität der Antworten stimmt. Der Unterschied liegt in der Messgröße: Output vs. Outcome.

Warum Token-Kosten keine Wirkungskennzahl sind

Token-Kosten sind eine Input-Metrik. Sie sagen, wie viel Sie ausgeben — nicht, was Sie dafür bekommen. Ein Klassifikations-Agent, der 200 Euro im Monat kostet und 80 % der Eingangsmails korrekt vorsortiert, ist wirtschaftlich wertvoller als ein Agent, der 50 Euro kostet und nur 40 % trifft. Die Differenz liegt nicht im Preis, sondern im Outcome.

Typische Output-Metriken, die allein unzureichend sind:

Token-Kosten pro Anfrage — sagt nichts über Ergebnisqualität.
Antwortzeit (Latency) — wichtig für UX, aber keine Wirkungsaussage.
Uptime/Verfügbarkeit — Grundvoraussetzung, kein Erfolgskriterium.
Anzahl verarbeiteter Dokumente — Quantität ohne Qualitätsprüfung.

Fünf Outcome-Metriken, die wirklich etwas sagen

First-Contact-Resolution Rate (FCR)

Wie viele Anliegen werden beim ersten Kontakt vollständig gelöst — ohne menschliche Nachbearbeitung? FCR ist die direkteste Kennzahl für die Autonomie eines Agenten. Ein guter Zielwert liegt bei 70–85 %, je nach Komplexität der Domäne.

Hand-Off-Rate

Wie oft muss der Agent eine Aufgabe an einen Menschen oder einen anderen Agenten übergeben? Eine steigende Hand-Off-Rate signalisiert entweder steigende Komplexität (gut, wenn geplant) oder wachsende Unsicherheit (schlecht, wenn ungeplant).

Approval-Rate

Bei generativen Aufgaben (Text, Zusammenfassungen, Vorschläge): Wie oft wird das Ergebnis ohne Änderung akzeptiert? Die Approval-Rate misst Vertrauen und Qualität zugleich. Unter 60 % Approval-Rate sollte das Prompt-Design überarbeitet werden.

Escalation-Rate

Wie oft eskaliert der Agent bewusst — und wie oft versehentlich? Geplante Eskalationen (Deferral an Experten) sind ein Zeichen von Reife. Ungeplante Eskalationen (Fehler, Timeouts, Auth-Failures) sind ein Risikoindikator.

Business-Impact-Score

Die aggregierte Kennzahl: Zeitersparnis mal Fehlerreduktion mal Durchsatzsteigerung, bezogen auf den manuellen Vorprozess. Diese Metrik ist domänenspezifisch — aber sie ist die einzige, die den ROI in einer einzigen Zahl ausdrückt.

Wie man die Metriken erhebt — ohne Overhead

Die gute Nachricht: Die meisten Datenpunkte fallen ohnehin an. Jeder Agent-Call erzeugt Logs, Metadaten und Ergebnisse. Der Schlüssel liegt nicht in zusätzlicher Instrumentierung, sondern in der richtigen Aggregation:

FCR und Hand-Off: Automatisch aus dem Agent-Routing-Log ableitbar.
Approval-Rate: Aus Workflow-Engine-Statusänderungen (approved/rejected/revised).
Escalation-Rate: Aus Error- und Deferral-Logs.
Business-Impact: Quartalsweise aus Prozess-KPIs (Durchlaufzeit, Fehlerquote, Kosten pro Vorgang).

Der Aufwand für die Ersterhebung liegt bei ein bis zwei Tagen Implementierung. Danach läuft die Messung kontinuierlich — und das ist genau der Punkt, an dem Reflect. ansetzt.

Was sich ändert, wenn Sie Outcome messen

Unternehmen, die von Output- auf Outcome-Metriken wechseln, stellen typischerweise drei Dinge fest: Erstens sinkt die Anzahl der beobachteten Probleme zunächst — weil plötzlich klar wird, was überhaupt ein Problem ist. Zweitens steigen die Automatisierungsraten — weil Optimierung gezielt auf die Engpässe wirkt, die tatsächlich Ergebnisqualität beeinträchtigen. Drittens ändert sich das Gespräch: Von „Die KI kostet X“ zu „Die KI bringt Y“.

Wirkt es? Wie wird es besser? — Wer nur misst, was die KI kostet, wird die Antwort nie finden. Outcome-Metriken sind der Kompass für den Reflect-Zyklus.