Deviation Detection und Intent Validation für KI-Agenten

Deviation Detection erkennt, wenn ein Agent von Ziel, Scope oder erlaubtem Handlungspfad abweicht, und stoppt oder eskaliert riskante Aktionen rechtzeitig.

Deviation Detection prüft während der Laufzeit, ob ein Agent noch dem ursprünglich freigegebenen Ziel folgt. Intent Validation ergänzt diese Sicht um die Frage, ob die aktuelle Aktion, Begründung und Tool-Wahl noch zur erlaubten Mission passen.

Woran Abweichungen erkennbar sind

neue Erfolgskriterien tauchen erst spät im Workflow auf
der Agent wechselt plötzlich auf privilegiertere Tools oder Datensätze
Begründung, Aktion und freigegebener Auftrag passen nicht mehr zusammen
externer Kontext wird wie verbindliche Missionslogik behandelt

Was technisch geprüft werden sollte

Zieldefinition, Scope und erlaubte Aktionsklassen pro Run festhalten
Plan, Tool-Calls und Ergebnisse gegen diese Referenz validieren
ungewöhnliche Sprünge in Risiko, Reichweite oder Datenzugriff markieren
bei Abweichungen blockieren, reviewen oder auf Human-in-the-Loop umschalten

Warum das wichtig ist

Nicht jeder Angriff zeigt sich als offensichtlicher Regelverstoss. Oft arbeitet der Agent formal korrekt, aber auf ein inzwischen verschobenes Ziel hin. Genau diese stillen Zielabweichungen soll Deviation Detection sichtbar machen.

Kurz gesagt

Intent Validation und Deviation Detection schaffen eine Laufzeitkontrolle für Missionsintegrität. Sie helfen zu erkennen, wenn ein Agent zwar noch plausibel wirkt, aber nicht mehr im erlaubten Rahmen arbeitet.

Operativer Start

Bei Deviation Detection zählt weniger das einzelne Policy-Dokument als die Frage, wie schnell Teams die Kontrolle im Alltag nachvollziehbar machen. Der praktische Einstieg besteht deshalb darin, einen klaren Schutzpfad gegen Goal Drift und verdeckte Scope-Erweiterung zu definieren und diesen mit einer benachbarten Kontrolle wie Human-in-the-Loop zu verbinden. Erst diese Kombination macht aus einer guten Idee einen belastbaren Betriebsstandard.

Sinnvoll ist ein begrenzter Rollout mit wenigen Agenten, klaren Escalation Paths und einem kleinen Set prüfbarer Regeln. So lässt sich erkennen, ob die Maßnahme nur auf dem Whiteboard funktioniert oder ob sie reale Planänderungen, Tool-Aufrufe, Freigaben und Zwischenfälle tatsächlich beeinflusst. Der schnellste Weg zu mehr Reife ist meist ein enger Feedback-Loop zwischen Produkt, Plattform und Security.

für jeden Agententyp erlaubte Ziele, verbotene Zielwechsel und Eskalationspunkte definieren
Plan- und Tool-Änderungen gegen Nutzerauftrag, Richtlinie und Risikostufe prüfen
auffällige Abweichungen nicht nur loggen, sondern aktiv pausieren oder freigabepflichtig machen
abweichende Läufe regelmäßig mit Produkt und Security gemeinsam nachanalysieren

Woran du Reife erkennst

Reife zeigt sich nicht an möglichst vielen Regeln, sondern daran, dass kritische Aktionen konsistent begrenzt, Ausnahmen sauber dokumentiert und Fehlmuster früh sichtbar werden. Gute Teams beobachten deshalb sowohl technische Signale als auch operative Folgeeffekte wie Freigabequalität, Incident-Häufigkeit oder die Zeit bis zur Eindämmung.

Messbar wird die Kontrolle, wenn dieselben Fragen in Review, Betrieb und Incident Response beantwortbar bleiben: Wann griff die Maßnahme, wann wurde sie umgangen und wo fehlt noch technische Durchsetzung? Genau dort entstehen belastbare Kennzahlen und wiederkehrende Anti-Patterns, die in Backlog und Architekturentscheidungen zurückfließen sollten.

Wichtige Kennzahlen

Anteil erkannter Zielabweichungen vor Ausführung einer High-Impact-Aktion
Zahl von False Positives und False Negatives in Plan- und Scope-Prüfungen
Zeit bis riskante Deviation-Fälle in Regeln, Tests oder Freigabepfade zurückfließen

Häufige Fehlmuster

nur finale Outputs bewerten, aber Zwischenschritte und Planrevisionen ignorieren
den erlaubten Scope nicht maschinenlesbar definieren
Abweichungen erkennen, aber ohne harte Eskalations- oder Stop-Logik arbeiten