Best Practice
Deviation Detection und Intent Validation für KI-Agenten
Deviation Detection erkennt, wenn ein Agent von Ziel, Scope oder erlaubtem Handlungspfad abweicht, und stoppt oder eskaliert riskante Aktionen rechtzeitig.
Deviation Detection prüft während der Laufzeit, ob ein Agent noch dem ursprünglich freigegebenen Ziel folgt. Intent Validation ergänzt diese Sicht um die Frage, ob die aktuelle Aktion, Begründung und Tool-Wahl noch zur erlaubten Mission passen.
Woran Abweichungen erkennbar sind
- neue Erfolgskriterien tauchen erst spät im Workflow auf
- der Agent wechselt plötzlich auf privilegiertere Tools oder Datensätze
- Begründung, Aktion und freigegebener Auftrag passen nicht mehr zusammen
- externer Kontext wird wie verbindliche Missionslogik behandelt
Was technisch geprüft werden sollte
- Zieldefinition, Scope und erlaubte Aktionsklassen pro Run festhalten
- Plan, Tool-Calls und Ergebnisse gegen diese Referenz validieren
- ungewöhnliche Sprünge in Risiko, Reichweite oder Datenzugriff markieren
- bei Abweichungen blockieren, reviewen oder auf Human-in-the-Loop umschalten
Warum das wichtig ist
Nicht jeder Angriff zeigt sich als offensichtlicher Regelverstoss. Oft arbeitet der Agent formal korrekt, aber auf ein inzwischen verschobenes Ziel hin. Genau diese stillen Zielabweichungen soll Deviation Detection sichtbar machen.
Kurz gesagt
Intent Validation und Deviation Detection schaffen eine Laufzeitkontrolle für Missionsintegrität. Sie helfen zu erkennen, wenn ein Agent zwar noch plausibel wirkt, aber nicht mehr im erlaubten Rahmen arbeitet.
Operativer Start
Bei Deviation Detection zählt weniger das einzelne Policy-Dokument als die Frage, wie schnell Teams die Kontrolle im Alltag nachvollziehbar machen. Der praktische Einstieg besteht deshalb darin, einen klaren Schutzpfad gegen Goal Drift und verdeckte Scope-Erweiterung zu definieren und diesen mit einer benachbarten Kontrolle wie Human-in-the-Loop zu verbinden. Erst diese Kombination macht aus einer guten Idee einen belastbaren Betriebsstandard.
Sinnvoll ist ein begrenzter Rollout mit wenigen Agenten, klaren Escalation Paths und einem kleinen Set prüfbarer Regeln. So lässt sich erkennen, ob die Maßnahme nur auf dem Whiteboard funktioniert oder ob sie reale Planänderungen, Tool-Aufrufe, Freigaben und Zwischenfälle tatsächlich beeinflusst. Der schnellste Weg zu mehr Reife ist meist ein enger Feedback-Loop zwischen Produkt, Plattform und Security.
- für jeden Agententyp erlaubte Ziele, verbotene Zielwechsel und Eskalationspunkte definieren
- Plan- und Tool-Änderungen gegen Nutzerauftrag, Richtlinie und Risikostufe prüfen
- auffällige Abweichungen nicht nur loggen, sondern aktiv pausieren oder freigabepflichtig machen
- abweichende Läufe regelmäßig mit Produkt und Security gemeinsam nachanalysieren
Woran du Reife erkennst
Reife zeigt sich nicht an möglichst vielen Regeln, sondern daran, dass kritische Aktionen konsistent begrenzt, Ausnahmen sauber dokumentiert und Fehlmuster früh sichtbar werden. Gute Teams beobachten deshalb sowohl technische Signale als auch operative Folgeeffekte wie Freigabequalität, Incident-Häufigkeit oder die Zeit bis zur Eindämmung.
Messbar wird die Kontrolle, wenn dieselben Fragen in Review, Betrieb und Incident Response beantwortbar bleiben: Wann griff die Maßnahme, wann wurde sie umgangen und wo fehlt noch technische Durchsetzung? Genau dort entstehen belastbare Kennzahlen und wiederkehrende Anti-Patterns, die in Backlog und Architekturentscheidungen zurückfließen sollten.
Wichtige Kennzahlen
- Anteil erkannter Zielabweichungen vor Ausführung einer High-Impact-Aktion
- Zahl von False Positives und False Negatives in Plan- und Scope-Prüfungen
- Zeit bis riskante Deviation-Fälle in Regeln, Tests oder Freigabepfade zurückfließen
Häufige Fehlmuster
- nur finale Outputs bewerten, aber Zwischenschritte und Planrevisionen ignorieren
- den erlaubten Scope nicht maschinenlesbar definieren
- Abweichungen erkennen, aber ohne harte Eskalations- oder Stop-Logik arbeiten