Agentjacking: Wenn die Fehlermeldung den KI-Agenten kapert

Coding-Agenten sind im Alltag angekommen — und mit ihnen eine neue Angriffsklasse. Agentjacking nutzt nicht eine Lücke im Modell, sondern das Vertrauen des Agenten in seine Werkzeuge.

Wie der Angriff funktioniert

Vertrauen als Einfallstor: KI-Coding-Agenten wie Claude Code oder Cursor lesen routinemäßig Tool-Ausgaben — etwa Fehlerberichte aus einem Error-Tracking-Dienst wie Sentry.
Schadbefehl im Datenstrom: Ein Angreifer platziert in genau diesen Ausgaben verdeckte Anweisungen. Der Agent kann Daten und Befehl nicht sauber trennen und führt sie mit aus.
Die Folge: Der Agent tut Dinge, die niemand beauftragt hat — Code ändern, Secrets auslesen, Befehle ausführen. Klassische Prompt-Injection, nur über einen Kanal, dem man bisher vertraut hat.

Was wirklich hilft

Least Privilege: Der Agent läuft mit minimalen Rechten, ohne breiten Zugriff auf Secrets, Produktion oder das offene Internet.
Mensch in der Schleife: Schreibende oder ausführende Aktionen werden bestätigt, nicht blind automatisiert.
Sandbox & Egress-Kontrolle: Ausführung gekapselt, ausgehende Verbindungen eingeschränkt — exfiltrierte Daten kommen so nicht weit.
Quellen misstrauen: Tool-Ausgaben sind Daten, keine Anweisungen. Wer das im Agenten-Design verankert, nimmt der Angriffsklasse die Grundlage.

Unsere Sicht

Agentic Coding ist gekommen, um zu bleiben — und damit auch diese Angriffsklasse. Die Lehre ist nicht "keine Agenten", sondern dieselbe wie immer in der IT-Sicherheit: Vertrauen explizit machen, Rechte klein halten, ausführende Schritte absichern. Wer Agenten so betreibt, nutzt ihre Stärke, ohne die offene Flanke zu öffnen.