← Zurück zum Blog
Security
Security2026-06-29· von Mag. (FH) Franz Senn
Agentjacking: Wenn die Fehlermeldung den KI-Agenten kapert
Coding-Agenten sind im Alltag angekommen — und mit ihnen eine neue Angriffsklasse. Agentjacking nutzt nicht eine Lücke im Modell, sondern das Vertrauen des Agenten in seine Werkzeuge.
Wie der Angriff funktioniert
- Vertrauen als Einfallstor: KI-Coding-Agenten wie Claude Code oder Cursor lesen routinemäßig Tool-Ausgaben — etwa Fehlerberichte aus einem Error-Tracking-Dienst wie Sentry.
- Schadbefehl im Datenstrom: Ein Angreifer platziert in genau diesen Ausgaben verdeckte Anweisungen. Der Agent kann Daten und Befehl nicht sauber trennen und führt sie mit aus.
- Die Folge: Der Agent tut Dinge, die niemand beauftragt hat — Code ändern, Secrets auslesen, Befehle ausführen. Klassische Prompt-Injection, nur über einen Kanal, dem man bisher vertraut hat.
Was wirklich hilft
- Least Privilege: Der Agent läuft mit minimalen Rechten, ohne breiten Zugriff auf Secrets, Produktion oder das offene Internet.
- Mensch in der Schleife: Schreibende oder ausführende Aktionen werden bestätigt, nicht blind automatisiert.
- Sandbox & Egress-Kontrolle: Ausführung gekapselt, ausgehende Verbindungen eingeschränkt — exfiltrierte Daten kommen so nicht weit.
- Quellen misstrauen: Tool-Ausgaben sind Daten, keine Anweisungen. Wer das im Agenten-Design verankert, nimmt der Angriffsklasse die Grundlage.
Unsere Sicht
Agentic Coding ist gekommen, um zu bleiben — und damit auch diese Angriffsklasse. Die Lehre ist nicht "keine Agenten", sondern dieselbe wie immer in der IT-Sicherheit: Vertrauen explizit machen, Rechte klein halten, ausführende Schritte absichern. Wer Agenten so betreibt, nutzt ihre Stärke, ohne die offene Flanke zu öffnen.