La ricerca pubblicata da LayerX Security evidenzia una nuova classe di rischio legata all’agente AI Claude Code di Anthropic.
Il problema non risiede in una vulnerabilità software tradizionale, ma nella possibilità di manipolare il contesto operativo dell’agente attraverso file considerati affidabili.
In particolare, elementi come il file “Claude.md” possono essere utilizzati per introdurre istruzioni malevole persistenti che l’intelligenza artificiale interpreta come legittime.
Il file Claude.md, lo ricordiamo, si trova nel repository del codice e funge da prompt di sistema all’interno di un progetto, definendo comportamento, stile di risposta, vincoli e informazioni.
A differenza di un Readme.md, che è pensato per gli sviluppatori umani, Claude.md è progettato per guidare l’AI nelle interazioni con codice, dati e documentazione.
“Anthropic si fida intrinsecamente degli sviluppatori che utilizzano Claude Code, e a buon ragione”, spiega Roy Paz, ricercatore di sicurezza senior di LayerX, “la stragrande maggioranza di loro fa esattamente ciò che dovrebbe fare. Ma questa fiducia può essere sfruttata, e un malintenzionato con una buona conoscenza di Claude Code può convincerla a compiere azioni che altrimenti verrebbero rifiutate incondizionatamente”.
Pertanto, alla base del problema riscontrato da LayerX vi sarebbe un modello di fiducia non adeguatamente controllato.
L’agente assume che i file presenti nel progetto siano affidabili e che le istruzioni in essi contenute riflettano intenzioni legittime. Questa assunzione crea un punto di ingresso ideale per un attaccante.
Poiché Claude.md rappresenta un elemento di fiducia sistemico, se compromesso, potrebbe consentire di influenzare direttamente le decisioni dell’agente senza bisogno di sfruttare alcuna vulnerabilità tradizionale.
I ricercatori hanno dimostrato che inserendo poche righe di testo sul file Claude.md, è stato possibile ridefinire implicitamente il comportamento dell’AI.
L’intelligenza artificiale interpreta tali istruzioni come legittime e coerenti con il contesto percepito, modificando di conseguenza le proprie azioni senza rilevare anomalie.

In pratica le istruzioni inserite nel contesto inducono l’AI a credere di operare in uno scenario autorizzato, come un penetration test o un’attività di sicurezza legittima.
In questo modo, le guardrail vengono aggirate non tramite una vulnerabilità tecnica, ma attraverso una reinterpretazione delle intenzioni.
“È estremamente facile aggirare le barriere di sicurezza di Claude”, continua Roy Paz, “Nella nostra ricerca, abbiamo aggirato queste misure di sicurezza e convinto Claude Code ad automatizzare un attacco completo contro la nostra app di test. È bastata una modifica al file Claude.md”.
Vibe Hacking: Claude Code Turned CLAUDE.md into a nation-state-level offensive hacking tool
Una volta alterato il contesto, Claude Code è stato osservato eseguire attività tipiche di un attaccante. Tra queste figurano SQL injection automatizzate, interrogazioni malevole verso database ed esfiltrazioni con raccolta di credenziali sensibili.
L’aspetto più rilevante di queste osservazioni è che le azioni vengono condotte in autonomia, senza necessità di intervento continuo da parte dell’utente.
Si assiste, quindi, a una trasformazione dell’agente da strumento di assistenza a esecutore attivo di una catena di attacco completa.
Un ulteriore elemento critico individuato dall’analisi di LayerX riguarderebbe anche la possibilità di propagazione su larga scala. Inserendo istruzioni malevole all’interno di repository condivisi, un attaccante potrebbe colpire indirettamente un numero elevato di utenti.
Chiunque utilizzi il relativo progetto eredita il contesto compromesso e, di conseguenza, il comportamento alterato dell’agente AI.
Questo introduce una nuova forma di attacco alla supply chain, nella quale il vettore non è più il codice eseguibile ma il contesto interpretativo dell’intelligenza artificiale, con un potenziale impatto su migliaia di ambienti di sviluppo.
Alla luce di queste evidenze, emergono alcune indicazioni operative. Innanzitutto, sarebbe necessario trattare i file di contesto come elementi sensibili, sottoponendoli a controlli di integrità e revisione sistematica.
Sarebbe inoltre fondamentale introdurre meccanismi di auditing che permettano di tracciare le decisioni e le azioni dell’intelligenza artificiale.
Infine, diventa cruciale sviluppare modelli di validazione del contesto in grado di distinguere tra istruzioni legittime e manipolazioni potenzialmente malevole, integrando nuove strategie difensive specifiche per i sistemi agentici. Il team di LayerX ha informato Anthropic di questi problemi.
Nell’attesa di ricevere un feedback costruttivo invita tutti gli sviluppatori che utilizzano il codice Claude a prestare le dovute accortezze.