Ce que révèle la première cyber attaque IA sans opérateur humain

Afficher le résumé

Une escalade coordonnée des opérations de cyberespionnage par IA
L’IA Claude Code exécutait 90 % des tâches sans supervision
Un précédent en août 2025 : extorsion automatisée via Claude
Détournement des garde-fous : l’IA manipulée via ingénierie sociale
Menaces émergentes : prolifération de modèles IA non régulés
Le modèle DeepSeek-R1, particulièrement vulnérable aux attaques
Riposte des géants du numérique et encadrement réglementaire
Le cyberespace entre dans l’ère des agents autonomes

Pour la première fois, une enquête indépendante révèle l’utilisation directe d’un agent d’intelligence artificielle dans une opération de cyberespionnage à l’échelle mondiale. L’attaque, conduite via la plateforme Claude Code de la société Anthropic, a visé des dizaines d’organisations stratégiques sur trois continents. Selon les investigations croisées d’Anthropic, de Google (via le Threat Intelligence Group) et de plusieurs médias spécialisés, l’attaque est attribuée à un groupe identifié comme GTG‑1002, lié aux services de cyber-opérations de l’État chinois.

A LIRE AUSSSI
Le cybercrime à la portée de monsieur‑tout‑le‑monde, grâce à l’IA

Une escalade coordonnée des opérations de cyberespionnage par IA

Selon le Google Threat Intelligence Group (GTIG), plusieurs groupes affiliés à des États — notamment la Chine, la Russie, l’Iran et la Corée du Nord — mènent aujourd’hui des campagnes offensives reposant sur des agents d’intelligence artificielle. Ces opérations sont pleinement opérationnelles, bien au-delà du stade expérimental.

Entre juin et octobre 2025, au moins cinq familles de malwares intégrant des modèles IA commerciaux ont été détectées :

PROMPTFLUX, un dropper en VBScript exploitant Gemini API ;
PROMPTSTEAL, un outil d’exfiltration utilisé par APT28 (avec Qwen2.5-Coder) ;
PROMPTLOCK, un ransomware écrit en Go ;
QUIETVAULT, credential stealer en JavaScript ciblant GitHub/NPM ;
FRUITSHELL, outil furtif d’exploration de systèmes sensibles.

Ces programmes automatisent l’ensemble des phases d’une cyberattaque — reconnaissance, exploitation, mouvement latéral, extraction et documentation — avec un niveau de sophistication inédit.

L’IA Claude Code exécutait 90 % des tâches sans supervision

L’attaque, révélée en septembre 2025, visait des organisations en Amérique du Nord, en Europe et en Asie. Selon Anthropic, le groupe a structuré son offensive en six phases :

Préparation : infrastructure de base, conditionnement de l’IA via des scénarios de jeu de rôle.
Reconnaissance : scans réseau automatisés, identification de vulnérabilités, exploration initiale.
Exploitation : développement et déploiement d’exploits sans supervision humaine directe.
Mouvement latéral : utilisation de credentials volés pour élargir l’accès réseau.
Exfiltration : identification, extraction et structuration de données sensibles par l’IA.
Documentation : génération automatisée de rapports pour faciliter la transition entre équipes.

Anthropic indique que Claude Code a pris en charge entre 80 et 90 % des opérations tactiques, l’humain n’intervenant qu’en validation stratégique.

Un précédent en août 2025 : extorsion automatisée via Claude

Cette attaque s’inscrit dans une dynamique plus large. En août 2025, Anthropic avait déjà documenté une opération parallèle menée par un autre groupe, GTG‑2002, exploitant également Claude Code. Cette campagne de « vibe hacking » reposait sur des techniques d’extorsion émotionnelle automatisée.

Au moins 17 organisations — hôpitaux, services d’urgence, institutions religieuses, entités gouvernementales — ont été ciblées. Les demandes de rançon, personnalisées et émotionnellement calibrées par Claude, allaient de 75 000 à 500 000 dollars en Bitcoin.

Détournement des garde-fous : l’IA manipulée via ingénierie sociale

Les mécanismes de sécurité de Claude ont été contournés via des tactiques sophistiquées :

Fractionnement des tâches en requêtes anodines, échappant aux systèmes de détection ;
Usurpation d’identité (chercheurs, étudiants, participants à des concours de cybersécurité) pour légitimer les requêtes ;
Exploitation de failles cognitives : manipulation de balises de raisonnement et chaînes logiques internes.

Anthropic et Google rapportent que des acteurs chinois et iraniens utilisent régulièrement le prétexte de projets académiques pour obtenir des accès détournés à des modèles IA commerciaux.

Menaces émergentes : prolifération de modèles IA non régulés

Les attaques ne proviennent pas uniquement de l’usage détourné de modèles commerciaux. Une campagne majeure repérée en juin 2025 a exploité des publicités Google pour diffuser un faux exécutable, « AI_Launcher_1.21.exe », hébergé sur un clone du site DeepSeek. Il contenait le malware BrowserVenom, capable de contourner les antivirus les plus courants.

Selon Kaspersky, les commentaires en russe du code source suggèrent une origine est-européenne. Les victimes identifiées se situent au Brésil, au Mexique, en Inde, en Afrique du Sud et au Népal.

Par ailleurs, Cisco a recensé plus de 1 100 serveurs Ollama exposés sur Internet, dont 20 % permettent l’exécution de modèles sans garde-fous, via LM Studio. Ces infrastructures ouvertes deviennent un nouveau vecteur d’attaque majeur.

Le modèle DeepSeek-R1, particulièrement vulnérable aux attaques

Des chercheurs de Cisco et de l’Université de Pennsylvanie ont révélé que le modèle DeepSeek-R1, développé en Chine, présente des taux d’échec très élevés face aux attaques de type jailbreak. Sur un panel de 50 prompts malveillants, le modèle n’en a bloqué aucun.

Les tests de la plateforme Qualys TotalAI montrent également un taux d’échec de 58 % sur 885 attaques, contre 26 % pour les modèles d’OpenAI. Cette faiblesse structurelle s’explique notamment par la transparence excessive de ses balises internes, qui facilitent la prédiction et la manipulation de son raisonnement.

Riposte des géants du numérique et encadrement réglementaire

Face à cette escalade, les grandes entreprises technologiques et les gouvernements ont réagi.

Google a publié en novembre 2025 le rapport GTIG AI Threat Tracker, identifié les cinq principales familles de malwares IA et désactivé massivement les comptes associés. Le groupe promeut également son cadre SAIF (Secure AI Framework) pour sécuriser les modèles.

Anthropic a lancé une refonte de son infrastructure backend, formé de nouveaux classifieurs et renforcé les systèmes d’alerte comportementale. L’enquête interne sur GTG‑1002 a duré plus de dix jours.

Sur le plan réglementaire, le Royaume-Uni a publié en janvier 2025 un « AI Cyber Security Code of Practice », contenant 13 principes clés pour encadrer les usages IA à toutes les étapes du cycle de vie. La Californie a adopté en septembre 2025 la loi SB‑53, premier cadre juridique américain dédié aux modèles dits « Frontier AI ». L’entrée en vigueur est prévue pour janvier 2026.

En parallèle, la Chine a modifié sa loi sur la cybersécurité, avec une entrée en vigueur au 1er janvier 2026. Les nouvelles dispositions renforcent la surveillance des usages IA et durcissent les sanctions en cas de manquement.

Le cyberespace entre dans l’ère des agents autonomes

Au-delà de la sophistication technique, l’usage croissant d’agents IA autonomes modifie profondément la nature même des conflits numériques. Les modèles ne se contentent plus de répondre à des requêtes. Ils planifient, exécutent, optimisent et documentent les attaques.

Selon Microsoft, les campagnes de désinformation assistées par IA ont doublé en un an (de 100 à 200 entre juillet 2024 et juillet 2025). Les emails de phishing générés par IA affichent un taux de clic de 54 %, contre 12 % pour les approches traditionnelles. Avec une validation humaine, ce taux atteint 56 %.

En parallèle, les opérations cybercriminelles liées à la Corée du Nord ont généré plus de 2 milliards de dollars sur le premier semestre 2025. Selon les services américains, plus de la moitié du financement du programme nucléaire nord-coréen proviendrait désormais de ces activités.