Security
14 min read
1197 views

Injection de sosies de PDG : vaincre la vérification vidéo "en direct"

IT
InstaTunnel Team
Published by our engineering team
Injection de sosies de PDG : vaincre la vérification vidéo "en direct"

La fin du “Je le croirai quand je le verrai”

Pendant des décennies, l’appel vidéo en direct était la référence en matière de confiance numérique. Si un PDG se connectait à un appel Zoom, faisait un signe de la main, et autorisait un virement, la transaction était considérée comme vérifiée. Cette époque est révolue.

À l’aube de 2026, une méthode d’attaque sophistiquée appelée Injection de sosies de PDG a rendu la vérification vidéo traditionnelle dangereusement obsolète. Les attaquants ne se contentent plus de vidéos deepfake préenregistrées ou de masques statiques. Ils utilisent désormais des réseaux antagonistes génératifs (GAN) en temps réel, à faible latence, pour détourner les flux caméra en direct, “injectant” ainsi une persona synthétique dans une session de vérification sécurisée.

Dans cet article, nous analysons le fonctionnement de ces attaques, le cas emblématique d’Arup, l’incident de Singapour en mars 2025, l’explosion de la fraude vocale en temps réel, et explorons les technologies de détection d’Injection d’Attaque qui deviennent la ligne de défense essentielle contre un visage qui ressemble, bouge et parle comme votre patron.


Les chiffres ne mentent pas

Avant d’entrer dans le détail technique, l’ampleur du problème mérite une attention particulière.

Les pertes financières dues à la fraude alimentée par deepfake ont dépassé 200 millions de dollars au premier trimestre 2025 — et ce chiffre ne couvre que les cas signalés. Les incidents liés aux deepfakes ont atteint 580 au premier semestre 2025, soit près de quatre fois le total de 2024. Deloitte prévoit que la fraude assistée par IA passera de 12,3 milliards de dollars en 2024 à 40 milliards d’ici 2027, avec un taux de croissance annuel composé de 32%. La fraude par CEO cible désormais au moins 400 entreprises par jour via des médias synthétiques, et une étude iProov de 2025 indique que seulement 0,1 % des participants ont correctement identifié tous les médias faux et réels lors des tests. Statistiquement, nous sommes presque aveugles.

Le seuil pour créer ces attaques s’est également effondré. Les outils d’IA modernes peuvent cloner une voix en seulement 3 à 5 secondes d’audio clair. Des deepfakes vidéo suffisamment convaincants pour tromper des employés peuvent être générés avec des logiciels open-source disponibles gratuitement, tournant sur un GPU grand public haut de gamme. Ce n’est plus réservé aux États-nations.


L’évolution : des attaques de présentation à l’injection numérique

Pour comprendre la menace, il faut distinguer deux méthodes principales de fraude biométrique qui ont évolué parallèlement ces cinq dernières années.

Attaques de présentation (L’ancienne méthode) impliquaient de présenter une photo haute résolution, une vidéo sur une tablette, ou de porter un masque en silicone 3D devant une webcam. Les systèmes de sécurité y répondaient par la “Détection de vivacité” — demander aux utilisateurs de cligner des yeux, sourire ou tourner la tête. Les capteurs de profondeur et l’analyse de texture pouvaient repérer le reflet sur un écran ou l’absence de texture naturelle de la peau sur un masque en silicone.

Attaques par injection numérique (La nouvelle méthode) évitent complètement l’objectif physique de la caméra. L’attaquant ne se tient pas devant une webcam. À la place, il utilise un logiciel de Virtual Camera ou un malware pour injecter un flux vidéo numérique synthétique directement dans l’application — Zoom, Microsoft Teams, ou une application de vérification KYC. Comme les données entrent numériquement, il n’y a pas de reflet d’écran, pas de dégradation de résolution, ni d’artefacts révélateurs d’une présentation physique. Pour le logiciel de vérification, le flux ressemble à une transmission haute définition, provenant d’une webcam haut de gamme. Le visage à l’autre bout n’est qu’un autre, rendu en temps réel.


Études de cas : les alertes à plusieurs millions de dollars

L’incident Arup — 25,6 millions de dollars lors d’un appel “Tous-ensemble” fake

L’escroquerie de la société d’ingénierie Arup, révélée début 2024, reste l’étude de cas emblématique de l’Injection de sosies à grande échelle. Un employé financier à Hong Kong reçoit un message semblant venir du CFO de l’entreprise concernant une transaction confidentielle. Suspicious, il demande un appel vidéo pour vérifier.

Lors de cet appel, il voit non seulement le CFO, mais aussi un conseiller juridique externe et d’autres collègues familiers — tous présents, conversant naturellement, et tous ayant autorisé la transaction. Chaque personne sur cet appel était un deepfake. Les attaquants avaient utilisé des vidéos publiques d’exécutifs d’Arup pour entraîner des modèles de swap facial en temps réel. Lorsqu’il pose des questions, le deepfake du CFO répond en direct. L’employé a autorisé quinze transferts totalisant HK$200 millions — environ 25,6 millions USD — vers cinq comptes bancaires à Hong Kong.

Rob Greig, CIO mondial d’Arup, a déclaré que “le nombre et la sophistication de ces attaques augmentent rapidement.” La psychologie exploitée par les attaquants repose sur ce que l’on pourrait appeler le biais de “la sécurité dans le nombre” : on peut imaginer qu’un seul deepfake est possible, mais une salle pleine de deepfakes convaincants et interactifs semble impossible. Ce n’est pas le cas.

L’incident de Singapour, mars 2025 — 499 000 $ et un piège de confiance délibéré

En mars 2025, les attaquants ont appris d’Arup et ont fait évoluer leur ingénierie sociale. Un directeur financier d’une multinationale à Singapour reçoit un contact prétendant venir du CFO de l’entreprise concernant un transfert urgent pour une acquisition confidentielle. Conscient des menaces deepfake, il hésite. Les attaquants, anticipant cela, proposent proactivement un appel vidéo pour vérifier — transformant le mécanisme de vérification en arme.

Le directeur financier rejoint un appel Zoom où le CFO et d’autres cadres apparaissent à l’écran. Tout semble en ordre. Tout sonne juste. Il autorise un transfert de 499 000 $. Chaque visage sur cet appel était généré par IA à partir de médias publics des vrais cadres.

Cette évolution est cruciale : l’attaque ne repose plus sur la défaillance du victime à vérifier. Elle exploite la vérification elle-même. La volonté de “se connecter rapidement” devient un signal d’alarme, pas un filet de sécurité.

La quasi-miss Ferrari — une question qui a sauvé des millions

Toutes les attaques ne réussissent pas. Lors d’un incident largement médiatisé, des fraudeurs ont tenté d’imiter le PDG de Ferrari, Benedetto Vigna, via un appel vocal cloné par IA, reproduisant parfaitement son accent méridional italien distinctif. L’appel a été interrompu seulement après qu’un cadre Ferrari a posé une question à laquelle seul Vigna aurait pu répondre. C’était une question qu’aucun jeu de données d’entraînement n’aurait anticipée. Des tentatives similaires ont été documentées contre le PDG de WPP, Mark Read, et d’autres cadres.

Ces quasi-failsures confirment l’efficacité de la vérification humaine hors bande — mais montrent aussi à quel point la marge est mince.


Analyse technique approfondie : comment fonctionne l’Injection de sosies

L’attaque repose sur une combinaison de technologies travaillant en concert pour réduire la délai et augmenter le réalisme.

Le moteur : le swap facial en temps réel

Les attaquants utilisent des logiciels comme Deep-Live-Cam, DeepFaceLive, ou des outils propriétaires basés sur la bibliothèque InsightFace. Ces outils prennent une image “cible” (le PDG) et un flux “source” (leur propre flux en direct). L’IA cartographie les points clés du visage — yeux, nez, bouche — du visage en direct de l’attaquant sur la texture du visage cible. Les GPU grand public comme le NVIDIA RTX 4090 ou 5090 peuvent traiter ces échanges à plus de 30 images par seconde avec moins de 50 ms de latence, imperceptible dans un appel Zoom ou Teams où le jitter réseau masque souvent ces petites incohérences.

Des reportages de 404 Media ont confirmé que des escrocs utilisent maintenant des outils comme DeepFaceLive, Magicam, et Amigo AI pour modifier leur visage, voix, genre, et race en direct — en temps réel, de façon interactive, sans matériel spécialisé au-delà d’un PC de jeu.

La vecteur : injection via Virtual Camera

Le flux vidéo deepfake est routé dans l’appel via des pilotes de Virtual Camera. Sur PC ou Mac, les attaquants utilisent OBS (Open Broadcaster Software), ManyCam, ou des pilotes de caméra virtuelle personnalisés, sélectionnés comme source vidéo dans Zoom ou Teams, comme le ferait un utilisateur légitime.

Sur mobile — un vecteur qui menace directement les applications bancaires et KYC — l’attaque est plus invasive. Les attaquants utilisent des frameworks de hooking comme Frida ou Xposed sur des appareils Android rootés pour intercepter l’appel système android.hardware.camera2, et remplacer le buffer de la caméra par leur propre flux vidéo synthétique. L’application bancaire ou de vérification croit communiquer directement avec le matériel caméra. Ce n’est pas le cas.

L’audio : conversion vocale en temps réel

Le flux visuel n’est qu’une moitié de la surface d’attaque. Les attaquants utilisent des modèles RVC (Retrieval-based Voice Conversion) avec le pipeline vidéo. L’attaquant parle dans un micro, et l’IA re-skinne sa voix pour imiter le timbre, la tonalité, et le rythme du vrai interlocuteur en temps réel. Des plateformes comme Xanthorox AI automatisent ce processus, permettant à un seul opérateur de basculer entre plusieurs “voix” synthétiques lors d’un même appel.


Pourquoi la détection de vivacité traditionnelle échoue complètement

La plupart des tests actifs de vivacité reposent sur des défis : “Clignez des yeux deux fois”, “Tournez la tête à gauche”, “Lisez ces chiffres à voix haute”. L’Injection de sosies contourne tous ces tests de façon triviale, pour une raison simple et inévitable : l’attaquant est un humain réel. Le deepfake n’est pas autonome. Un opérateur humain se tient derrière le masque synthétique et exécute chaque action demandée. Quand l’application demande au deepfake de cligner deux fois, l’humain cligne deux fois, et le swap facial en temps réel reproduit parfaitement ce clignement sur le visage cible. Le système voit un humain en direct effectuant les actions biologiques correctes. Il se trouve juste que c’est un humain portant un masque numérique photoréaliste.

C’est la faille fondamentale du défi-réponse de détection de vivacité face aux attaques par injection. La recherche de Gartner confirme ce point, en prévoyant qu’en 2026, 30% des entreprises ne feront plus confiance aux outils de vérification d’identité basés uniquement sur la biométrie faciale — non pas parce qu’ils sont mal conçus, mais parce que le modèle de menace pour lequel ils ont été conçus n’existe plus.


La nouvelle défense : la détection d’Injection d’Attaque (IAD)

Si l’œil peut être trompé, il faut faire confiance au code. L’industrie de la sécurité connaît une révolution, passant d’une question “Est-ce une vraie personne ?” à “Est-ce une vraie caméra ?”

Détection de caméra virtuelle

Les SDK de sécurité de fournisseurs comme Mitek, FaceTec, et iProov inspectent désormais la source du flux vidéo, plutôt que son contenu. Cela inclut l’inspection des pilotes — vérifier si le nom du périphérique contient des chaînes comme “Virtual”, “OBS”, ou “ManyCam” — et la vérification de la signature du pilote, pour confirmer si le pilote de la caméra est signé cryptographiquement par un fabricant reconnu comme Logitech, Apple, ou Realtek, plutôt que par un éditeur logiciel générique.

Les outils de défense modernes, résumés dans le Guide de Défense d’AKATI Sekurity, analysent si le flux vidéo provient d’un pilote physique ou virtuel, et détectent des artefacts de compression pixel par pixel que l’œil humain ne perçoit pas.

Analyse du bruit photographique et des artefacts du capteur

Le matériel de caméra réel est imparfait par nature. Les capteurs physiques produisent du grain ISO (bruit du capteur), une respiration de mise au point (légers changements de zoom lors de l’ajustement de l’objectif), et des aberrations chromatiques (franges de couleur subtiles en bordure de l’objectif). L’IA générative, en revanche, produit des pixels “parfaits” mathématiquement. Les algorithmes de détection d’injection analysent les images pour repérer l’absence de bruit naturel ou la présence d’artefacts GAN — éclairage sous-surface incohérent sur les dents, flou près des cheveux et des oreilles, ou motifs répétitifs dans la peau.

Challenge-réponse 2.0 : réflexion de la lumière ambiante

Les tests de vivacité passifs les plus robustes interagissent désormais avec l’environnement physique plutôt qu’avec les muscles faciaux. Lors d’un “test de flash”, l’écran du téléphone ou de l’application émet une séquence rapide de couleurs — Rouge, Bleu, Vert — et le système de caméra vérifie la réflexion de la lumière sur la peau et l’environnement en temps réel. Un flux vidéo synthétique injecté ne pourra pas refléter la lumière de l’écran physique réel en temps réel. À moins qu’un attaquant ne construise un simulateur physique élaboré, cette analyse de réflexion lumineuse détecte que le flux vidéo n’est pas connecté à la réalité physique de l’appareil.

La norme C2PA : Provenance cryptographique vidéo

Le Coalition for Content Provenance and Authenticity (C2PA) — une coalition fondée par Adobe, Arm, Intel, Microsoft, et Truepic, regroupant plus de 200 membres dont Deloitte, Sony, la BBC, et le New York Times — a développé une spécification ouverte pour intégrer une provenance cryptographique directement dans le contenu numérique.

La norme consiste à emballer des signatures cryptographiques, des métadonnées de fichier, et un historique complet de modification dans un manifeste inviolable qui accompagne le contenu. Si le contenu est modifié, la signature est rompue. En janvier 2025, la NSA et NSS ont publié des recommandations recommandant les C2PA Content Credentials comme une couche clé de défense média organisationnelle. La loi européenne sur l’IA, en vigueur en août 2025, impose que tout contenu généré ou modifié par IA porte des marquages d’authentification lisibles par machine.

En regardant vers l’avenir proche, les outils de visioconférence d’entreprise comme Microsoft Teams et Zoom sont évalués pour supporter la “Capture Vérifiée”, qui signerait cryptographiquement un flux vidéo au niveau matériel via le module TPM du périphérique, certifiant que le flux provient directement d’un objectif physique spécifique et n’a pas été modifié par un logiciel intermédiaire. Une fois adopté à grande échelle, un flux non signé serait considéré comme suspect par défaut.


Mitigation stratégique pour les organisations

Si vous êtes CFO, CISO ou directeur de la sécurité, vérifier l’identité ne suffit plus. Il faut des protocoles qui évitent la perception humaine.

Mettre en place une authentification hors bande pour chaque action à haute valeur. Ne jamais autoriser un virement, une approbation exécutive ou une modification de credential uniquement sur la base d’un appel vidéo, peu importe sa crédibilité. Le protocole doit être simple et invariable : toute demande initiée par vidéo doit être confirmée via un canal secondaire, préétabli — message crypté à un numéro personnel vérifié, un jeton de confirmation dans le système ERP, ou un appel séparé à un numéro connu, différent de celui fourni lors de l’appel suspect.

Utiliser des outils de détection qui analysent le flux, pas le visage. Collaborer avec des fournisseurs de KYC et vérification ayant intégré la détection de caméra virtuelle, la vérification de signature de pilote, et l’analyse d’artefacts du capteur. Demander si leur plateforme peut détecter les attaques par injection, pas seulement celles de présentation.

Adopter la norme C2PA. Documenter en interne la gestion des autorisations vidéo et évaluer où la signature C2PA pourrait ajouter une couche de provenance dans les communications officielles. Les grandes banques et fintechs mettent déjà en œuvre la vérification cryptographique des signatures dans leurs processus de traitement de documents ; la communication d’entreprise doit suivre.

Former les employés à challenger la passivité lors des appels. Dans le cas Arup, les deepfakes étaient convaincants mais passifs. Former à lancer des défis spontanés, précis et imprévisibles — “Pouvez-vous tenir le journal d’aujourd’hui et lire le titre ?” ou “Quel était le sujet du message que je vous ai envoyé ce matin sur le projet Sydney ?” — reste étonnamment efficace, car les GAN en temps réel ont encore du mal avec des interactions complexes main-objet et des conversations vraiment nouvelles.

Instaurer une culture de scepticisme croissant face à l’urgence. Les attaques Arup et Singapour s’appuyaient fortement sur l’urgence fabriquée — acquisitions confidentielles, fenêtres de virement urgentes — pour réduire le temps de vérification. Une politique systématique qui considère toute demande urgente et confidentielle en vidéo comme suspecte, et impose un délai hors bande automatique, est une mesure à faible coût mais à haute valeur.


L’avenir proche : le vishing entièrement automatisé à grande échelle

Le prochain horizon ne nécessitera plus d’opérateur humain. On voit déjà émerger des bots deepfake pilotés par LLM, où une IA autonome génère à la fois la vidéo synthétique et les réponses conversationnelles en temps réel, à partir d’un script ou d’un modèle linguistique en constante adaptation.

Les implications en termes d’échelle sont énormes. Les attaques actuelles nécessitent un opérateur humain qualifié pour piloter une persona de PDG lors d’un seul appel. Un système autonome pourrait théoriquement lancer la même attaque — avec le même visage, la même voix, en utilisant des communications internes interceptées pour l’authenticité contextuelle — contre des milliers de managers intermédiaires simultanément, sans intervention humaine au-delà du déploiement initial.

Ce n’est pas une hypothèse lointaine. La convergence des outils — swap facial en temps réel, clonage vocal, grands modèles de langage, injection de caméra virtuelle — a déjà été démontrée dans ses composants. L’intégration ne relève que d’un effort d’ingénierie, pas d’une avancée de recherche.


Conclusion : ne faites plus confiance au visage

L’ère de la preuve d’identité par vivacité vidéo en tant que seule preuve est révolue. La technologie pour injecter une persona synthétique réaliste en temps réel dans un appel vidéo est désormais accessible aux consommateurs, open-source, et activement déployée contre des organisations de toutes tailles.

La sécurité en 2026 exige ce que l’industrie commence à appeler Zero Trust Video : une hypothèse par défaut que tout flux vidéo pourrait être synthétique, sauf preuve cryptographique contraire. Il faut cesser d’observer le visage et commencer à interroger le flux de données. Il faut arrêter de considérer la demande de “se connecter rapidement” comme un signal de confiance, et commencer à la voir comme une potentielle voie d’attaque.

Les pertes de 25,6 millions de dollars d’Arup sont dues à la confiance aveugle dans ce qu’ils voyaient et entendaient lors d’un appel vidéo. La directrice financière de Singapour a perdu un demi-million pour la même raison. Le cadre Ferrari qui a posé la seule question à laquelle l’IA ne pouvait répondre a eu de la chance.

La chance n’est pas une stratégie de sécurité.


Sources : World Economic Forum, Keepnet Labs Deepfake Statistics 2026, Brightside AI Blog, iProov, Gartner, AKATI Sekurity Enterprise Defense Guide, Axis Intelligence, Deloitte Deepfake Disruption Analysis, NSA/NSS C2PA Guidance (janvier 2025), C2PA.org, Australian Cyber Security Centre Content Credentials Guidance, EU AI Act (août 2025), 404 Media investigative reporting.

Continue from this article into the most relevant product guides and workflows.

Related Topics

#CEO doppelgänger injection, real-time deepfake attack, live deepfake fraud, video liveness bypass, liveness detection evasion, biometric bypass attack, video verification fraud, deepfake CEO scam, real-time face swap attack, real-time voice cloning, AI impersonation attack, executive impersonation fraud, business email compromise 2.0, video call hijacking, Zoom deepfake attack, Teams deepfake fraud, video KYC bypass, remote identity verification attack, biometric authentication bypass, facial recognition evasion, liveness test evasion, nod and blink spoofing, head movement spoofing, challenge response bypass video, generative AI fraud, low latency deepfake, live avatar injection, camera feed hijack, virtual camera deepfake, deepfake virtual webcam, synthetic identity attack, C-suite fraud attack, wire transfer fraud deepfake, payment authorization bypass, financial social engineering, real-time impersonation AI, deepfake social engineering, AI-powered fraud, identity proofing attack, KYC fraud deepfake, AML evasion via deepfake, enterprise video security, video conferencing security risk, deepfake detection failure, anti-spoofing bypass, face anti-spoofing attack, voice anti-spoofing bypass, biometric trust abuse, identity assurance failure, video authentication attack, executive fraud 2026, AI fraud trends, deepfake phishing evolution, live impersonation malware, camera stream injection, media pipeline attack, synthetic media attack, trust in video broken, secure liveness verification, defend against deepfakes, deepfake detection systems, identity verification security, zero trust identity verification

Keep building with InstaTunnel

Read the docs for implementation details or compare plans before you ship.

Share this article

More InstaTunnel Insights

Discover more tutorials, tips, and updates to help you build better with localhost tunneling.

Browse All Articles