Passer au contenu

Voici DarkBERT, le « ChatGPT» qui sait tout du dark web

Des chercheurs ont mis au point une IA spécialisée dans le dark web. Formé à l’aide de données disponibles sur la face cachée d’Internet, DarkBERT doit venir aider les autorités et les experts en cybersécurité à mieux comprendre les criminels.

Dans le sillage de ChatGPT, Bard, Claude ou Prometheus de Microsoft Bing, une pléthore de chatbots a vu le jour ces derniers mois. La plupart des entreprises cherchent en effet à surfer sur la vague de l’intelligence artificielle, que ce soit en développant leurs propres modèles linguistiques ou en exploitant des modèles de langage existants.

Parmi cette vague de chatbots variés, on trouve DarkBERT. Développé par une équipe de chercheurs sud-coréens, le robot conversationnel est conçu pour accélérer la recherche sur le dark web. La création, longuement documentée dans un rapport accessible sur Arxiv, est « une ressource précieuse pour de futures recherches », estiment les scientifiques à l’origine du projet. Dans le détail, le chatbot est basé sur l’architecture RoBERTa de Meta, elle-même appuyée sur BERT (Bidirectional Encoder Representations from Transformers). Ce modèle de langage fait partie de la large sélection de modèles orientés apprentissage profond de Google.

À lire aussi : Mieux que ChatGPT ? Meta présente une IA qui s’approche de l’intelligence humaine

Des données exclusivement issues du dark web

Pour mettre au point le chatbot, les chercheurs ont abreuvé le modèle linguistique avec un corpus de données issues exclusivement du dark web. Contrairement à un modèle comme GPT-4 ou PaLM 2, il n’a pas été entraîné avec des données disponibles sur le clear web, la version du web indexée sur les moteurs de recherche.

Selon le rapport des chercheurs, 5,83 Go de texte brut provenant de la face cachée du web a été utilisé pour former DarkBERT. Pour rassembler les données, au cœur du fonctionnement du modèle d’IA, les chercheurs ont parcouru les sites du dark web par le biais de Tor, le réseau décentralisé qui rend anonymes toutes les connexions. Celui-ci est indispensable pour se rendre sur le dark web. Les scientifiques ont alors rassemblé des millions d’informations, dont des écrits rédigés dans des dialectes propres à certaines communautés criminelles.  Par exemple, les algorithmes ont « lu » des documents issus de marchés noirs, dont des bases de données volées, des messages échangés sur des forums.

Sans surprise, les concepteurs ont été obligés de trier les données collectées « pour répondre aux préoccupations éthiques potentielles dans les textes liés à des informations sensibles ». La base de données a été purgée des contenus mettant en danger la privée des internautes, comme des données personnelles sensibles. Sur le dark web, on trouve en effet de nombreux fichiers contenant des identifiants ou des mots de passe volés, ou encore des informations relatives à la fraude, l’escroquerie ou la production de drogues. De même, les experts ont été confrontés à une avalanche de contenus pénalement répréhensibles, notamment pédopornographiques. Pour éviter que ces données n’abreuvent le modèle, les chercheurs se sont limités à la collecte de textes, en excluant les images et les vidéos :

« notre robot d’exploration Web automatisé supprime tout les médias non textuels et ne stocke que les données textuelles brutes. Nous faisons ainsi en sorte ne pas nous exposer à des médias sensibles qui sont potentiellement illégaux ».

Comme la plupart des modèles linguistiques, DarkBERT s’appuie essentiellement sur des données en langue anglaise, majoritaire sur le dark web. En effet, les experts estiment que 90 % des textes disponibles ont été écrits en anglais.

À quoi sert DarkBERT ?

Comme l’explique l’Institut supérieur coréen des sciences et des technologies, « les modèles linguistiques spécifiques au dark web peuvent fournir des informations précieuses », car les études réalisées « nécessitent généralement une analyse textuelle du domaine ». Dans cette optique, le modèle doit aider les autorités, enquêteurs et chercheurs à mieux appréhender le fonctionnement du dark web, qui est massivement utilisé par des criminels en tous genres.

Surtout, DarkBERT doit venir en aide aux chercheurs en sécurité informatique. Grâce à la montagne d’informations engrangée, l’IA est en mesure de détecter « des discussions sur le dark web, des ransomwares ou des fuites ». La mise en ligne d’une nouvelle base de données volées ou l’apparition d’un nouveau ransomware peuvent être documentées par le modèle linguistique. D’ailleurs, les chercheurs ambitionnent d’améliorer progressivement l’IA pour qu’elle soit capable de sonder régulièrement le dark web à la recherche de nouvelles menaces.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Opera One - Navigateur web boosté à l’IA
Opera One - Navigateur web boosté à l’IA
Par : Opera

Source : Arxiv


Florian Bayard
Votre opinion
Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *