Passer au contenu

Quand les maths combattent le spam

Pour détecter les messages non sollicités dans le courriel, les logiciels spécialisés effectuent plus de trente contrôles. Le plus infaillible est basé sur une théorie statistique mise au point par un révérend anglais, il y a plus de
deux siècles.

Des photos érotiques de Britney Spears, du Viagra ou des prêts bancaires à des taux défiant toute concurrence : chaque internaute, ou presque, a reçu des propositions de ce genre par courriel. Ce type de courrier non sollicité,
appelé spam, représente aujourd’hui entre 50 et 70 % des messages transitant sur le réseau selon les mesures effectuées par plusieurs sociétés spécialisées.Le nombre de spams augmente régulièrement depuis deux ans et l’installation de logiciels capables de trier le bon grain de l’ivraie devient parfois indispensable. Pourtant, si un être humain est capable de reconnaître un message non
sollicité en quelques dixièmes de secondes, il n’en va pas de même pour un programme informatique. Le défi est double : il faut à la fois repérer une grande partie des spams mais aussi éviter les erreurs en ne supprimant pas des messages
légitimes.Les premières tentatives d’automatisation du traitement du spam, relativement basiques, se basaient sur la présence de mots particuliers, comme ‘ sex ‘ pour effectuer un tri. Une méthode
qui a vite montré ses limites : il est impossible de cette manière de filtrer un pourcentage élevé de messages non sollicités tout en conservant un taux d’erreur faible.Aujourd’hui, pour déterminer la nature d’un courrier électronique, les logiciels les plus perfectionnés effectuent une trentaine d’analyses différentes. Lorsqu’un contrôle est positif, l’antispam incrémente une
‘ jauge ‘ qui, lorsqu’elle dépasse une certaine valeur, déclenche le classement du message comme un spam.La précision et la pertinence du logiciel sont directement liées à l’importance de chaque contrôle. Certains, provoquant souvent des erreurs, sont minorés tandis que d’autres, plus sûrs, font très vite augmenter la présomption de
spam. Aux dires des spécialistes, le contrôle le plus fiable est basé sur les mathématiques. Et en particulier sur le théorème de Thomas Bayes, un révérend anglais du XVIIIe siècle. Pour mettre en pratique cette théorie, il faut
tout d’abord paramétrer le système antispam en lui faisant ingurgiter des mails dont l’origine est connue : légitime ou non sollicitée.

Quelques millièmes de seconde de traitement pour chaque mail

Chaque message est alors décomposé en éléments aussi petits que possibles appelés tokens. Un token peut être constitué par le nom de l’expéditeur, un mot présent dans le corps du mail, une image ou un morceau de code HTML. Le système
relève le nombre d’occurrences de chaque token dans les messages légitimes et le nombre d’occurrences du même token dans des spams.Ces données sont inscrites dans une base de données qui sert de référence. Elle est le plus souvent constituée par les éditeurs des logiciels antispam. Lorsque l’utilisateur relève ses mails, chaque message est ainsi découpé en tokens
et le théorème de Bayes est appliqué à chacun d’entre eux. Il stipule Si l’on connaît la probabilité qu’un token ” A ” soit présent dans un e-mail (spam ou non) et la probabilité
que le même token ” A ” soit présent dans un spam, alors on peut calculer la probabilité pour que le message contenant le token “A” soit un spam.
Cette théorie mathématique, base de tous les calculs ‘ bayésiens ‘, ne nécessite que quelques millièmes de secondes de traitement. Si la probabilité que le mail ne soit pas sollicité dépasse 90 %, il
peut être supprimé sans problème car le pourcentage d’erreurs est proche de zéro. Si elle se situe entre 70 % et 90 %, il faut demander à l’utilisateur de trancher. En fonction de sa réponse, la base de données des tokens sera remise à
jour et enrichie, ce qui permet d’affiner la pertinence du système au fur et à mesure.Très puissante, cette technique présente toutefois un inconvénient : elle considère chaque token comme indépendant des autres. Alors que certains mots sont souvent associés, comme
‘ buy ‘ (acheter) et ‘ Viagra ‘. Le théorème de Bayes a donc été perfectionné par la création de ‘ réseaux bayésiens’. Dans ce cas,
lors de l’analyse d’un message, chaque token est positionné sur une ‘ grille ‘ par rapport aux autres tokens. On obtient alors une représentation graphique du mail, où le point symbolisant
‘ buy’ est proche de celui symbolisant ‘ Viagra ‘. Le calcul de probabilité est alors bien plus complexe mais aussi beaucoup plus pertinent. Certains logiciels,
bien paramétrés, permettent alors de supprimer plus de 99 % de spams, sans éliminer de ‘ bons ‘ messages par erreur !

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Alain Steinmann