Comment Facebook lutte techniquement contre les contenus haineux

Le directeur technique de Facebook Mike Schroepfer était l’invité hier du Web Summit de Lisbonne qui se tient en ligne du 2 au 4 décembre. Nous avons pu l’interroger sur le sujet brûlant de la modération des contenus à l’occasion d’un point presse avec la presse européenne. En France, un certain nombre de politiques font porter une partie de la responsabilité de l’assassinat de Samuel Paty aux réseaux sociaux parce que le professeur avait été victime au préalable d’une campagne de diffamation sur ces derniers. Des projets de lois sont justement à l’étude dans notre pays pour contraindre les plates-formes à modérer davantage et plus vite.

Mike Schroepfer se dit « horrifié » par de tels événements et il fait part de son combat quotidien pour améliorer la modération. « Les discours de haine sont un sujet sur lequel je me suis particulièrement penché ces dernières années parce que c’est l’une des choses les plus courantes que l’on peut trouver sur Internet, mais que c’est aussi l’un des problèmes les plus difficiles à surmonter techniquement, surtout à notre vaste échelle », avance-il au préalable.

Facebook – Mike Schroepfer, le directeur technique de Facebook.

Des avancées considérables

Pour Mike Schroepfer, la solution n’est pas de restreindre l’accès aux réseaux sociaux mais d’apporter une réponse technique de plus en plus performante à ce problème. « Le seul moyen de lutter encore davantage contre les contenus haineux, c’est de développer des technologies avancées qui puissent analyser les contenus et les signaler avant que d’autres gens ne les voient », précise-t-il.

Il se montre assez confiant dans les capacités de Facebook à progresser dans ce domaine. « En trois ans, nous sommes passés de 0% à 94,5% de contenus haineux détectés automatiquement avant qu’ils ne soient mis en ligne. Ce n’est pas parfait mais c’est une grande avancée », souligne-t-il. Plus précisément, le taux de détection proactif est passé de 23,6% en 2017 à 94,7% au troisième trimestre 2020 sur Facebook. Pour Instagram, il s’élève désormais à 94,8%.

Trois nouvelles technologies

« Nous avons accompli ces progrès en réussissant à mettre au point de nouveaux modèles multimodaux, multitâches et multilingues », précise Mike Schroepfer. Facebook a notamment développé un système baptisé RIO, pour Reinforced Integrity Optimizer. Habituellement, les ingénieurs optimisent d’abord les systèmes hors ligne, puis les appliquent à la production. Ce nouveau modèle d’apprentissage par renforcement s’appuie, à l’inverse, directement sur des données réelles pour s’entraîner. L’autre technologie récemment développée par Facebook s’appelle Linformer. Il s’agit d’une nouvelle architecture de modèle, déjà utilisée sur Facebook et Instagram, qui est capable de contenir le volume de calculs, même lorsqu’il y a énormément de contenus à traiter. Il est possible d’utiliser de plus gros morceaux de texte pour former les modèles et d’obtenir ainsi de meilleures performances.

Enfin, la troisième innovation de Facebook est XLM-R, une formation auto-supervisée qui vise à la compréhension multilingue et va passer en production dans le courant de l’année. Le modèle se forme dans une langue, puis utilise d’autres langues sans bases de données supplémentaires. L’objectif final étant de parvenir à un modèle valable pour toutes les langues. Ce qui permettrait de faire les mises à jour pour tous en même temps dans le monde.

Il existe encore de sérieuses limites

Le directeur technique de Facebook reconnaît que les intelligences artificielles doivent encore progresser. Elles seraient désarmées face à des contenus combinant texte et image ou vidéo. Pris isolément, ces différents éléments semblent inoffensifs. Pourtant, combinés, ils peuvent devenir problématiques. Cela demande une compréhension encore plus fine et globale des choses. L’intelligence artificielle ne repère pas forcément non plus les nuances de sarcasme ou les mots d’argot, ni les différences de perception face à des images anodines dans certains pays et offensantes dans d’autres.

Enfin, si l’essentiel de la modération est traitée dans un premier temps par des systèmes automatiques, ce sont ses équipes humaines qui prennent les décisions finales. 15 000 personnes modèrent les contenus qui passent par ses réseaux sociaux dans le monde.

La transparence des algorithmes en débat

Interpellé sur le manque de transparence de ces algorithmes déploré par l’Union européenne et qui sera au coeur du règlement Digital Services Act, Mike Schroepfer donne des gages. « Nous avons deux groupes de travail, l’un sur l’intelligence artificielle et l’éthique, l’autre sur l’innovation et l’éthique avec des outils pour mesurer les résultats de ce que nous faisons et savoir s’ils répondent à nos préoccupations en matière d’équité, de sécurité et de bien-être », fait-il observer.

Mais il se montre un peu dubitatif sur le fond du débat. « Il est toujours bon de comprendre comment les choses fonctionnent et d’être capable de les expliquer pour éventuellement les contrer. Mais je ne pense pas que cela réponde vraiment au problème », avance-t-il. « Est-ce qu’il est nécessaire de savoir exactement comment fonctionne une aile d’avion pour voler ou comment agit exactement le mécanisme du paracétamol pour soulager la douleur ? Je ne serai peut-être pas capable de le dire mais je peux disposer de tas de données empiriques sur les dosages qui sont sûrs et les effets secondaires. Que ce soit une salle remplie de gens ou un système automatisé qui prennent une décision, ce qui compte, c’est le résultat », estime-t-il, espérant un dialogue fructueux avec l’Europe à ce sujet.