Les IA génératives, comme ChatGPT, Google Bard encore Claude d’Anthropic, partagent le même défaut de conception. D’après plusieurs experts en IA interrogés par Wired, les modèles linguistiques qui servent de socles aux chatbots ont en effet tendance à accentuer la domination de la langue anglaise par rapport à des idiomes moins populaires.
À lire aussi : OpenAI a battu un impressionnant record grâce à ChatGPT
L’IA, une technologie essentiellement anglophone
Pour entraîner leurs modèles d’IA, des entreprises comme OpenAI ou Google utilisent des corpus de données en provenance d’Internet. Ces bases de données sont majoritairement constituées de textes rédigés en anglais, qui reste la langue la plus répandue sur le web. Une étude de Statista indique d’ailleurs que plus de 63 % des sites web sont édités dans la langue de Shakespeare.
Par exemple, GPT-4, la dernière version du modèle d’IA d’OpenAI, s’appuie essentiellement sur « des données de préformation » en anglais, admet OpenAI. De plus, les mesures d’atténuation, visant à encadrer l’IA et éviter les dérives, ont été mises en place « avec un point de vue centré sur les États-Unis ».
De facto, les robots conversationnels sont plus efficaces, précis et utiles lorsqu’ils communiquent avec un internaute anglophone. Finalement, les individus qui parlent exclusivement une autre langue partent avec un sérieux désavantage. Ils ne peuvent pas profiter à 100 % de toutes les innovations de l’intelligence artificielle.
« L’une de mes plus grandes préoccupations est que nous allons exacerber le parti pris pour les anglophones », met en garde Thien Huu Nguyen, informaticien de l’Université de l’Oregon, contacté par le média.
ChatGPT est mauvais en langues étrangères
D’après les constatations de Thien Huu Nguyen, les chatbots sont nettement moins doués lorsqu’ils génèrent des réponses dans une autre langue que l’anglais. Les IA ont encore beaucoup de mal à passer d’une langue à l’autre ou à résumer des textes écrits en langues étrangères. Interrogé dans une autre langue, ChatGPT a surtout plus souvent tendance à « halluciner », c’est-à-dire à inventer des informations erronées, ou à se contenter d’une réponse vague, indiquent des expériences menées par Nguyen et ses chercheurs.
Moins une langue est répandue dans le monde, moins elle sera présente dans les données qui abreuvent l’IA. En conséquence, les chatbots seront mécaniquement moins enclins à fournir des réponses pertinentes dans un dialecte méconnu… ce qui risque de précipiter le déclin de ces langages. En parallèle, les deux langues les plus parlées au monde, à savoir l’anglais et le mandarin, risquent de profiter de l’essor de l’intelligence artificielle pour asseoir leur domination, déjà considérable.
L’omniprésence de l’anglais risque par ailleurs de nuire à la modération dans d’autres langues. En se concentrant sur le sens des mots dans les langues les plus connues, les IA passeront à côté des termes potentiellement offensants ou insultants dans un autre dialecte. Comme le souligne le Center for Democracy & Technology, une organisation américaine, les algorithmes de détection utilisés par les géants de la tech, comme Meta (Facebook), sont surtout efficaces en anglais. Il arrive d’ailleurs souvent que des contenus en arabe soient estampillés par erreur comme haineux. Derrière ces erreurs courantes, on trouve l’absence de textes numérisés permettant d’entraîner les IA et les algorithmes à d’autres langues. Pour certains dialectes, comme l’hindi et l’indonésien, il n’y a tout simplement pas assez de ressources pour entraîner les modèles. De ce fait, la modération des contenus, que ce soit celle des réseaux sociaux ou des chatbots, n’est pas aussi efficace qu’en anglais… ce qui laisse la porte ouverte aux abus.
Des améliorations en vue
Conscientes de cette lacune, les entreprises derrière l’IA ont pris des mesures. Sam Altman, PDG et cofondateur d’OpenAI, a notamment fait part de son intention de s’associer aux gouvernements pour améliorer la connaissance de ChatGPT en matière de langues étrangères.
De son côté, Google a d’ores et déjà changé son fusil d’épaule. PaLM 2, le dernier modèle d’IA annoncé par le géant de la recherche, a été entraîné avec des contenus rédigés dans une grande variété de langues. Grâce à ce corpus de formation, le modèle prend en charge une centaine de langues différentes. Malheureusement, ces améliorations linguistiques ne sont pas encore accessibles aux internautes. Actuellement, Bard, le chatbot animé par PaLM, ne comprend que l’anglais, le japonais et le coréen. De même, une partie des fonctionnalités reposant sur l’IA, comme l’option « Help Me Write (Aide-moi à écrire) » de Gmail, sont exclusivement disponibles aux anglophones.
Pour éviter les biais linguistiques de l’IA, les chercheurs recommandent de nourrir les modèles avec des « données synthétiques ». Il s’agit en fait de traductions de contenus rédigés initialement en anglais et convertis dans une langue méconnue. Cette approche devrait permettre de lutter contre l’omniprésence des textes anglais, estime Thien Huu Nguyen. Sans ces données de synthèse, il n’y aura « jamais assez de données dans d’autres langues », résume le chercheur.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.
Source : Wired
Pour y remédier temporairement pour les non anglophones, vous pouvez vous aider de Deepl Translator pour les traductions. Cet outil est bien plus puissant que Google Translator et tous les autres réunis…c’est tout simplement le plus abouti, notamment dans les nuances de textes proposées.
Chatgpt est (dans mon opinion )dans le volet traduction plus avancé. On peut lui demander de faire une traduction dans le cadre du langage médical. J’ai même “recorrigé” des traductions de deepl et google par chatgpt pour rendre un texte traduit plus intelligible, et en bonus j’ai demandé et obtenu des remarques sur telle ou telle correction ou phrase déplacée dans le texte.
oui vous avez raison ul faut s’aider par deepl qui est performant
Mouais, dire que c’est “mauvais”, c’est extrêmement exagéré.
Les modèles de langues qui font du text embedding (< ou plongement lexical, terme qu'on rencontre déjà très minoritairement parce que l'écrasante majorité de la littérature scientifique est en anglais, et que le terme français est pas très parlant), font déjà des associations entre les mots et leur sémantiques dans les première couches, les quelques couches suivantes apprennent les règles grammaticales, les exceptions, l'argot, etc…, mais tout le reste, comme le raisonnement, devient indépendant du language.
Un des problèmes causé par la disparité des langues, et qui a aucune garantie d'être corrigé simplement en équilibrant le volume d'apprentissage, c'est que le réseau peut ne pas considérer deux mots de deux langues qui ont exactement la même signification pour nous comme étant sémantiquement exactement pareil, donc ça influe la génération. Ce genre de problème serait partiellement résolu si la logique n'était pas acquise mais innée (il y a bien des exemples de personnes qui ont pu convaincre lors des premiers jours de chatgpt que 2+2=5 par exemple).
Il y a beaucoup de ce genre de problèmes qui sont difficile à résoudre du fait de l'architecture transformer, c'est dur de situer où exactement le réseau effectue certains traitements.
Pour faire court: la disparité de la performance entre les différentes langues est grossièrement exagérée, la solution proposée ne serait que superficielle, et une solution plus intelligente aiderait dans beaucoup de domaines.
Les nouvelles technologies réservées au marché américain ou tout au plus au Royaume-Uni, c’est bien connu! Regardez la WWDC ce soir, et ce sera la même…: beaucoup de nouveautés ne seront réservées qu’aux US, Australie, Canada, etc.
Les media populaire européennes raffolent de trouver des fautes et des failles dans ces premières version de l’IA. Or le biais linguistique n’était pas seulement attendu, mais aussi inévitable, au début ; comme dit l’article : l’application ChatGPT a été développée sur les données d’un internet mondial 63% en anglais ! Et aux États Unis…
Après tout, ce n’est qu’un LLM – Large Language Model – ce n’est pas encore un Large Concept Model (LCM) qui, quand il arrivera, va être agnostique de langage et nationalité.
Le plus important maintenant c’est développer la « constitution des IA et des robots », les règles qui forceraient une forte morale et un désir de soin de l’humanité. Pourquoi pas utiliser, entre autres, les lois d’Isaac Asimov :
Les lois d’Asimov sont :
• Première loi : Un robot ne peut porter atteinte à un être humain ni, par son inaction, permettre qu’un être humain soit exposé au danger.
• Deuxième loi : Un robot doit obéir aux ordres donnés par les êtres humains, sauf si ces ordres entrent en conflit avec la première loi.
• Troisième loi : Un robot doit protéger son existence tant que cette protection n’entre pas en conflit avec la première ou la deuxième loi.
Asimov a également ajouté une quatrième, ou zérotième loi, qui prévaut sur les autres:
• Zérotième loi : Un robot ne peut nuire à l’humanité ni, par son inaction, permettre que l’humanité soit exposée au danger.
Essayez de demander à chatgpt de raconter une blague d’animaux en français, il va traduire tout simplement de l’anglais et aboutir à des chutes ineptes ou incompréhensible.