Passer au contenu

Apple Siri, Google Now, Samsung S-Voice… l’authentification vocale prise en défaut

Des chercheurs en sécurité ont trouvé plusieurs méthodes permettant de contourner ce type de protection, révélant l’inefficacité crasse de cette technologie.

La reconnaissance et l’authentification vocale sont à la mode. Elles sont intégrées dans nos smartphones, dans divers assistants vocaux, et commencent aussi à apparaître au niveau des services bancaires. Par exemple, Talk To Pay, nouveau service de la Banque Postale, se sert de l’authentification vocale pour remplir automatiquement des données de cartes bancaires dans un formulaire de paiement en ligne. Mais que vaut cette technologie d’authentification vocale ? Est-elle vraiment sécurisée ?

En vérité, pas vraiment. A l’occasion de la conférence Hack in Paris 2017, deux chercheurs en sécurité de l’ANSSI, José Lopes Esteves et Chaouki Kasmi, ont mis en lumière certaines faiblesses. Ils avaient déjà trouvé des failles dans les systèmes à commande vocale en 2016 et en 2015.

Cette année, ils se sont penchés sur les assistants vocaux Apple Siri, Google Now et Samsung S-Voice qui intègrent l’authentification vocale chacun à sa manière. Chez Apple et Samsung, elle permet d’éviter qu’une personne tierce puisse déclencher l’assistant par commande vocale. Pour cela, elle s’appuie sur l’analyse d’un mot clé, respectivement « Dis Siri » et « Hi Galaxy ». Google propose la même chose avec « Ok Google », mais permet en plus de remplacer le code PIN de déverrouillage par l’authentification vocale (option « Trusted Voice »).

ANSSI – Le dispositif expérimental utilisé

Une petite imitation, et c’est gagné

Or, il s’avère que toutes ces protections peuvent être contournée de plusieurs manières, à commencer par un enregistrement audio du mot-clé prononcé par la victime. Pour les trois systèmes, c’est suffisant pour s’authentifier. Or, c’est loin d’être anecdotique car réaliser un tel enregistrement est bien moins difficile que, par exemple, de fabriquer une fausse empreinte digitale. Avec la généralisation des smartphones, nous sommes constamment entourés de microphones. Par ailleurs, côté système, il n’est pas simple de détecter qu’il s’agit d’un enregistrement et non d’une vraie personne. « Techniquement, c’est un problème difficile », soulignent les chercheurs.

Plus étonnant: si l’attaquant ne dispose pas d’enregistrement, il peut tenter une imitation vocale au pied levé. « Nous ne sommes pas des imitateurs professionnels, loin de là. Mais en moins d’une quinzaine de tentatives, nous avons pu contourner l’authentification pour les trois systèmes », expliquent les chercheurs qui, évidemment, ne se sont pas contentés de cette victoire facile. Ils ont ensuite tenté de reconstruire le mot-clé à partir d’un enregistrement de la voix d’une personne ciblée, mais qui ne contient pas le mot-clé. Là encore, ça fonctionne sans problème, à condition d’avoir les bons phonèmes dans le fichier son. Et pas besoin d’avoir des outils sophistiqués. Il suffit de faire du copier-coller avec le logiciel open source Audacity. Voici une démonstration avec Siri.

Certes, mais que faire si l’on n’a pas les bons phonèmes ? Là encore, ce n’est pas un grand problème. Les systèmes d’authentification vocale s’appuient sur la comparaison d’empreintes mathématiques. Le smartphone dispose, en son sein, d’une empreinte générée au moment où le service a été activé. A chaque fois que l’utilisateur dit le mot-clé à son smartphone, celui-ci va calculer une nouvelle empreinte qui sera comparée au modèle original. Si l’attaquant dispose de cette empreinte, il peut utiliser des techniques qui permettent de générer artificiellement une version audio du mot-clé.

Evidemment, les chercheurs ne savent pas précisément quels algorithmes sont utilisés pour calculer cette empreinte. Ils ont tenté leur chance avec MFCC (Mel-frequency cepstral coefficients) et, banco, cela a fonctionné avec les trois systèmes étudiés. Voici une démonstration avec Google Now. L’un des chercheurs a enregistré son propre mot-clé. Il en a extrait l’empreinte MFCC, puis généré à partir de celle-ci un nouveau fichier son (grâce à la fonction Inverse MFCC).  

Et si l’attaquant n’a ni enregistrement ni empreinte de la victime – et qu’il est un piètre imitateur – il peut tenter de récolter au hasard des enregistrements audio du mot-clé prononcées par des tierces personnes et les superposer au niveau audio. Souvent, ce méli-mélo suffit pour passer l’étape d’authentification au bout d’un certain nombre d’essais. Mais comme l’implémentation technique de l’authentification vocale n’est pas connue, « nous ne savons pas pourquoi cela fonctionne », soulignent les chercheurs. Voici un exemple avec Samsung S-Voice.

La conclusion des chercheurs est sans appel : l’authentification vocale est « inefficace, immature et donne une fausse impression de sécurité ». Contacté par les chercheurs, Apple a rétorqué par une pirouette un peu étrange en expliquant que « la reconnaissance vocale dans Siri n’est pas une fonction de sécurité ». A noter, enfin, que les expériences menées par MM. Esteves et Kasmi ne peuvent pas être généralisés à d’autres services. Par ailleurs, ils ne valent que pour le moment où elles ont été effectuées, car les systèmes sont constamment mis à jour.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Gilbert KALLENBORN