Comment la voix s’impose de plus en plus comme interface entre l’homme et la machine
Les majordomes virtuels tentent d’envahir nos vies… Sont-ils vraiment malins et, surtout, peuvent-ils se transformer en espions ?
Ils s’appellent » Google Assistant « , » Siri « , » Alexa « , » Cortana « , ou encore » Bixby « . Ces agents conversationnels boostés à l’intelligence artificielle (IA) ont tous la même mission : répondre à vos moindres désirs à tout moment. Ou du moins essayer. Pour ça, leurs concepteurs – Google, Apple, Facebook, Amazon, Microsoft, Samsung – en installent partout : dans les smartphones, les tablettes, les ordinateurs, voire les frigos, ou, plus récemment, sous forme d’enceintes de salon à commande vocale, un marché en pleine croissance. Il devrait s’écouler 43,6 millions d’unités rien qu’aux Etats-Unis en 2018, selon la Consumer Technology Association. Et, d’après une étude menée par Voicebot.ai et Rain Agency, 47 millions d’Américains ont déjà accès à l’un de ces gadgets.
Chez nous, l’enceinte Echo d’Amazon et celle d’Apple, HomePod, viennent de débarquer. Elles concurrenceront Google Home, en vente depuis août 2017. Le clavier, la souris et la télécommande n’ont pas fini de souffrir, la voix s’impose de plus en plus comme l’interface humain-machine ultime. Selon le cabinet spécialisé comScore, la moitié des recherches sur Internet pourraient être vocales d’ici à 2020.
Pourtant, le fonctionnement de ces » assistants personnels » reste mystérieux pour le commun des mortels. Les agents conversationnels nous écoutent et nous répondent, mais sont-ils dotés d’intelligence, comme le vantent les géants d’Internet ? Au point de se faire passer un jour pour des êtres humains, comme dans Her, ce film de Spike Jonze où le héros tombe amoureux de son assistante virtuelle ?
Si les modèles diffèrent d’aspect les uns des autres, le » groom numérique » fonctionne de la même façon. » Il écoute en permanence pour détecter le wake word, le mot magique qui le réveille, comme « OK Google » ou « Alexa », explique Rand Hindi, fondateur et PDG de Snips, une start-up française spécialisée dans ce domaine. Une fois qu’il sait qu’on s’adresse à lui, l’assistant enregistre le son de la voix et le transforme en texte écrit. Puis il analyse la sémantique – sujets, verbes, compléments – avant de tenter de comprendre l’intention de l’utilisateur. »
« Vous pouvez répéter la question ? »
» A ce moment-là, il y a deux possibilités, poursuit Frédéric Landragin, directeur de recherche au CNRS, spécialiste en linguistique et en traitement automatique des langues. La première est la détection d’un ordre comme « Ajoute du riz à la liste de course » ou « Augmente le volume de la chaîne audio connectée », puis l’assistant exécute l’action basique en faisant appel à ses capacités internes. » Le deuxième cas de figure est plus complexe. » S’il s’agit d’une question ouverte, comme demander la météo ou la taille de la tour Eiffel, le majordome virtuel doit recourir à un moteur de recherche pour interroger l’énorme base de données d’Internet. Il verbalise ensuite la réponse de la manière la plus naturelle possible dans le contexte de la conversation. Il ne va pas simplement répondre « 300 mètres », mais il utilisera la meilleure formulation, quitte à piocher dans des pages sans rapport avec la tour Eiffel « , détaille encore le spécialiste du dialogue humain-machine.
Cette impressionnante architecture – reconnaissance des mots, compréhension de la question, fabrication d’une réponse – repose sur un ensemble de technologies parfois anciennes, mais qui se sont récemment améliorées. C’est le cas du traitement automatique des langues, qui implique linguistique, informatique et IA. Ses bases ont été posées dans les années 1940 par Alan Turing – l’un des pères de l’informatique et le concepteur du test qui porte son nom, censé mesurer l’intelligence d’une machine en évaluant sa capacité d’imiter une conversation humaine. Puis elles ont été développées dans les années 1960 par Joseph Weizenbaum, un informaticien allemand, qui a programmé un psychothérapeute virtuel capable de berner des humains en reformulant leurs propos sous forme de questions. Peu ou prou à la même période est née une technologie déterminante, le deep learning (apprentissage profond), qui consiste à programmer des algorithmes, afin qu’ils apprennent de manière automatique. Cette branche de l’IA a connu un véritable essor depuis 2010, avec l’explosion de la puissance de calcul des machines et du big data, les gigantesques bases de données issues d’Internet. Sans surprise, les champions de l’IA – et des assistants vocaux – sont d’ailleurs tous des géants du numérique. Et pour cause, chaque fois qu’une personne utilise leurs services, ils récupèrent les données pour » nourrir » leurs algorithmes.
Quand Cortana a les oreilles qui traînent…
Pour autant, les capacités des » assistants personnels intelligents « , chantées par tous les techno-gourous de la Silicon Valley, souffrent encore de nombreuses limites. » Ils fonctionnent très mal dès que les questions se compliquent, tacle Jean-Gabriel Ganascia, président du comité d’éthique du CNRS et professeur d’informatique à l’université Pierre-et-Marie-Curie, à Paris. Il suffit d’avoir une conversation avec l’un d’eux pour s’en rendre compte. » Il faut dire que la maîtrise de la sémantique par les machines est extrêmement complexe, bien plus que la reconnaissance des formes et des images, par exemple. Des phrases contenant des négations comme » N’augmente pas le volume du son « , facilement assimilées par un enfant de 5 ans, sont souvent incomprises.
D’ailleurs, quel que soit le degré de développement, les assistants vocaux ont toujours besoin de l’humain pour progresser, et plus précisément de mechanical Turks (Turcs mécaniques, voir l’encadré). Dans un témoignage publié par la Quadrature du Net en mai dernier, Julie, l’une de ces » dresseuses d’IA « , explique qu’elle devait analyser des milliers de conversations privées enregistrées par Cortana, l’assistant de Microsoft. » J’écoutais un audio de trois à quinze secondes, puis un texte s’affichait, me montrant ce que Cortana avait retranscrit. Je devais vérifier si elle avait bien compris et corrigeais le texte à la moindre faute de compréhension, de conjugaison ou d’orthographe « , résume-t-elle. Si ces écoutes étaient traitées avec l’accord des utilisateurs, Julie, elle, n’a jamais signé de clause de confidentialité. Pire, elle pouvait parfois retranscrire plusieurs échantillons émanant d’un même interlocuteur : suffisant, selon elle, pour » dresser un profil basique « . Elle aurait également écouté, à l’en croire, » beaucoup d’enregistrements involontaires « , des discussions captées par Cortana alors que les utilisateurs ne l’avaient pas sollicitée. Ce qui ne serait pas impossible.
Les médias américains ont rapporté récemment l’histoire d’un couple dont une conversation a été enregistrée à son insu, puis envoyée à un de ses amis. » Un événement rarissime et totalement improbable « , s’est défendu Amazon. Echo aurait été mis en route par un mot prononcé ressemblant à » Alexa « . Puis l’enceinte aurait compris qu’il fallait envoyer un message et aurait demandé » A qui ? « , avant d’interpréter un mot comme un nom de la liste de contacts. Le géant de la vente en ligne avait rappelé que si Alexa écoute en permanence, elle n’enregistre rien avant d’avoir entendu son wake word, comme les autres enceintes de ce type.
» Ce genre de bévue est une intrusion dans la vie privée absolument terrifiante, s’indigne Jean-Gabriel Ganascia. Ces enceintes sont de véritables petits espions domestiques que je ne voudrais pas voir dans mon salon. » Pire que ce qui se pratique avec les réseaux sociaux et les moteurs de recherche ? » Dans son roman 1984, George Orwell imaginait le télécran (une télévision-caméra surveillant tout le monde), on n’en est plus très loin, insiste le philosophe informaticien. Imaginez comment des régimes totalitaires pourraient les détourner pour contrôler les populations. » Rand Hindi se montre plus serein. Selon lui, l’usage des assistants et des moteurs de recherche n’est pas si inquiétant, à une nuance près : » l’enregistrement de l’empreinte vocale « . Sa société, Snips, a pris l’engagement de protéger les données privées de ses utilisateurs, elle n’enregistre aucune voix et ne les envoie pas sur le cloud, » contrairement aux autres « , souligne Rand Hindi. Comment, alors, entraîne-t-il son assistant ? » Nous fabriquons de fausses données avec des algorithmes et des mechanical Turks qui simulent des questions. » De quoi rassurer certains sceptiques et se conformer au règlement européen de la protection des données (RGPD), qui vient d’entrer en vigueur.
Des retombées économiques gigantesques
Mais la protection de la vie privée n’est pas le seul aspect inquiétant des assistants vocaux. Si ce marché paraît si important pour Google et consorts, c’est que ses retombées économiques semblent potentiellement gigantesques. Et pas seulement parce que le nombre d’enceintes de salon explose. » Imaginez que, demain, je demande à mon assistant de commander ma pizza préférée. Il en connaît la composition grâce au deep learning, il choisit le restaurant en fonction et passe commande à ma place, anticipe Jean-Gabriel Ganascia. Toute la restauration de proximité sera assujettie aux agents virtuels qui décident quoi acheter. » Surtout, comment ne pas y voir une nouvelle illustration de l’hégémonie grandissante des géants du Net, qui concentrent déjà tant de richesses et de pouvoirs – les chiffres d’affaires de Google, Amazon, Facebook et Apple dépassent le PIB de la France… » Ce n’est pas la technologie qui est inquiétante, résume Claude Touzet, chercheur en IA, spécialiste des réseaux de neurones artificiels et de la théorie neuronale de la cognition. C’est l’usage que nous en ferons. »
Par Victor Garcia.
Le terme » mechanical Turks « , inspiré d’un canular historique, fait référence à un automate du xviiie siècle supposé jouer aux échecs, mais dans lequel se cachait en réalité un homme. Il traduit aujourd’hui un phénomène où les tâches réalisées supposément par des algorithmes ou des robots sont le fait de travail humain. Un concept qui voit les géants d’Internet faire appel à des milliers de travailleurs payés au lance-pierre pour analyser ou produire de l’information pour les algorithmes.
Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici