ChatGPT: demain, tout le monde saura-t-il tout sur moi ?
La question des données personnelles et de leur protection se révèle particulièrement sensible avec l’avènement des agents conversationnels. Demain, pourrai-je encore être un anonyme d’Internet?
Qu’est-ce que ChatGPT sait de moi ? Demandons-lui : journaliste (ok), qui travaille au service culture du Vif (ha bon ?) et auteure de plusieurs ouvrages (vraiment ?). Des informations parfois incorrectes et moins importantes que ce l’on peut trouver en cherchant dans Google. Pas de raison de s’inquiéter, alors ? Pas si vite. Présent lors d’une conférence organisés par nos confrères de L’Echo, Pieter Abbeel, directeur du Berkeley Robot Learning Lab, pointe la privatisation des données comme un vrai enjeu de demain. Nous avons posé la question à Luc Rocher, professeur à Oxford spécialisé dans les questions de protection de la vie privée avec l’avènement de technologies d’intelligence artificielle.
En quoi les chats comme ChatGPT sont différents d’un moteur de recherche ?
ChatGPT et toutes les autres technologies similaires fonctionnent sur base de données entraînées, de collection en masse d’informations. Quand vous cherchez votre nom et votre prénom sur un moteur de recherche, vous allez voir la liste des sites internet d’où les informations vous concernant sont tirées. Dans le cas de ChatGPT, il est très compliqué de savoir sur quelles données il a été entraîné, autrement dit, d’où proviennent ces informations sur vous. On ne sait donc pas vérifier ces informations. On ne sait pas non plus comment ces nouveaux chats fonctionnent. Leur code source n’est pas accessible.
Les compagnies comme ChatGPT ont décidé de passer outre le mécanisme de consentement
Peut-on encore y être anonyme ?
Sur Internet, quand un organisme ou une compagnie traite nos données, on peut demander, en tant qu’individu, à comprendre d’où elles proviennent et demander la suppression des celles-ci. Avec ChatGPT, on se retrouve face à un système assez opaque et cela pose des problèmes d’adéquation avec la loi. Prenons l’exemple d’un patient qui va à l’hôpital, il lui communique ses données, des données sensibles. Si l’hôpital veut les utiliser, le patient doit donner son consentement. Ici, ces compagnies ont décidé de passer outre le mécanisme de consentement. ChatGPT ne fait pas non plus la différence entre ce qui est sensible et ne l’est pas.
En plus de la suppression, un autre problème se pose: comment peut-on vérifier que nos données ont bien été supprimées ? Sur un moteur de recherche, c’est facile, il suffit de taper plusieurs mots du site ou son url pour voir s’il a été indexé ou non. Pour ce qui est des grands modèles de machine learning, sans accès au code source, c’est extrêmement difficile.
Peut-on parler de perte de contrôle ?
Certainement. Et potentiellement aussi une perte de confiance dans le partage d’informations qui pourraient être bénéfiques dans certains cadres, notamment scientifiques.
On peut considérer que l’utilisation des données sur Internet va devenir une nouvelle exemption
En Europe, on a cette conception que ce que l’on communique sur un site web reste sur ce même site web. Pour que d’autres services utilisent les données que j’ai communiquées, il faut mon consentement. Ce qui est très différent de la notion d’informations publiques sur Internet, qui est davantage prévalente aux Etats-Unis. Au-delà de la question de l’anonymat, il y a aussi des celles concernant la propriété intellectuelle, la protection de la compétition. Ces compagnies collectent en masse des données, les utilisent pour entraîner leurs modèles, sans le communiquer aux personnes concernées et sans redonner l’accès au modèle ensuite.
L’accès à la technologie reste leur propriété alors que ces dernières sont entraînées sur des textes que d’autres ont réalisés. C’est une question qui est beaucoup revenue avec les moteurs de génération d’image. Les artistes dont les images ont été « pillées », qu’ont-ils comme recourt ? Chaque artiste peut aller demander leur suppression de chaque plateforme, une à une. Mais c’est chronophage, cela ne fonctionne pas de façon optimale et c’est à la charge des artistes. C’est aussi un problème pour toutes les personnes dont le métier est fondé sur le partage, en ligne, de textes, d’informations…
Est-ce qu’une réglementation est possible ?
On pourrait envisager une réglementation qui demande le consentement avant d’utiliser les données de chacun à des fins commerciales. Ou alors on peut considérer que l’utilisation des données sur Internet va devenir une nouvelle exemption. Ce ne sont pas non plus des technologies affreuses qu’il faut empêcher, mais elles posent par contre des questions de gouvernance. Qui doit être responsable ? A qui bénéficient-elles ? Et comment peut-on faire en sorte que ces technologies soient développées par des personnes qui comprennent les enjeux, les risques et soient mises à la disposition de chacun ? Si mes données participent à la construction d’un projet de cette envergure, pourquoi ne puis-je pas ensuite avoir accès au résultat pour m’en servir ?
Lire aussi | Faut-il craindre la révolution ChatGPT?
Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici