Journée d’étude : L’intelligence artificielle générative et l’enjeu des données personnelles

29 novembre 2024

L’intelligence artificielle (IA) est un ensemble de techniques qui remontent aux années 1940-1950 avec les travaux de Turing, de Wiener. Supposée simuler à l’aide de machines le raisonnement humain, l’IA s’appuie sur des modèles mathématiques, algorithmiques, informatiques. La technologie informatique a connu plusieurs évolutions avec les systèmes experts qui permettent de reproduire le raisonnement d’un expert (par exemple médecin pour un diagnostic de santé), les réseaux neuronaux qui s’inspirent de la biologie (neurones et synapses) pour raisonner souvent avec des méthodes d’apprentissage probabilistes, le machine learning (apprentissage automatique) qui permet d’apprendre à partir de données massives, le deep learning (apprentissage profond) qui repose sur l’apprentissage des significations des données. L’apprentissage automatique et l’apprentissage par renforcement permettent à partir de l’analyse de données massives de déduire des règles à suivre dans le système d’IA. L’un des défis est l’apprentissage du langage naturel ; récemment avec les LLM (large languages models) est apparue l’intelligence artificielle générative, c’est-à-dire une IA qui a la capacité de créer, que ce soit le texte (ChatGPT, projet OpenAI), l’image (DALL-E et Midjourney), le son (Suno) ou la vidéo (Sora). Avec ChatGPT qui a atteint en l’espace de cinq jours 1 million de comptes créés et le buzz médiatique. Ainsi, l’IA générative est devenue un phénomène de société dès fin 2022. L’IA générative dépasse les systèmes de recommandation (comme sur Amazon, Booking), ceux de score par les banques pour discerner les profils des clients. Les nouvelles promesses opèrent dans les secteurs de la justice (prédictive), de la santé, de la sécurité (vidéosurveillance et identification algorithmiques, reconnaissance faciale et biométrie). Mais les avancées technologiques peuvent servir le deepfake (hypertrucage pour les photos et les vidéos par exemple mais aussi pour des textes vraisemblables mais faux), ainsi que le pillage de données qui enfreint les droits des créateurs, en les agrégeant pour fournir des réponses probabilistes. Il existe aussi des fausses IA avec des travailleurs du clic qui effectuent des micro-tâches sous-payées (Casilli, 2019). L’IA générative, à la capacité de calcul impressionnante, présente aussi des limites avec les biais relatifs aux données sous ou sur-représentées, avec l’absence de mention des sources et des hallucinations (production d’informations fausses ou erronées). L’IA générative présente en outre des risques pour les données personnelles. En effet, la question de l’exploitation des données comportementales et personnelles se pose en termes de menaces, d’autant plus que dans ce contexte technologique le RGPD ne suffit pas pour les protéger. Vécu, aux débuts, comme une contrainte par les entreprises se sentant sous injonction règlementaire, les discours du MEDEF mettent désormais en avant la mise en conformité. Tels sont les enjeux, parmi d’autres, abordés lors de cette prochaine journée d’étude.

Selon une profonde ambivalence, l’IA générative permet certes des avancées mais dans le même temps déploie les conditions de surveillance et traitement-exploitation des données en lien avec ces avancées. L’opacité des algorithmes ne permet pas de connaître leur conception et mise en œuvre, afin de participer à la gouvernance des développements en matière d’IA générative, ou de cerner exactement la surveillance, la traçabilité et l’exploitation des données. Le consentement, face aux injonctions technologiques, conduit à l’acceptabilité de l’IA générative au nom de l’innovation dans un contexte d’économie numérique fondée sur des algorithmes, l’IA et l’exploitation de données d’usages collectées. La démultiplication des services attire ainsi les utilisateurs-consommateurs, dont l’attention est devenue une ressource dans le cadre de l’économie de l’attention, faisant partie de la surveillance des données, que Shoshana Zuboff (2019/2022) inscrit dans le capitalisme, non plus structuré par la propriété des moyens de production mais celle des outils de traçage et exploitation des données comportementales, voire de leur orientation pour conseiller/personnaliser en lieu et place de la manipulation, supportée par l’invasion des plateformes.

La protection des données dans un contexte de sophistication informatique avec les algorithmes et l’intelligence artificielle, pour toujours plus de traçabilité et d’exploitation de données doit donner encore lieu à la vigilance, sans nier les avantages de l’informatique et de l’intelligence artificielle. Cette dernière fondée sur une économie des données représente un enjeu informatique et société majeur puisque la captation permanente des données est nécessaire pour nourrir les systèmes d’intelligence artificielle, qui fait désormais l’objet d’un « AI Act » : « l’Union (européenne) doit agir en tant qu’organisme normatif mondial en matière d’IA ». En France, la mesure est prise avec un « avis relatif à l’impact de l’intelligence artificielle sur les droits fondamentaux » en avril 2022 .

À l’heure des développements de l’intelligence artificielle qui provoquent des craintes (communiqué CNIL du 8/07/2021) et font l’objet de travaux de réglementation, la recherche Informatique et Société, qui a tôt travaillé les enjeux sociaux de la surveillance, se préoccupe de l’intelligence artificielle qui renouvelle les systèmes biométriques pour traquer des profils d’individus, pour servir des intérêts sécuritaires et économiques, à la frontière de la discrimination interdite en vertu de l’article 21 de la Charte des droits fondamentaux de l’Union européenne. L’IA vise à automatiser les déductions exigeant des traitements massifs de données (non pas seulement personnelles, mais par recoupements sophistiqués, et avec des machines apprenantes en permanence). Les régulations et cadres réglementaires sont-ils suffisants pour protéger des droits inaliénables ? La demande d’une éthique ne suffit pas, même s’il s’agit d’engager des compromis dans le cadre de régulations en cours, avec le renfort des lois. La question concerne aussi le consentement : à l’heure des traitements par les systèmes d’IA, est-il vraiment éclairé ?

Programme de la journée

10h conférence introductive

Roger Bautier, Méconnaissance et autorité de l’IA générative

Fortement médiatisée, l’apparition de ChatGPT en novembre 2022 a attiré l’attention sur les développements de l’intelligence artificielle générative en mettant en lumière les performances des transformeurs pré-entraînés, qui offrent des potentialités à la fois diverses et massives pour le traitement de l’information, l’invention intellectuelle ou la production artistique. Ils ont montré, en particulier, leur aptitude à générer des suites de mots acceptables, sans que soit concernée leur relation au monde : ces suites peuvent être conformes aux contraintes de la langue et, plus largement aux aspects rhétoriques du discours, tout en n’impliquant aucune dimension référentielle. Au-delà de l’accomplissement de tâches linguistiques, les applications sont diverses et impressionnantes et les méthodes utilisées présentent des avantages incontestables, notamment en matière de quantité de données traitées et produites, que celles-ci soient unimodales (comme du texte) ou multimodales (textes, images, sons…).

On comprend dès lors que l’IA générative doive susciter un examen attentif de ses implications dans le domaine réglementaire en général, dans celui de la protection des données personnelles ou dans celui de son impact écologique. En guise d’introduction à cet examen, on se propose de présenter deux préalables qui ne sont pas encore très étudiés : d’une part, le déficit d’élucidation de son fonctionnement et, d’autre part, la construction problématique de son autorité.

Roger Bautier est Professeur émérite des Universités, USPN, LABSIC

10h45-11h30

Nicolas Berkouk, Régulation de l’Intelligence Artificielle : le point de vue d’une autorité de protection des données

L’essor fulgurant des performances des techniques d’apprentissage profond dans les années 2010 a permis de développer des systèmes qui rendent possibles des usages qui hier semblaient inaccessibles. Si ChatGPT en est l’exemple le plus populaire, l’intelligence artificielle ne se limite, et ne se limitera pas à ceux-ci, et on observe dès à présent une profusion de nouveaux systèmes qui reposent sur cette technologie : caméra intelligentes, voitures autonomes, médecine personnalisée, industrie 4.0, etc…
L’Union Européenne s’est dotée cette année, avec le règlement IA, d’un premier cadre réglementaire visant à encadrer la mise sur le marché des systèmes d’IA. Pour autant, ce règlement s’applique sans préjudice des textes européens pré-existants, et en particulier du Règlement Général sur la Protection des Données (RGPD). En effet, les données personnelles constituent le carburant par lequel les modèles d’IA sont nourris, et leur développement est donc soumis au RGPD.
Dans cette présentation, j’introduirai les grands enjeux jurico-techniques de l’application des principes de la protection des données au développement et déploiement de systèmes d’IA.

Nicolas Berkouk est Expert scientifique au sein du service IA de la CNIL

pause

11h45-12h30

Julien Cloarec, Analyser, interpréter, générer : les grands modèles de langue en interconnexion

L’intervention portera sur l’impact des grands modèles de langage (LLM) dans la structuration et l’analyse de corpus textuels, ainsi que leur rôle dans la génération de texte. Je débuterai par une explication de la manière dont les LLM permettent de vectoriser un corpus, c’est-à-dire de transformer le texte en représentations numériques exploitables pour diverses tâches d’analyse. Cette étape clé permet l’exploitation de vastes quantités de données textuelles, en créant des représentations vectorielles qui capturent les nuances sémantiques des mots et des phrases. À ce stade, j’évoquerai également l’importance des données personnelles utilisées dans l’entraînement des LLM, soulignant les enjeux de confidentialité et les précautions à prendre pour garantir que les représentations vectorielles ne compromettent pas la vie privée des individus. Ensuite, je montrerai comment ces modèles peuvent être utilisés pour analyser des textes, notamment à travers des techniques telles que le zero-shot topic modeling, où un LLM peut identifier des sujets dans un corpus sans nécessiter de données d’entraînement spécifiques. Cette forme d’analyse ouvre des perspectives pour l’exploration automatique de grandes bases de données textuelles. Ici encore, le rôle des données personnelles sera discuté, en particulier sur la manière dont ces informations peuvent influencer les résultats et la nécessité d’anonymiser les données pour éviter des biais ou des violations de la confidentialité. Je poursuivrai avec une discussion sur l’interprétation des résultats obtenus grâce aux LLM. L’accent sera mis sur la capacité de ces modèles à fournir des explications et des interprétations des sujets ou des thèmes extraits, facilitant ainsi la prise de décisions informées. À ce stade, j’aborderai les implications des données personnelles dans l’interprétation, en mettant en lumière les risques liés à l’identification involontaire de personnes à partir de données agrégées. Par la suite, j’expliquerai comment les LLM peuvent générer du texte à partir des interprétations obtenues, en présentant des exemples de génération de contenu basé sur les thèmes identifiés. Cette démonstration mettra en avant la puissance de ces modèles dans la création automatique de texte pertinent et contextuellement approprié, tout en considérant les précautions nécessaires pour que les données personnelles ne soient pas utilisées de manière inappropriée dans ce processus. Enfin, je conclurai par une réflexion sur la conceptualisation et les implications de ces IA interconnectées dans les pratiques professionnelles et académiques. L’objectif est de fournir une approche pratique et éclairée sur l’utilisation des LLM, en soulignant leur potentiel transformateur dans l’analyse et la génération de texte, tout en ouvrant la discussion sur les implications éthiques et les défis liés à l’utilisation des données personnelles à grande échelle dans ces processus.

Julien Cloarec est Professeur des Universités, Ingénieur diplômé en Informatique, Docteur en Sciences de Gestion, Université Jean Moulin Lyon 3, iaelyon School of Management

14h30-15h15

Olivier Koch : Les enjeux de l’IA dans les industries de presse

Le développement de l’IA générative conversationnelle a suscité de nouvelles incertitudes dans les secteurs de la presse. La désinformation en ligne optimisée par les performances de l’IA est appréhendée, au sein des rédactions, comme un facteur d’érosion croissante de la confiance des publics dans les médias. Les gains de productivité de l’IA, réels ou escomptés, provoquent une course aux équipements et partenariats stratégiques en même temps qu’elle soulève des enjeux de droit de la propriété intellectuelle de premier ordre, enjeux d’ailleurs fort similaires à ceux négociés avec de grandes plateformes sous forme de droits voisins. L’exécution automatisée de certaines tâches routinières des journalistes et des métiers de l’édition remet en question l’organisation, la division et le management du travail, suscitant de nombreuses inquiétudes des professionnels au sein de filières. À travers l’étude des documents et entretiens où ces incertitudes sont objectivées, cette communication propose de formaliser les positionnements en cours des industries de presse vis-à-vis des enjeux de l’IA générative

Oliver Koch est enseignant chercheur à l’USPN, rattaché au Labsic. Ses travaux portent sur l’évolution des industries de presse et des stratégies d’influence internationales. 

15h15-16h

Antoine Henry : Art et IA, exploration d’imaginaires artistiques

Cette communication explore de multiples imaginaires, travaux et créations entre la science, l’art et la société. Nous ferons un voyage exploratoire à travers des exemples pour parler de la créativité, de l’éthique et de l’utilisation d’algorithmes pour produire des œuvres d’art ou pour avoir une pensée critique sur l’IA. Dans tous ces exemples, nous trouvons la question du lien entre l’art et la science et comment ils se nourrissent l’un l’autre. À travers ce cheminement, nous reviendrons aussi plus particulièrement sur les enjeux associés à la donnée dans ce contexte artistique, à sa production, son exploitation, sa mise en forme voire sa restitution. Les artistes se positionnent alors à la pointe d’approches critiques et éthiques associées à l’IA.

Antoine Henry est Maître de conférences, à l’Université de Lille
pro.univ-lille.fr/antoine-henry/

Pause

16h15-17h

Yann Bonizec : L’intelligence artificielle au cœur des transformations écologiques et numériques 

Cette intervention explore l’interconnexion entre transformation numérique et écologique, en se concentrant sur le rôle de l’intelligence artificielle (IA). Contrairement aux visions traditionnelles de transition, les transformations en cours sont continues et nécessitent des ajustements constants. La médiance, définie comme la relation dynamique entre l’homme et son milieu, sert de cadre théorique. L’intervention examine les impacts négatifs de l’IA, tels que la consommation énergétique élevée et les déchets électroniques, ainsi que ses contributions positives à l’optimisation énergétique et à la réduction des émissions de carbone. En dépassant la logique de compensation, il est crucial d’adopter une approche intégrée et de repenser l’éco-conception. L’IA peut agir comme un instrument de la médiance, aidant à surmonter les sentiments d’impuissance face aux enjeux écologiques. La gestion équitable et éthique des données est centrale, nécessitant des régulations étatiques renforcées par des outils transactionnels innovants.

Yann Bonizec est maître de conférences associé à l’USPN et au LabSIC