"Des intelligences artificielles incontournables, mais des données à maîtriser"

Publié par Le Dôme, le 31 mai 2021   1k

Le 21 avril dernier, Le Dôme a proposé la conférence virtuelle "Data & IA : le vrai, le faux, le flou", avec quatre Normands spécialistes de ces sujets. Retour sur cette rencontre qui a permis de questionner la place de l'intelligence artificielle dans notre quotidien et les nombreux enjeux associés (éthique, écologie, économie…).

par Laura Bayoumy et Raphaël Pasquier (Grand Format)

DEUX ENTREPRENEURS,
UN CHERCHEUR ET UNE ARTISTE : LES INTERVENANTS

La recherche scientifique est représentée dans cet échange par François Rioult : chercheur en informatique au sein du laboratoire caennais GREYC, dont deux-tiers des membres travaillent sur des questions en rapport avec l'IA. Il fait partie de l'équipe CODAG, qui articule ses travaux autour de trois thèmes : la maîtrise de la donnée, le pilotage de la recherche du modèle optimal et l’intelligibilité du modèle résultant.

Avec l'entreprise caennaise MomentTech, dont il est directeur associé, Denis Escudier accompagne les porteurs de projets qui "ont à cœur de transformer leur activité" grâce aux données. Il est également co-président du collège entreprises du DataLab Normandie, un consortium qui rassemble une trentaine d'acteurs de la donnée : collectivités publiques, laboratoires de recherche, entreprises. 

L'artiste plasticienne Marion Balac développe actuellement son premier projet centré sur l'IA. En résidence à l'ésam, elle a créé un chatbot pour "la relayer sur le site de l'école en son absence". Nourri de conversations avec les étudiants pendant le premier confinement, ce chatbot propose un "portrait collectif de l'école et de ses acteurs par la génération de texte aléatoire".

Depuis plus de 25 ans, Hervé Halbout accompagne collectivités et entreprises en tant que consultant en système d'information géographique et modélisation 3D. Il est interloqué par "la méconnaissance du patrimoine de données" de ses clients et milite pour une grande traçabilité dans l'utilisation des données. Co-auteur d'une charte d'éthique de la 3D, il est également membre du comité d'éthique du DataLab Normandie.

"CA N'A D'INTELLIGENCE QUE LE NOM"

Du point de vue de la recherche scientifique, les bases de l'IA sont posées par Alan Turing, “considéré comme le père de l'informatique”, rappelle Denis Escudier. Le mathématicien britannique décrit en 1950 dans un article pour la revue Mind le "jeu de l'imitation" via lequel une machine serait capable de répondre comme un humain à une série de questions. L'acte de naissance de l'IA comme discipline à part entière remonte à 1956 lors de la conférence de Dartmouth, aux Etats-Unis.

Pour François Rioult, on peut même remonter à l'Antiquité, durant laquelle les philosophes grecs ont posé la base de la logique. Il cite aussi le logicien autrichien Kurt Gödel, qui a montré dans les années 1930 que la possibilité de formalisation du raisonnement humain est limitée. Plus généralement, il explique que "l'être humain a toujours poursuivi ce but d'automatiser, de concevoir des machines, pour le remplacer".

"Ce qu'on qualifie d'intelligence artificielle c'est l'aspect mimétique d'une machine qui prend une décision à la place de l'humain", définit le chercheur du Greyc. Hervé Halbout poursuit sur l'utilité de cet outil informatique : "l'intelligence artificielle est incontournable aujourd'hui parce que la production de données est tellement monumentale, chaque jour, qu'on croule sous la masse d'informations."


La définition de Cédric Villani

"C’est probablement cette alliance entre des projections fictionnelles et la recherche scientifique qui constitue l’essence de ce qu’on appelle l’IA"

Extrait de l'introduction du rapport Donner un sens à l'intelligence artificielle. Pour une stratégie nationale et européenne publié par le député et mathématicien Cédric Villani, en 2018.



Denis Escudier précise les deux grands types d'IA qui existent aujourd'hui. D'un côté, celles qui poursuivent la voie initiale du "mimétisme entre le comportement de l'humain et de la machine". De l'autre, celles qui sont destinées aux entreprises et constituent des "aides de prise à la décision".

Le terme d'intelligence utilisé dans la dénomination de l'IA ne fait pas consensus. "Ça reste un calcul bête et méchant, ça n'a d'intelligence que le nom", tranche François Rioult. Marion Balac rappelle l’utilité des projections fictionnelles dans ce domaine. L'environnement fictionnel joue d'ailleurs un rôle "très important" dans son œuvre autour d'un chatbot : "il fonctionne à partir d'une base de données assez pauvre. C'est aussi un contrepoint à cette idée d'intelligence, puisque les réponses du chatbot sont, en globalité, assez stupides."


DE LA RECONNAISSANCE FACIALE À LA MAINTENANCE PRÉDICTIVE : DES USAGES MULTIPLES

L'intelligence artificielle est présente dans notre quotidien, notamment dès que l'on ouvre un navigateur internet ou un mail. Certains usages de l'IA sont plus inattendus ou encore plus inquiétants, en voici quelques-uns retenus par les intervenants de la conférence.

Marion Balac souligne qu'au-delà de sa création autour d'un chatbot, "énormément" d'artistes s'emparent de l'IA avec des projets "passionnants". Il s'agit de "détourner des outils industriels pour en faire des choses qui seraient totalement atterrantes dans un contexte économique. On est vraiment dans des choses beaucoup plus expérimentales où l'échec peut être attendu, faire partie de l'expérience".


Ça questionne énormément l'éthique

Hervé Halbout, consultant en système d'informations géographiques


Hervé Halbout évoque les inquiétudes qui se développent autour des outils de reconnaissance faciale, car ils permettent, avec une précision accrue, d'identifier et de classer des individus. "On part bien d'une donnée brute, dont on fait un usage de plus en plus affiné et qui questionne énormément l'éthique. On en arrive à des usages multiples qui vont jusqu'à la surveillance de masse et autres choses que je n'imagine même pas."

François Rioult, qui dans une autre carrière a retravaillé la bande-son de films anciens, est lui bluffé par les capacités de restauration de vidéos actuelles à partir de banques d'images. "J'ai vu des images du début du XXe siècle et de la fin du XIXe qui étaient impressionnantes de piqué, de précision."

Denis Escudier raconte l'expérience que son entreprise a proposé lors du salon CES de Las Vegas, en 2019. Leur stand présentait une IA à qui on avait fait apprendre différents styles de peintres, et qui proposait une représentation en temps réel des visiteurs selon les différents styles appris.



Quand l'IA se prend pour Dali

Au-delà de l'expérience de MomentTech, l'utilisation de l'IA par les artistes pour créer se développe. Un tableau peint grâce à un algorithme a été ainsi vendu à plus de 400 000 dollars et alimenté la controverse. Dans un autre style, on peut citer l'œuvre de Nathan Shipley, qui a notamment mené un projet utilisant la technologie deepfake pour redonner vie, virtuellement, à l’artiste, Salvador Dali.


Le directeur associé de MomentTech répond également à une question concernant la maintenance prédictive. "C'est tout simplement d'aller regarder les données qu'émettent les machines sur des chaînes de production, et de dire : à partir d'autant d'heures le robot va devoir changer telle pièce. Pour éviter de devoir interrompre une usine, ce qui est toujours un gros problème." Cette démarche peut aussi concerner l'entretien des voies ferrées grâce à une reconnaissance vidéo par drone de portions en voie de dégradation.


Photo by Lenny Kuhne on Unsplash

PEUT-ON FAIRE CONFIANCE À L'IA ?

Parmi les exemples cités par les intervenants figurent aussi des IA qui se sont trompées ou ont dérapé. Marion Balac évoque ainsi la mésaventure Tay, un chatbot développé par Microsoft, pour dialoguer avec les adolescents sur les réseaux sociaux. Manipulé par un certain nombre d'utilisateurs, le chatbot a fini par tenir des propos négationnistes et a été désactivé. L'artiste est encore étonnée que Microsoft "ait eu la naïveté de penser qu'on ne passerait pas par un épisode troll très fort". 

François Rioult explique que cela est inhérent au procédé de génération automatique de texte. "Il suffit que le chatbot se trouve embarqué dans ce qu'on peut qualifier un puits de potentiel. Il va rester dans sa cuve et se mettre à dériver avec des propos nazis, sexistes..." Il cite à ce propos le cas d'un service de génération de texte tellement performant, que l'organisation OpenAI a refusé de le rendre public.

Pour éviter les biais dans lequel peut facilement tomber une IA, il faut constamment adapter l'algorithme, explique Denis Escudier. "Le biais peut s'installer par un défaut de programmation, la personnalité du programmeur, ou encore des données corrompues."


Qui va être responsable d'un accident ?

Denis Escudier, directeur associé de MomentTech


Dans le monde de l'entreprise ou dans la vie quotidienne, la fiabilité des algorithmes est essentielle pour assurer la sécurité des systèmes. Les défaillances potentielles des IA posent donc de sérieuses questions légales. Le directeur associé de MomentTech cite ainsi l'exemple du véhicule autonome : "Qui va être responsable juridique d'un accident quand on a confié l'autonomie du véhicule à une machine ? Il y a un casse-tête des assurances, un vrai problème de responsabilité."

De nombreuses recherches sont menées pour développer ce qu'on appelle l'IA de confiance, poursuit-il. Il s'agit de "déterminer que l'IA n'agit pas avec un phénomène de boîte noire, c'est-à-dire non explicable". L'Union Européenne s'est ainsi emparée du sujet, visant à devenir "le pôle mondial d‘une intelligence artificielle digne de confiance".

Ces ambitions politiques et scientifiques se heurtent à l'utilisation de plus en plus massive du deep learning, dont on a justement "énormément de mal à interpréter les décisions", indique François Rioult.

LE BOOM DU DEEP LEARNING DEPUIS LES ANNÉES 2000

Le deep learning, signifiant apprentissage profond, est une forme d’intelligence artificielle qui utilise un réseau de neurones artificiels “conceptualisé dans les années 1960”, indique François Rioult, chercheur au Greyc. 

Du concept à la pratique, plusieurs décennies d’années se sont écoulées avant que le deep learning ne connaisse le succès. Mais à l’aube des années 2000, “l'avènement d’internet” rebat les cartes et propulse cette IA. 

“De grandes bases de données, d’images, textes et signaux se sont constituées”, et, comme l’explique le chercheur, les IA ont justement “besoin d’énormément de données pour effectuer un cycle d’apprentissage”.

Outre la disponibilité des données, l’essor du deep learning a été facilité grâce à des machines de plus en plus puissantes et grâce à la base de neurones dont l’ingénierie a été améliorée récemment. 



Comment fonctionne le réseau neuronal du deep learning ?

Un neurone artificiel est une abstraction informatique qui réagit à plusieurs signaux d’entrée. Le neurone va analyser les différents signaux sur son entrée et va lui-même émettre un signal de sortie. C’est ce qu’on appelle des calculateurs universels. À partir du moment où vous avez une fonction à apprendre à un réseau de neurones, il suffit de lui donner quelques points d’entrées.

LES IA SONT-ELLES RACISTES ?

Les qualités que l’on prête au deep learning ne sont autres qu’une collecte de données qui n’ont rien à voir avec l’apprentissage humain. Cette expérience racontée par François Rioult le prouve :

“On voyait une personne blanche mettre ses mains sous le sèche-main, celui-ci s’allumer et ne pas s’allumer sur des mains noires. Ce n’est pas que la machine est raciste, c’est que la machine a été entraînée à s’allumer pour reconnaître des mains blanches. Les IA sont le reflet des programmeurs, car elles travaillent sur des données elles-mêmes biaisées”, affirme le chercheur. 

En atteste cette étude du MIT Media Lab réalisée sur les biais raciaux et publiée en février 2018. Les taux d’erreur des logiciels des systèmes de reconnaissance faciale d’IBM et Microsoft étaient inférieurs à 1% quand il s’agissait de d’un homme blanc, tandis qu’ils étaient à presque 35% quand il s’agissait d’une femme noire.


Image by Gerd Altmann from Pixabay

VOS DONNÉES GRATUITES CONTRE LEURS SERVICES PAYANTS

Comme le rapporte la revue Usbek et Rica, pour affiner les algorithmes de son logiciel, la start-up chinoise CloudWalk Technology a conclu un marché avec le gouvernement zimbabwéen : un dispositif de surveillance, en échange de données de visages noirs. 

Dans cet accord gagnant-gagnant au demeurant, figure un perdant : les citoyens qui n’ont pas donné leur consentement. 

Ce cas de figure semble extrême et singulier, pourtant, il n’a rien d’anecdotique. La captation, non consentie, des données personnelles s’effectue au quotidien à des fins sécuritaires ou commerciales. C’est même tout l’objet du travail des data brokers, autrement dit, des courtiers en données. 

"Chacun est producteur de données. Ne serait-ce que le GPS, lorsque l’on confie à Google, l’itinéraire emprunté, c’est une information”, indique François Rioult.

Ou encore les notes vocales qui se transforment en notes scriptées, via Siri, par exemple. Ce dernier indique que les services de Google sont parfois payants pour les usagers, alors que ces mêmes usagers ont été une source gratuite de données, nécessaires à la création de ces services. 



Espionnés par nos smartphones

Notre téléphone nous écoute-t-il pour nous proposer des publicités ciblées ? Oui selon cet article de Vice, qui cite notamment un expert en cybersécurité. C'est moins le téléphone en lui-même que certaines applications tierces qui utiliseraient ce procédé, sans pour autant revendre les données ainsi extraites.



Cela pose la question de la source, de l’usage et de l’éthique des données. Marion Balac, l’artiste, interroge ce rapport au consentement. Avec son chatbot, elle recueille les confidences des étudiants. “Ceux-ci savent pertinemment que le but est de produire de la donnée et certains espèrent même retrouver leurs témoignages et les traces de cet espace de vie en ligne”, affirme l’artiste.


DATA, CE PATRIMOINE À LA VALEUR SOUS-ESTIMÉE

Pour Hervé Halbout, production de données rime avec patrimoine. Selon le consultant, c’est en quelque sorte le nerf d’une guerre économique qui ne dit pas son nom. Les citoyens laissent fuiter, gratuitement, des données confidentielles au profit d’entreprises — les fameux data brokers, ces courtiers en données — qui engrangent des “bénéfices colossaux” en capturant et revendant ces données.

C’est l’un des enjeux abordés par le DataLab Normandie qui s’applique à sourcer des catalogues existants, agréger des métadonnées et descriptifs sur la région Normandie, partagées notamment grâce à l’open data — ces données rendues publiques au sujet des territoires, tels que les collectivités, départements, régions. 



Il faudrait obliger les producteurs de données à prendre conscience de la valeur de ce qu’ils laissent gracieusement aux GAFAM.

Hervé Halbout, consultant en système d'information géographique



Il résume ainsi : “Si les GAFAM (Google, Apple, Facebook, Amazon et Microsoft) ont des données sur la région Normandie c’est que la région les intéresse. Si elles existent, c’est qu’elles ont été produites quelque part. Le but du DataLab est de prendre connaissance de ces données régionales en tant que telles pour ne pas avoir à les acheter ailleurs”. 

Denis Escudier complète : “On ne prévoit pas spécialement d’acheter les données, d’où l’importance du comité d’éthique. On veut être sûr que ces données sont traçables et utilisables sous condition”.

Et Hervé Halbout de souligner un “double objectif : savoir et comprendre ce qui existe, et obliger les producteurs de données à prendre conscience de la confidentialité mais surtout de la valeur de ce qu’ils laissent gracieusement à ces entreprises”.


LE MONOPOLE AMÉRICAIN SUR LA DONNÉE

Pour Denis Escudier, cet enjeu doit pousser à la vigilance et à la proposition d’alternatives, y compris à l’échelle nationale. “On livre des pans entiers de l’économie à des acteurs qui vont s’empresser de créer des structures qui s'attaqueront à des marchés européens avec les données qu’on leur a livrées.” 

L’externalisation de la donnée s’est “terriblement accélérée”, laissant aux Etats-Unis, le monopole. Évoquant une alternative à WhatsApp, il cite Scred, OVH, le Cloud français.

Depuis mars 2021, l’Union Européenne et les Etats-Unis veulent trouver un accord permettant le transfert des données personnelles. L’idée étant de mettre un terme au flou juridique qui persiste depuis que la Cour de justice de l’UE a retoqué le « Privacy Shield », en juillet 2020. 

Ce mécanisme de transfert de données personnelles de l’UE vers les Etats-Unis, était décrié par les défenseurs des libertés individuelles en raison de craintes sur les programmes de surveillance américains. Mais depuis, environ 5 000 entreprises américaines, parmi lesquelles figurent des GAFAM, ont dû se replier sur des alternatives “à la légalité plus incertaine”, comme le souligne l’AFP.



RGPD : Près de 130 amendes infligées par la France

A noter que les sanctions infligées pour violation du Règlement général sur la protection des données (RGDP) sont de 171,3 millions d'euros en 2020, d'après le média britannique Finbold. La France a infligé 128 amendes, notamment à l’encontre de Carrefour France et Carrefour Banque, pour un total d'environ 3 millions d'euros. 



IMPACT ÉCOLOGIQUE IMPORTANT MAIS DIFFICILE À QUANTIFIER

Photo by Taylor Vick on Unsplash


Pour Hervé Halbout, le coût écologique du numérique est tel qu’il faut impérativement se limiter en se posant la question : “jusqu’où doit-on ne pas aller ?” François Rioult souligne : “une requête, sur internet, dégage 8 grammes de CO2”. 

Une affirmation qui trouve sa source dans le journal anglais Times qui s’était appuyé sur les travaux du physicien de l'Université de Harvard Alex Wissner-Gross, en 2009. Quelques jours après la publication, le chercheur a rejeté cette information, comme l’indique Le Monde. C’était en 2009 et malgré sa réactivité, ce chiffre s’est répandu comme une traînée de poudre.

“Dans notre étude, nous nous sommes concentrés exclusivement sur l'ensemble des sites Internet et nous avons constaté, qu'en moyenne, une visite sur un site traditionnel émet 20 mg de CO2 par seconde », nuance le chercheur.

François Rioult résume : “Tout ça est consommateur d’énergie, ne serait-ce qu’en scrollant son écran”. 

Et d’expliquer que pour répondre à une requête, Google compte sur des millions de PC qui s’activent en même temps pour assurer un temps de réponse efficace. 

Sans compter l’obsolescence programmée qui pousse à se séparer des machines pour les remplacer, la production de ces machines qui nécessitent des matières premières telles que les terres rares, etc.

Le rapport de la mission d’information sénatoriale sur l’empreinte environnementale du numérique est accablant : “il n’existe pas de stratégie transversale publique visant à en atténuer les impacts environnementaux.” En février 2021, toujours rien n’est lancé mais le Sénat doit bientôt être saisi du projet de loi "climat".



L’impact écologique du numérique en quelques chiffres

Selon un rapport du Sénat, datant de 2020, la part du numérique dans les émissions de gaz à effet de serre en France s’élève à 2 %, en 2019 et s’élèvera à 6,7 %, en 2040. L’augmentation de la consommation de données 4G se traduit par une hausse de 30 % par an. Enfin, la durée de vie moyenne d'un smartphone est de 23 mois.



“En 2050, la moitié de la consommation électrique de l’énergie mondiale sera utilisée pour faire tourner des climatiseurs à destination des machines”, selon François Rioult. 

Sachant que “16 % de la consommation électrique mondiale est aujourd'hui engendrée par le numérique, et qu'elle va croître de 50 % en 2020”, indiquaient Les Echos, en 2018. Sur le site gouvernemental France Stratégie, “d’ici 2025, la consommation énergétique du numérique devrait continuer à croître à un rythme annuel de 10 % et pourrait se situer entre 5 700 et 7 300 TWh en 2025”.

Pour François Rioult, “on devra aller vers du raisonné. Il serait important de réfléchir à tout ça plutôt que de continuer à prophétiser l’avènement d’une intelligence artificielle, telle que la voiture autonome ”.

Le collectif de chercheurs Labos 1point5, fondé en 2019, commence par exemple à s’intéresser à la consommation énergétique des laboratoires. Selon le chercheur, il faudrait déjà éduquer les citoyens à la frugalité numérique en leur apprenant à éteindre leur téléphone portable, la nuit, ou à couper l’heure sur la box internet.

L’occasion de souligner qu’en Normandie, Webaxys a implanté le premier datacenter éco-responsable. Selon Denis Escudier, il a été construit “pour prévoir que la climatisation entre en ligne de compte avec un gain de 12 à 15 degrés par rapport à la climatisation habituelle. De plus, la chaleur produite est réutilisée”. À une autre échelle, Google vise une consommation d’énergie de ses data center entièrement décarbonée d’ici 10 ans.





Cet article a été rédigé par Laura Bayoumy et Raphaël Pasquier, journalistes freelance, après avoir fact-checké la conférence  "Data, IA et moi" en live le 21 avril dernier. En partenariat avec Grand Format, magazine indépendant, en ligne, proposant des portraits, des reportages et des enquêtes en Normandie.



La conférence "Data, IA & moi : le vrai, le faux, le flou " s'est déroulée dans le cadre du projet “DataLab Normandie”. Le parcours “Data, IA et moi” est animé par Le Dôme, financé par la Région Normandie et l'Union européenne dans le cadre du Fonds européen de développement régional (FEDER).



Actualités, rendez-vous, articles et ressources, ... Suivez toute l'actualité du parcours dans notre dossier spécial "Data, IA et moi".


Crédits : Sander Weeteling (Unsplash)