Un essai de Gérard Berry, Odile Jacob, 2025Nous sommes aujourd’hui capables de mesurer et de partager le temps avec une précision stupéfiante. Mais en comprenons-nous vraiment toutes les dimensions ? Sommes-nous conscients des nouveaux enjeux, souvent cruciaux, que les systèmes ultra-performants qui rythment notre quotidien soulèvent ?
Dans cet ouvrage, Gérard Berry propose une présentation totalement inédite du sujet. Il ne se contente pas d’exposer des faits scientifiques ou techniques. Dans un style qui lui ressemble tellement, en véritable conteur, il nous parle du temps, avec sérieux, poésie, humour, avec une fraîcheur qui réjouit.
Professeur au Collège de France, ancien titulaire de la chaire Algorithmes, machines et langages (2012–2019), médaille d’or du CNRS et membre des Académies des sciences et des technologies, Gérard Berry est également l’auteur de L’hyperpuissance de l’informatique. Il nous livre ici un regard aussi érudit qu’original sur ce que le temps signifie vraiment.
On entend beaucoup dire que les LLM ne savent pas raisonner. Pourtant, des modèles de langage semblent capables de raisonner. Comment est-ce possible ? Pour résoudre ce mystère, nous avons demandé à un expert du domaine, Guillaume Baudart, d’expliquer à binaire ce « miracle ». Serge Abiteboul et Pierre Paradinas
Les grands modèles de langage (LLMs pour Large Language Models) sont des modèles d’intelligence artificielle capables de générer du texte en langage naturel. Entraînés sur d’immenses quantités de données, ces modèles sont au cœur d’applications comme ChatGPT (openAI) ou Le Chat (Mistral). Grâce à des développements récents, ces modèles sont de plus en plus utilisés pour des tâches allant de la génération de code à la résolution de problèmes mathématiques à partir de descriptions en langage naturel. Mais que veut dire raisonner pour ces modèles ? Peut-on se fier aux résultats ?
D’un autre côté, les assistants de preuve tels que Rocq permettent de valider une preuve mathématique avec un très haut niveau de confiance, mais l’expertise nécessaire pour utiliser ces outils les rend difficiles d’accès.
Faire communiquer efficacement un LLM et un assistant de preuve permettrait d’atteindre deux objectifs complémentaires. D’abord, l’assistant de preuve peut valider les raisonnements générés par un LLM. Ensuite, les LLMs offrent une interface conversationnelle intuitive qui peut faciliter l’utilisation de ces assistants jusque-là réservés aux experts.
Deux lois d’échelle pour les LLMs
On assiste aujourd’hui à une course mondiale pour développer des modèles de plus en plus puissants. Les chiffres donnent le tournis : les modèles les plus récents contiennent des centaines de milliards de paramètres, sont entraînés sur des milliards de textes d’origines diverses, et leur coût d’entraînement est estimé à des dizaines de millions de dollars. Pour donner un exemple récent, le modèle DeepSeek-V3 contient 671 milliards de paramètres et son entraînement a demandé près de 3 millions d’heures GPU (les processeurs graphiques utilisés pour les calculs intensifs). Si ce modèle a fait les gros titres parce que son entraînement a été incroyablement efficace pour sa taille, il aura quand même coûté environ 6 millions de dollars.
La course aux grands modèles s’explique par une observation simple : les performances augmentent avec la taille des modèles. Plus précisément, lors de l’entraînement, les paramètres (des milliards de nombres qui contrôlent le comportement du modèle) sont ajustés pour optimiser un objectif qu’on appelle la perte. Dans le cas des modèles de langage comme les LLMs, on demande au modèle de compléter un texte connu (partiellement masqué) et la perte mesure la distance entre le texte généré et le texte original. Par exemple, « Le petit chat est mort. » est très proche de « Le petit chat est fort. » mais assez loin de « Le ciel est bleu aujourd’hui. ».
Or, on a observé dès 2020 une loi d’échelle pour l’entraînement des LLMs : la perte évolue selon une loi de puissance avec la quantité de calcul (nombre de paramètres, tailles de corpus d’entraînement, et temps d’entraînement). Et plus la perte est faible, plus les modèles deviennent performants pour diverses tâches : résumer, extraire de l’information, faire des raisonnements mathématiques, générer du code informatique, etc. Il est par ailleurs possible de spécialiser les LLMs sur une tâche spécifique en complétant leur entraînement sur des données ciblées.
Beaucoup plus récemment, on a également observé une nouvelle loi d’échelle pour l’inférence : les performances d’un modèle augmentent aussi avec la taille du texte généré lors de son utilisation. Confronté à une question, les modèles récents commencent par générer un long texte appelé chaîne de pensées qui imite un comportement humain. En utilisant le contenu de la chaîne, le modèle peut ensuite synthétiser un résumé.
Des tubes de peinture contiennent 8 centilitres d’un mélange de jaune et de bleu. Il y a du bleu et du jaune dans chaque tube. Mon premier tube contient un quart de la quantité totale de jaune et un sixième de la quantité totale de bleu. Combien y a-t-il de tubes ?
Si certaines applications (comme ChatGPT) masquent les chaînes de pensées, on peut parfois demander au modèle de nous montrer tout le texte généré. Voici par exemple la chaîne de pensées générée par DeepSeek-R1 pour ce problème (attention spoiler, le raisonnement original en anglais a été traduit).
Ok, essayons de déterminer combien il y a de tubes. Le problème indique que chaque tube contient 8 centilitres d’un mélange de jaune et de bleu. Chaque tube contient les deux couleurs. Le premier tube contient un quart du total de jaune et un sixième du total de bleu. Nous devons trouver le nombre de tubes.
Hmm, décomposons le problème. Je vais noter la quantité totale de peinture jaune Y et la quantité totale de peinture bleue B. Chaque tube contient une certaine quantité de jaune et de bleu, pour un total de 8 cl. Le premier tube contient 1/4 du total de jaune et 1/6 du total de bleu. Donc, la quantité de jaune dans le premier tube est Y/4, et la quantité de bleu est B/6. Puisque chaque tube contient 8 cl au total, alors Y/4 + B/6 = 8. C’est une équation.
Maintenant, pensons aux autres tubes. Il y a n tubes au total. Chacun des (n – 1) tubes restants doit également contenir du jaune et du bleu, mais combien ? Comme le problème ne spécifie pas de distribution particulière pour les autres tubes, sauf qu’ils contiennent tous les deux couleurs, peut-être pouvons-nous supposer que le reste de jaune et de bleu est réparti équitablement entre eux ? Attendez, mais le problème ne dit pas cela. Hmm, peut-être avons-nous besoin d’une autre approche.
Alternativement, puisque le premier tube contient Y/4 de jaune et B/6 de bleu, alors la quantité restante de peinture jaune est Y – Y/4 = (3/4)Y, et la quantité restante de peinture bleue est B – B/6 = (5/6)B.
[…]
Est-ce possible ? Voyons voir. Par exemple, si nous répartissons le reste de jaune à raison de 3 cl par tube (12/4=3) et le reste de bleu à raison de 5 cl par tube (20/4=5), chaque tube contiendrait 3+5=8 cl, ce qui fonctionne. Donc oui, c’est possible. Toutes les conditions sont satisfaites si n=5. Donc, la réponse est 5 tubes.
Mais laissez-moi vérifier à nouveau. Si n=5, le volume total est de 40 cl, Y=16, B=24. Premier tube : 4 jaune, 4 bleu. Reste 12 jaune et 20 bleu. 12/4=3, 20/4=5. Chaque tube restant contient 3 jaune et 5 bleu. Cela fait 8 cl chacun, et tous contiennent les deux couleurs. Donc cela fonctionne. Par conséquent, le nombre de tubes est 5.
On peut voir le modèle essayer plusieurs approches, se corriger, vérifier ses résultats, presque comme un étudiant en train de passer un examen devant un tableau noir. Le texte est ponctué d’expressions comme : « Ok, essayons de déterminer », « peut-être pouvons-nous supposer », « Attendez », « Hmm », « Est-ce possible », « laissez-moi vérifier » qui incitent le modèle à continuer la génération de texte pour progresser dans le raisonnement. Le modèle peut ensuite synthétiser une réponse courte et structurée en résumant cette chaîne de pensées. Les LLMs les plus récents, dits modèles de raisonnement, sont spécialisés lors de l’entraînement pour générer ces chaînes de pensées.
Cette nouvelle loi d’échelle ne s’arrête pas aux chaînes de pensées. Plutôt que d’investir toute la puissance de calcul au moment de l’entraînement, on utilise maintenant les ressources de calcul pour exploiter au mieux les textes générés. Une technique simple consiste à générer plusieurs chaînes de pensées en parallèle avant de choisir celles qui ont donné les meilleurs résultats. On peut également utiliser des algorithmes de recherche arborescente : à chaque étape de raisonnement, on génère plusieurs solutions, mais on ne fait progresser que les plus prometteuses.
En combinant toutes ces approches, il est aujourd’hui possible de spécialiser de relativement petits modèles qui atteignent des performances comparables à celles des énormes LLMs les plus connus (GPT-4o, Claude Sonnet, Gemini) pour un budget beaucoup plus modeste.
Ces nouveaux développements posent une question fondamentale : comment vérifier les raisonnements produits par les LLMs ? Cette question, qui était déjà préoccupante pour les premiers LLMs, devient cruciale pour les modèles de raisonnement pour lesquels une hallucination (une information fausse et inventée) peut complètement fausser la chaîne de pensées.
On construit donc des agents : des applications capables de coupler les LLMs avec des outils externes pour valider le texte généré (par exemple pour faire des recherches sur le web, ou pour exécuter du code généré par le LLM), et des algorithmes de recherche.
Généré par Théo Stoskopf à l’aide de ChatGPT. L’oiseau est inspiré du logo de l’assistant Rocq.
Valider les chaînes de pensées avec un assistant de preuve
Fruit d’un travail à l’intersection de la logique mathématique et la théorie des langages de programmation, les assistants de preuve sont des outils qui permettent à un ordinateur de vérifier un raisonnement mathématique. Une preuve est décomposée en étapes logiques et l’ordinateur vérifie que chaque étape respecte les règles de la logique mathématique. Si une preuve repose sur l’utilisation d’un théorème, l’ordinateur vérifie que toutes les hypothèses sont bien vérifiées et que la conclusion suffit à prouver le résultat attendu
Les assistants de preuve comme Rocq (anciennement Coq), Lean ou Isabelle sont des outils interactifs. L’utilisateur propose une étape de raisonnement que l’ordinateur vérifie avant d’indiquer à l’utilisateur ce qu’il reste à démontrer. Prenons un exemple très classique :
Tous les hommes sont mortels. Socrate est un homme. Donc, Socrate est mortel.
Le but initial est de prouver Socrate est mortel. Pour prouver ce théorème, on peut commencer par spécialiser la première prémisse Tous les hommes sont mortels à l’individu Socrate. L’assistant ajoute alors une nouvelle hypothèse : Si Socrate est un homme alors Socrate est mortel. On applique alors la seconde prémisse Socrate est un homme à cette hypothèse et l’assistant vérifie qu’on obtient bien Socrate est mortel.
Buste d’origine romaine en marbre de Socrate, Le Louvres
En théorie, ce fonctionnement interactif est parfaitement adapté pour développer un agent capable de vérifier un raisonnement mathématique. Chaque étape de raisonnement est validée par l’assistant de preuve, et les réponses (ou les messages d’erreur) de l’assistant de preuve nourrissent le LLM pour générer les prochaines étapes de raisonnement. Malheureusement, cet exercice de formalisation reste particulièrement difficile pour les humains comme pour les LLMs. Des LLMs récents sont aujourd’hui très performants pour la génération de code, mais l’exercice de preuve formelle ajoute une contrainte fondamentale qui rend l’exercice beaucoup plus compliqué : la preuve n’est terminée que si le code est parfaitement correct. Il n’y a aucune approximation possible. Par ailleurs, le code doit être écrit dans un langage spécialisé dont il existe relativement peu d’exemples au milieu des immenses quantités de données utilisées lors de l’entraînement.
Pour utiliser au mieux les capacités des LLMs, on peut réutiliser l’idée des chaînes de pensées. Plutôt que d’essayer de générer directement du code, on demande au modèle de décrire le théorème et ses hypothèses en langage naturel (par exemple en anglais ou français) et de suggérer un schéma de preuve, avant de générer le code en résumant la chaîne de pensées.
Couplé avec des algorithmes de recherche, cette approche commence à donner des résultats impressionnants sur des exercices de niveau lycée ou licence [1-2-3]. En utilisant une technique d’apprentissage « par renforcement » AlphaProof, un modèle entraîné par Google Deepmind sur des millions de théorèmes générés automatiquement, a même réussi à prouver avec l’assistant de preuve Lean des problèmes d’olympiades de mathématiques, atteignant le niveau d’une médaille d’argent.
Un assistant d’assistant de preuve
Les assistants de preuve sont donc des outils précieux pour valider les raisonnements générés par les LLMs. En changeant de perspectives, les LLMs peuvent également modifier en profondeur la manière dont nous utilisons des assistants de preuves qui restent aujourd’hui des outils réservés aux experts.
Si le code final doit être écrit dans un langage de programmation spécialisé, les chaînes de pensées générées lors du raisonnement sont écrites en langage naturel. Un humain peut donc facilement inspecter le raisonnement pour comprendre le code suggéré par l’assistant, voire directement intervenir pour le corriger. Les LLMs permettent ainsi de développer des interfaces conversationnelles : il devient de plus en plus possible de « discuter » (en français ou en anglais) avec l’assistant de preuve pour formaliser un théorème sans être un expert du langage de programmation spécialisé.
Les logiciels d’édition de code intègrent déjà ce genre de technologies pour les langages les plus populaires comme Python ou JavaScript. Ces assistants rendent de nombreux services qui vont de l’autocomplétion (compléter un bout de code à partir du contexte et des commentaires) à l’analyse de documentation (par exemple pour retrouver une fonction ou un théorème à partir d’une description floue en langage naturel).
L’utilisation des LLMs pour les assistants de preuve est un domaine de recherche aujourd’hui très actif. On cherche à développer des agents capables de faciliter de nombreuses tâches qui restent difficiles ou ingrates pour les humains. Par exemple, en utilisant les impressionnantes capacités de traduction des LLMs, on aimerait traduire directement un livre de mathématiques (théorèmes et preuves) dans le langage de l’assistant de preuve. Cette tâche suppose d’être capable de comprendre le contexte, les hypothèses implicites propres à chaque domaine, et la nature des objets mathématiques manipulés. Les LLMs récents entraînés sur de très nombreux textes mathématiques (avec différents niveaux de rigueur) peuvent faire des associations d’idées pour combler les « trous » entre le langage naturel du livre et sa formalisation dans un assistant de preuve. Ce problème reste très difficile, mais une solution partielle générée par un LLM peut être un point de départ précieux pour un humain.
Enfin, le comportement d’un programme peut aussi être formalisé dans un assistant de preuve. Il est donc possible de prouver qu’un programme est correct. Par exemple, on peut prouver qu’une fonction de tri en Python ou JavaScript renvoie toujours un tableau trié. À plus long terme, on aimerait avoir des assistants capables de traduire une spécification en langage naturel vers un code exécutable, une formalisation de la spécification, et une preuve de correction qui montre que le code correspond bien à sa spécification. Les assistants de preuve aidés par des LLMs permettraient ainsi de garantir que le code généré par un LLM est bien correct ! C’est un enjeu crucial dans un monde où le code informatique des applications que nous utilisons tous les jours devient de plus en plus généré automatiquement par ces modèles.
Conclusion
Faire communiquer LLMs et assistants de preuve ouvre des perspectives prometteuses pour l’avenir de l’intelligence artificielle et de la vérification formelle. En combinant la capacité des LLMs à générer des raisonnements complexes en langage naturel avec la rigueur des assistants de preuve, il devient possible de développer des agents capables de vérifier des preuves mathématiques. Ces agents pourraient non seulement améliorer la fiabilité des résultats produits par les LLMs et les capacités de raisonnement des futures générations de modèles, mais aussi rendre les outils de preuve formelle aujourd’hui réservés à des experts plus accessibles.
Note : Merci à Vincent Baudart, Paul-André Melliès, Marc Lelarge, Théo Stoskopf, Jules Viennot, et Sarah Winter pour leurs relectures et leurs suggestions.
Nous avons la profonde tristesse de vous annoncer le décès de Jean-Pierre Archambault, Président de l’EPI, le 23 février 2025.
Ancien enseignant et professeur agrégé de mathématiques, il a créé puis coordonné pendant de nombreuses années le pôle de compétences « logiciels libres » du SCÉRÉN, jouant un rôle de premier plan dans la légitimation et le développement du libre dans le système éducatif.
Dans les années 80 et 90, il a participé au pilotage du développement des Technologies de l’Information et de la Communication (TIC) dans l’académie de Créteil : organisation du volet formation du plan Informatique Pour Tous, mise en œuvre de la télématique scolaire et des réseaux locaux, expérimentation d’internet, formation des enseignants.
En tant que président de l’association Enseignement Public et informatique (EPI) il a été un artisan actif de l’introduction d’une discipline informatique au lycée et au collège, après une sensibilisation à l’école primaire. Ainsi, il a été membre du groupe de travail de l’Académie des sciences qui a préparé le rapport « L’enseignement de l’informatique en France – Il est urgent de ne plus attendre » adopté par l’académie en mai 2013.
Il a été pendant plusieurs années membre du Conseil d’Administration de la Société Informatique de France (SIF) et coresponsable du groupe ITIC-EPI-SIF.
Il était convaincu que l’enseignement de l’informatique et l’utilisation de l’informatique dans les disciplines et activités sont deux démarches complémentaires. Ses éditoriaux d’EpiNet, qu’il rédigeait avec soin, étaient sources de réflexion et appréciés de toutes et de tous.
Toutes ces actions militantes signifiaient des relations nouées avec les partenaires (collectivités territoriales, éditeurs, entreprises, parents d’élèves, associations d’enseignants, syndicats …) et les responsables du système éducatif. Elles sont toujours allées de pair avec une activité de réflexion, une veille et prospective sur les usages, les statuts et les enjeux pédagogiques et éducatifs de l’informatique et des technologies de l’information et de la communication. Cela a amené Jean-Pierre à organiser et à intervenir dans des colloques, forums, salons et séminaires. Il est l’auteur de nombreux articles dont la plupart sont sur les sites de l’EPI et d’edutice.archives-ouvertes.
Nous garderons un souvenir inoubliable de ces longues années passées ensemble. Jean-Pierre fut pour nous un excellent collègue et un ami.
A l’heure où Elon Musk fait un peu n’importe quoi au nom de la liberté d’expression, quand des grands patrons du numérique lui emboitent le pas sans doute pour pousser leurs intérêts économiques, il devient encore plus indispensable de comprendre les mécanismes qui causent des dysfonctionnements majeurs des plateformes numériques. Ce deuxième épisode d’un article de Fabien Gandon et Franck Michel nous aide à mieux comprendre. Serge Abiteboul & Thierry Viéville.
Dans le précédent billet nous vous avons donné l’excuse parfaite pour ne pas avoir fait de sport ce week-end : ce n’est pas de votre faute, votre cerveau a été hacké ! Nous avons vu que, à coup de likes, de notifications, de flux infinis et d’interfaces compulsogènes, les grands acteurs du Web ont mis au point des techniques capables de piller très efficacement notre temps de cerveau. Nous avons aussi vu que, en s’appuyant sur des données comportementales massives, les algorithmes apprennent à exploiter notre biais de négativité et favorisent les contenus qui suscitent colère, peur, indignation, ressentiment, frustration, dégoût, etc. Nous avons constaté que, en nous enfermant dans un espace informationnel où rien ne contredit nos croyances, les algorithmes de recommandation ont tendance à créer des visions du monde différentes pour chaque utilisateur. Nous avons enfin conclu que cette combinaison d’émotions, de biais cognitifs et de recommandations automatisées peut conduire à une escalade émotionnelle, à la polarisation et la radicalisation des opinions.
En manque… d’attention et en over-dose d’inattention
Finalement, ce premier billet nous amène à nous interroger sur le caractère addictogène de certains médias sociaux. Une addiction peut survenir dans toute activité pour laquelle une personne développe un appétit excessif. Il peut s’agir d’une dépendance à une substance (ex. une drogue) ou d’une dépendance comportementale, cette dernière se caractérisant par l’impossibilité de contrôler la pratique d’une activité comme les jeux d’argent, ou dans notre cas, l’utilisation d’un média social. On sait qu’une dépendance se développe lorsqu’un comportement particulier est incité et encouragé, qu’il est récompensé d’une manière ou d’une autre, et que rien n’incite à l’arrêter. Or les algorithmes de captation de l’attention sont des héritiers directs de la captologie et suivent à la lettre la formule de développement d’un comportement addictif : les utilisateurs font l’objets de notifications régulières pour initialiser et enclencher l’habitude ; la récompense de l’utilisation repose sur de multiples mécanismes (ex. nombre de likes, émotions, etc.) ; et l’absence de moyens de « décrocher » est au cœur des interfaces (ex. fil infini, auto-play, opt-out par défaut, etc.). On dit souvent qu’un algorithme est une recette, ici on pourrait même parler de la recette d’une drogue de synthèse numérique.
Voilà… Maintenant que le doute est là, vous voyez votre téléphone non seulement comme un espion qui vend vos données, mais aussi comme un traître, un manipulateur et même un dealer numérique ! Et vous vous interrogez sur les dégâts que font ces hackers du cerveau. Mais le problème va plus loin car le Web et Internet forment de vastes toiles qui couplent toutes leurs ressources, et les impacts de ces manipulateurs automatiques se propagent et se combinent par l’effet de mise en réseau.
Fausses informations pour vraie attention
Partant des constats déjà sombres du précédent billet, il faut noter que les choses s’aggravent encore lorsque les contenus dont nous parlons sont des fake news, des fausses informations. En effet, celles-ci s’appuient souvent sur la colère, la frustration ou le dégoût pour hameçonner notre attention. Elles trouvent ainsi sur les réseaux sociaux un terrain particulièrement fertile. Par leurs affirmations choquantes, elles sont vécues par beaucoup comme une injonction à prendre parti en les re-partageant plutôt que de faire appel à l’esprit critique et vérifier leur véracité. Ainsi des études ont montré que les algorithmes de recommandation tendent à favoriser les fausses informations véhiculant des idées clivantes ou des événements choquants. Et comme ces informations sont souvent relayées par des connaissances, le biais de la preuve sociale nous incite à les juger crédibles et dignes de confiance. Répétées encore et encore, associées à des représentations du monde convoquant les théories du complot, renforcées sous la pression des bulles de filtres, et propulsées par l’effet de réseau, les fausses informations instaurent une économie du doute où la vérité est remplacée par la vraisemblance. Avec une éditorialisation qui ne fait pas la différence entre un article écrit par des journalistes professionnels d’un côté, et des fausses informations relayées par un bot malveillant de l’autre, « la presse n’est plus perçue comme celle qui publie, mais comme celle qui cache« . Progressivement et insidieusement, le doute sape notre confiance dans les experts (savants, journalistes…), entraînant des risques pour la santé publique et favorisant l’émergence d’idées extrêmes et de populismes qui mettent en danger les démocraties. Ce que Giuliano Da Empoli résume par la phrase : « le populisme naît de l’union de la colère et la frustration avec les algorithmes« .
On peut penser en particulier au trouble de déficit de l’attention (TDA). Des études attestent que les symptômes du TDA peuvent être aggravés par l’utilisation des médias numériques et de leurs applications conçues pour capter l’attention. Plus inquiétant encore, ces applications pourraient provoquer des TDA chez des personnes n’ayant aucun antécédent de ce trouble. Si ces études sont préliminaires elles nous encouragent à davantage de recherches sur le sujet ainsi qu’à nous poser la question du principe de précaution.
Les « gadgets numériques », comme les appelle Smith, contribuent à ce qu’il appelle « un trouble de déficit de l’attention académique ». On sait que la concentration, mais aussi les moments d’ennui, de flânerie intellectuelle et de rêverie, sont essentiels à la pensée créative. Beaucoup d’entre nous ont déjà expérimenté l’éclair d’une idée soudaine au milieu d’un moment de détente. En volant ces moments, les systèmes de captation de l’attention entravent le processus créatif.
Bien sûr, ces remarques peuvent être généralisées à de nombreuses autres activités et professions nécessitant concentration, créativité et imagination. On peut en effet se demander ce que les systèmes de captation de l’attention font à des domaines comme la politique, la santé, l’éducation ou la création artistique, par exemple. En d’autres termes : attention penseurs et créateurs ! Nous devons repenser ces systèmes pour qu’ils répondent à nos besoins, et non l’inverse car la véritable monnaie d’échange de nos métiers est celle des idées.
Attention Fragile ! Vers des principes de préservation de l’attention
Après ces constats anxiogènes, essayons maintenant d’être constructifs. Puisque, dans un monde de plus en plus numérique, notre attention sur-sollicitée s’avère fragile, nous proposons d’aller vers une gouvernance responsable de l’attention sur le Web en posant plusieurs principes.
Un premier groupe de principes concerne les utilisateurs. Pour renforcer leur autonomie, le principe de la réflexivitécontinue propose que les plateformes leur fournissent régulièrement des retours d’information leur permettant d’être conscients de leurs usages (temps passé, exposition à des contenus négatifs, diversité, etc.), et permettant ainsi de garantir leur consentement éclairé à chaque instant. En outre, le principe de transparence préconise de leur expliquer clairement les motivations et les raisons derrière chaque recommandation, et le principe de soutien à la diligence raisonnable insiste sur l’importance de leur fournir les moyens et les informations nécessaires pour échapper aux boucles et processus imposés par les systèmes. Enfin, le principe d’opt-in par défaut suggère que les notifications et la personnalisation des recommandations soient désactivées par défaut, et activées uniquement après un consentement éclairé et un paramétrage volontaire.
Attention by design
Un deuxième groupe de principes vise à s’assurer que les plateformes intègrent dès leur conception (by design) le respect des utilisateurs. Le principe d’incitation orientée recommande d’utiliser des moyens légaux (interdire certaines pratiques) et économiques (taxes) pour encourager les plateformes à adopter des comportements ayant un impact sociétal positif (éducation, soutien à la collaboration et au débat constructif, élaboration collective de solutions sur les grands problèmes de société…). Et inversement, sanctionner les comportements nuisibles, une sorte de politique de la carotte et du bâton.
De plus, le principe de conception d’interactions bienveillantes appelle à placer le bien-être des utilisateurs au cœur de la conception des interfaces et de leurs objectifs algorithmiques, en s’alignant sur les bonnes pratiques des bright patterns plutôt que celles des dark patterns. D’autres médias sociaux sont en effet possibles, comme Wikipédia qui fait émerger du contenu de qualité sans jamais rechercher la viralité des contenus ni la popularité des contributeurs qui restent pour l’essentiel des citoyens anonymes.
Le principe des recommandations équilibrées vise à éviter la spécialisation excessive des contenus recommandés et à prévenir la formation de bulles de filtres. Notons aussi que lorsqu’une fausse information est corrigée ou démentie, il est fréquent que le message portant la correction ou le démenti soit quasiment invisible en comparaison de la viralité avec laquelle la fausse information a circulé. Aussi, pour aller vers plus de transparence, le principe de la visibilité équilibrée propose que les mesures préventives et correctives d’un problème soient rendues aussi visibles que le problème qu’elles traitent.
Enfin, pour que ces principes soient appliqués, le principe d’observabilité stipule que les plateformes doivent fournir aux institutions, à la société civile et aux chercheurs les instruments juridiques et techniques leur permettant d’effectuer un contrôle et une vérification actifs de l’application et de l’efficacité des réglementations.
L’attention comme bien commun
Dans une perspective plus large, si nous considérons l’attention comme un bien commun au sens économique, le principe de la préservation des communs numériques stipule aussi que les services ayant un impact mondial sur nos sociétés doivent être considérés comme des communs numériques, et à ce titre, protégés et soumis à des règles spécifiques de « préservation ». Cela pourrait par exemple passer par le fait de doter ces services (ou au moins les nouveaux entrants) d’une mission de soutien à un débat public constructif.
Enfin, le principe de transfert des meilleures pratiques invite à s’inspirer des approches éprouvées dans d’autres domaines, comme le droit encadrant la publicité, les casinos ou le traitement de certaines addictions, pour réguler efficacement les pratiques sur le Web. Prenons l’exemple de l’industrie du jeu vidéo : il a été montré qu’un lien existe entre les « loot boxes » (sortes de pochettes surprises des jeux vidéos) et l’addiction aux jeux d’argent. Celles-ci seraient comparables aux jeux de hasard, pouvant entraîner des comportements addictifs et mettre les joueurs en danger. Ce constat a donné lieu à plusieurs régulations. La manière d’étudier et de traiter cette exploitation indésirable de nos comportements et la transposition de connaissances issues d’autres domaines sont des sources d’inspiration pour d’autres pratiques problématiques sur le Web, telles que celles dont nous venons de parler.
Faisons attention… à nous
Résumons-nous. Avec l’objectif initial, somme toute banal, de rendre la publicité plus efficace, la généralisation des techniques de captation de l’attention et l’utilisation qu’elles font des biais cognitifs et des émotions ont des effets délétères très préoccupants sur nos sociétés : polarisation des opinions, diffusion de fausses informations, menace pour la santé publique, les économies et les démocraties. Et oui ! Ce sont donc des (ro)bots qui hackent notre attention car ils sont conçus pour cela ou, plus précisément, pour la capter de façon optimale en vue de la monétiser. De fait, ils utilisent le Web dans un but économique qui va à l’encontre du bien commun. Mais en adoptant les principes proposés ci-dessus, nous pensons qu’il est possible de construire un Web qui continue de soutenir l’activité économique sans pour autant entraîner la captation systématique de l’attention.
Dans ses essais, Montaigne nous disait “quand on me contrarie, on éveille mon attention, non pas ma colère : je m’avance vers celui qui me contredit, qui m’instruit.”. Or les plateformes nous poussent à faire le contraire : éveiller l’émotion négative et s’éloigner d’autrui. Mais il n’est pas raisonnable de laisser de multiples moyens technologiques hacker nos cerveaux et créer un déficit mondial d’attention, nous empêchant ainsi de la porter sur des sujets qui devraient actuellement nous « contrarier ». A une époque où nous devons modifier nos comportements (par exemple, la surconsommation de biens et d’énergie) et porter notre attention sur des questions cruciales comme le changement climatique, nous devrions nous demander si les algorithmes de recommandation font les bonnes recommandations, et pour qui. Compte tenu des quatre milliards d’utilisateurs pris chaque jour dans leurs boucles de recommandation, il est important de surveiller en permanence comment et dans quel but ces systèmes captent notre attention. Car lorsque notre attention est consacrée à un contenu choisi par ces plateformes, elle est perdue pour tout le reste.
Merci… pour votre attention 🙂
Fabien Gandon, Directeur de Recherche Inria et Franck Michel, ingénieur de recherche, Université Côte d’Azur, CNRS, Inria.
A l’heure où Elon Musk fait un peu n’importe quoi au nom de la liberté d’expression, quand des grands patrons du numérique lui emboîtent le pas sans doute pour pousser leurs intérêts économiques, il devient encore plus indispensable de comprendre les mécanismes qui causent des dysfonctionnements majeurs des plateformes numériques. Ce premier épisode d’un article de Fabien Gandon et Franck Michel nous aide à mieux comprendre. Serge Abiteboul & Thierry Viéville.
Nous sommes un dimanche après-midi. Vous avez un petit moment pour vous. Vous pourriez lire, vous balader, aller courir ou écouter de la musique mais machinalement votre main saisit votre téléphone. Le « sombre miroir » s’éclaire et vous passez de l’autre côté. Vous ouvrez l’application de votre réseau social préféré qui vient de vous notifier qu’elle a du nouveau pour vous. Et c’est vrai ! Jean a posté un message à propos de la tragicomédie « Qui a hacké Garoutzia ? » qu’il a vue au théâtre hier soir. Vous approuvez ce poste d’un pouce virtuel et déjà votre vrai pouce pousse vers le poste suivant. Entre une publicité pour un abonnement au théâtre, une photo postée d’Avignon par un ami que vous avez du mal à remettre, l’annonce pour un jeu où tester vôtre culture générale… votre pouce se lance dans un jogging numérique effréné. Imperceptiblement le flux d’information qui vous est proposé dévie, une vidéo de chats acrobates, un « clash » entre stars de la télévision, une manifestation qui tourne à l’affrontement… Et avant que vous ne le réalisiez une petite heure s’est écoulée et il est maintenant trop tard pour un vrai jogging. Vous ressentez une certaine résistance à reposer votre téléphone : après tout, il y avait peut-être encore tant de contenus intéressants, inédits, surprenants ou croustillants dans ce fil de recommandations. Mais vous devez vous rendre à l’évidence, ce fil est sans fin. Vous ne pouvez croire à quelle vitesse la dernière heure est passée. Vous avez l’impression qu’on vous l’a volée, que vous avez traversé un « tunnel temporel ». Sans même vous rappeler de ce que vous avez vu défiler, vous reposez ce téléphone un peu agacé en vous demandant… mais qui a hacké mon attention ?
A l’attention de tous…
Sir Tim Berner-Lee, récipiendaire du prix Turing pour avoir inventé le Web, a toujours considéré que les Web devait « être pour tout le monde », mais il a aussi partagé début 2024 un dialogue intérieur en deux articles à propos du Web : « Le dysfonctionnement des réseaux sociaux » et « Les bonnes choses ». Et oui… même le père du Web s’interroge gravement sur celui-ci et met face à face ce qu’il y a de meilleur et de pire sur le Web. Loin d’avoir réalisé l’idéal d’une communauté mondiale unie, Tim constate que des applications du Web comme les réseaux sociaux amplifient les fractures, la polarisation, la manipulation et la désinformation, menaçant démocraties et bien-être. Tout en reconnaissant les nombreuses vertus du Web (outils éducatifs, systèmes open source ou support à la souveraineté numérique), il nous propose de mettre l’accent sur la transparence, la régulation, et une conception éthique d’un Web et d’un Internet plus sûrs et responsables. Autrement dit, l’enjeu actuel est de préserver les richesses du Web tout en se protégeant de ses dérives.
Parmi ces dérives, on trouve le problème de la captation de notre attention, un sujet sur lequel nous voulons revenir dans ce billet ainsi que le suivant. C’est l’objet d’un de nos articles publié cette année à la conférence sur l’IA, l’éthique et à la société (AIES) de l’Association pour l’Avancement de l’Intelligence Artificielle (AAAI), que nous résumons ici. Le titre pourrait se traduire par « Prêtez attention : un appel à réglementer le marché de l’attention et à prévenir la gouvernance émotionnelle algorithmique ». Nous y appelons à des actions contre ces pratiques qui rivalisent pour capter notre attention sur le Web, car nous sommes convaincus qu’il est insoutenable pour une civilisation de permettre que l’attention soit ainsi gaspillée en toute impunité à l’échelle mondiale.
Attention à la march…andisation (de l’attention)
Si vous lisez cette phrase, nous avons déjà gagné une grande bataille, celle d’obtenir votre attention envers et contre toutes les autres sollicitations dont nous sommes tous l’objet : les publicités qui nous entourent, les « apps » dont les notifications nous assaillent jour et nuit, et tous les autres « crieurs numériques » que l’on subit au quotidien.
Depuis l’avènement de la consommation de masse dans les années 50, les médias et les publicitaires n’ont eu de cesse d’inventer des méthodes toujours plus efficaces pour capter notre attention et la transformer en revenus par le biais de la publicité. Mais ce n’était qu’un début… Au cours des deux dernières décennies, en s’appuyant sur la recherche en psychologie, en sociologie, en neurosciences et d’autres domaines, et soutenues par les avancées en intelligence artificielle (IA), les grandes plateformes du Web ont porté le processus de captation de l’attention à une échelle sans précédent. Basé presque exclusivement sur les recettes publicitaires, leur modèle économique consiste à nous fournir des services gratuits qui, en retour, collectent les traces numériques de nos comportements. C’est le célèbre “si c’est gratuit, c’est nous le produit” et plus exactement, ici, le produit c’est notre attention. Ces données sont en effet utilisées pour maximiser l’impact que les publicités ont sur nous, en s’assurant que le message publicitaire correspond à nos goûts, nos inclinations et notre humeur (on parle de “publicité ciblée”), mais aussi en mettant tout en place pour que nous soyons pleinement attentifs au moment où la publicité nous est présentée.
Recrutant des « armées » de psychologues, sociologues et neuroscientifiques, les plateformes du Web comme les médias sociaux et les jeux en ligne ont mis au point des techniques capables de piller très efficacement notre « temps de cerveau disponible ». Résultat, nous, les humains, avons créé un marché économique où notre attention est captée, transformée, échangée et monétisée comme n’importe quelle matière première sur les marchés.
Faire, littéralement, attention
A l’échelle individuelle, lorsque l’on capte notre attention à notre insu, on peut déjà s’inquiéter du fait que l’on nous vole effectivement du temps de vie, soit l’un de nos biens les plus précieux. Mais si l’attention est un mécanisme naturel au niveau individuel, l’attention collective, elle, est le fruit de l’action de dispositifs spécifiques. Il peut s’agir de lieux favorisant l’attention partagée (ex. un théâtre, un cinéma, un bar un soir de match, une exposition), de l’agrégation d’attention individuelle pour effectuer des mesures (ex. audimat, nombre de vues, nombre de partages, nombre de ventes, nombre d’écoutes, etc.) ou autres. Pour ce qui est de l’attention collective, nous faisons donc, littéralement, l’attention. En particulier, les plateformes créent l’attention collective et dans le même temps captent ce commun afin de le commercialiser sans aucune limite a priori.
Parmi les techniques utilisées pour capter notre attention, nous pouvons distinguer deux grandes catégories. Tout d’abord, certaines techniques sont explicitement conçues pour utiliser nos biais cognitifs. Par exemple, les likes que nous recevons après la publication d’un contenu activent les voies dopaminergiques du cerveau (impliquées dans le système de récompense) et exploitent notre besoin d’approbation sociale ; les notifications des apps de nos smartphones alimentent notre appétit pour la nouveauté et la surprise, de sorte qu’il est difficile d’y résister ; le « pull-to-refresh », à l’instar des machines à sous, exploite le modèle de récompense aléatoire selon lequel, chaque fois que nous abaissons l’écran, nous pouvons obtenir une nouveauté, ou rien du tout ; le défilement infini (d’actualités, de posts ou de vidéos…) titille notre peur de manquer une information importante (FOMO), au point que nous pouvons difficilement interrompre le flux ; l’enchaînement automatique de vidéos remplace le choix délibéré de continuer à regarder par une action nécessaire pour arrêter de regarder, et provoque un sentiment frustrant d’incomplétude lorsqu’on l’arrête ; etc. De même, certaines techniques exploitent des « dark patterns » qui font partie de ce qu’on nomme design compulsogène ou persuasif, pour nous amener, malgré nous, à faire des actions ou des choix que nous n’aurions pas faits autrement. C’est typiquement le cas lorsque l’on accepte toutes les notifications d’une application sans vraiment s’en rendre compte, alors que la désactivation des notifications nécessiterait une série d’actions fastidieuses et moins intuitives.
Les petites attentions font les grandes émotions… oui mais lesquelles?
Une deuxième catégorie de techniques utilisées pour capter notre attention repose sur les progrès récents en matière d’apprentissage automatique permettant d’entraîner des algorithmes de recommandation de contenu sur des données comportementales massives que Shoshana Zuboff appelle le « surplus comportemental« . Ces algorithmes apprennent à recommander des contenus qui non seulement captent notre attention, mais également augmentent et prolongent notre « engagement » (le fait de liker, commenter ou reposter des contenus, et donc d’interagir avec d’autres utilisateurs). Ils découvrent les caractéristiques qui font qu’un contenu attirera plus notre attention qu’un autre, et finissent notamment par sélectionner des contenus liés à ce que Gérald Bronner appelle nos invariants mentaux : la conflictualité, la peur et la sexualité. En particulier, les émotions négatives (colère, indignation, ressentiment, frustration, dégoût, peur) sont parmi celles qui attirent le plus efficacement notre attention, c’est ce que l’on appelle le biais de négativité. Les algorithmes apprennent ainsi à exploiter ce biais car les contenus qui suscitent ces émotions négatives sont plus susceptibles d’être lus et partagés que ceux véhiculant d’autres émotions ou aucune émotion particulière. Une véritable machine à créer des “réseaux soucieux” en quelque sorte.
Bulles d’attention et bulles de filtres
En nous promettant de trouver pour nous ce qui nous intéresse sur le Web, les algorithmes de recommandation ont tendance à nous enfermer dans un espace informationnel conforme à nos goûts et nos croyances, une confortable bulle de filtre qui active notre biais de confirmation puisque nous ne sommes plus confrontés à la contradiction, au débat ou à des faits ou idées dérangeants.
En apparence bénignes, ces bulles de filtres ont des conséquences préoccupantes. Tout d’abord, au niveau individuel, parce que, s’il est important de se ménager des bulles d’attention pour mieux se concentrer et résister à l’éparpillement, il est aussi important de ne pas laisser d’autres acteurs décider quand, comment et pourquoi se forment ces bulles. Or c’est précisément ce que font les algorithmes de recommandation et leurs bulles de filtres, en décidant pour nous à quoi nous devons penser.
Ensuite, au niveau collectif, Dominique Cardon pointe le fait que les bulles de filtres séparent les publics et fragmentent nos sociétés. Ceux qui s’intéressent aux informations sont isolés de ceux qui ne s’y intéressent pas, ce qui renforce notamment le désintérêt pour la vie publique.
Et en créant une vision du monde différente pour chacun d’entre nous, ces techniques nous enferment dans des réalités alternatives biaisées. Or vous et moi pouvons débattre si, alors que nous observons la même réalité, nous portons des diagnostiques et jugements différents sur les façons de résoudre les problèmes. Mais que se passe-t-il si chacun de nous perçoit une réalité différente ? Si nous ne partons pas des mêmes constats et des mêmes faits ? Le débat devient impossible et mène vite à un affrontement stérile de croyances, au sein de ce que Bruno Patino appelle une « émocratie, un régime qui fait que nos émotions deviennent performatives et envahissent l’espace public« . Dit autrement, il n’est plus possible d’avoir un libre débat contradictoire au sein de l’espace public, ce qui est pourtant essentiel au fonctionnement des démocraties.
La tension des émotions
Puisque les algorithmes de recommandation sélectionnent en priorité ce qui produit une réaction émotionnelle, ils invibilisent mécaniquement ce qui induit une faible réponse émotionnelle. Pour être visible, il devient donc impératif d’avoir une opinion, de préférence tranchée et clivante, de sorte que la réflexion, la nuance, le doute ou l’agnosticisme deviennent invisibles. L’équation complexe entre émotions, biais cognitifs et algorithmes de recommandation conduit à une escalade émotionnelle qui se manifeste aujourd’hui sur les médias sociaux par une culture du « clash », une hypersensibilité aux opinions divergentes interprétées comme des agressions, la polarisation des opinions voire la radicalisation de certains utilisateurs ou certaines communautés. Ce qui fait dire à Bruno Patino que « les biais cognitifs et les effets de réseau dessinent un espace conversationnel et de partage où la croyance l’emporte sur la vérité, l’émotion sur le recul, l’instinct sur la raison, la passion sur le savoir, l’outrance sur la pondération ». Recommandation après recommandation, amplifiée par la désinhibition numérique (le sentiment d’impunité induit par le pseudo-anonymat), cette escalade émotionnelle peut conduire à des déferlements de violence et de haine dont l’issue est parfois tragique, comme en témoignent les tentatives de suicide d’adolescents victimes de cyber-harcèlement. Notons que cette escalade est souvent encore aggravée par les interfaces des plateformes, qui tendent à rendre les échanges de plus en plus brefs, instinctifs et simplistes.
Le constat que nous dressons ici peut déjà sembler assez noir, mais il y a pire… Et à ce stade, pour garder votre attention avant que vous ne zappiez, quoi de mieux que de créer un cliffhanger, une fin laissée en suspens comme dans les séries télévisées à succès, et d’utiliser l’émotion qui naît de ce suspens pour vous hameçonner dans l’attente du prochain épisode, du prochain billet à votre attention…
Fabien Gandon, Directeur de Recherche Inria, et Franck Michel, ingénieur de recherche, Université Côte d’Azur, CNRS, Inria.
Remi Ronfard a travaillé plusieurs années au centre Watson d’IBM Research à Yorktown Heights et à la direction de la recherche de l’Institut National de l’Audiovisuel (INA), avant de rejoindre Inria. Il est spécialiste de la modélisation géométrique, d’animation 3D, de vision par ordinateur, et d’informatique théâtrale. Il s’intéresse à la création et mise en scène de mondes virtuels narratifs. Il a fondé et anime les journées d’informatique théâtrale.
Rémi Ronfard, Crédit image : Miguel Bucana, pour le magazine Chut !
Binaire : Peux-tu nous raconter ton parcours, et comment tu t’es intéressé à ce domaine à la frontière de l’informatique et des arts vivants ?
RR : J’ai suivi des études d’ingénieur à l’École des Mines. Il n’y avait pas d’informatique dans la formation à l’époque. J’ai découvert l’informatique après mes études en réalisant une thèse en télédétection. J’ai commencé alors à me sentir informaticien même si ma thèse tenait surtout du traitement du signal. Pendant 10 ans, j’ai travaillé ensuite pour la R&D dans l’industrie par exemple au centre Watson d’IBM, et à l’INA. Je suis devenu chercheur à Inria à 40 ans. Ce n’est pas un parcours standard !
C’est par hasard que je me suis intéressé au théâtre. En 1996, j’ai rencontré au Medialab du MIT Claudio Pinhanez (de IBM Research, Brésil) inventeur de l’expression Computer theater que je traduis comme « informatique théâtrale ». Son questionnement d’alors : peut-on faire avec l’informatique ce que l’on a fait pour la musique avec l’informatique musicale ? Il décrivait le théâtre comme essentiellement une série d’actions ; cela résonnait bien avec mon domaine de recherche à l’INA sur l’indexation audiovisuelle. Cela me conduisait à la question : comment reconnaître et représenter symboliquement des actions théâtrales ? Cette idée a commencé alors à me trotter dans la tête mais je n’ai pas imaginé en faire mon sujet de recherche principal. Quand je suis rentré à Inria des années plus tard, j’ai pu revenir sur ce sujet.
Binaire : Pourrais-tu nous dire comment tu définis toi-même l’informatique théâtrale ?
RR : Oh là là. Pour moi, l’informatique théâtrale doit rester très ouverte. Je ne veux pas l’enfermer dans des définitions. Regardez l’informatique musicale. Elle s’est construite au-delà des distinctions entre musique et son. Je ne veux pas que des tentatives de définition ferment la discipline. Une difficulté avec le théâtre c’est que dès on change quelque chose, ce n’est plus du théâtre : un film, ce n’est plus du théâtre, même une pièce filmée pour beaucoup ce n’est plus du théâtre. En musique, si on change les instruments, cela reste de la musique.
Binaire : On va insister. Peux-tu quand même essayer de définir l’informatique théâtrale ?
On peut y voir deux aspects essentiels. Du point de vue de l’artiste, c’est d’abord, des pièces de théâtre qui utilisent l’informatique dans leur création ou leur diffusion, avec l’idée que le résultat se distingue de ce qui aurait été fait sans informatique. D’un autre côté, avec un regard d’informaticien, l’informatique théâtrale regroupe tout ce qu’on peut faire au service du théâtre avec des machines, des algorithmes ou des langages qui traitent du théâtre.
Techniquement, mon travail personnel s’inscrit dans le cadre de l’informatique graphique. En général, dans ce domaine on modélise en trois dimensions pour produire des images en deux dimensions. Avec l’informatique théâtrale, on s’intéresse à un déploiement dans les trois dimensions et dans le temps.
Binaire : Des algorithmes au service du théâtre. C’est passionnant ! Pourrais-tu nous donner un exemple ?
RR : Aujourd’hui, cela tourne beaucoup autour de l’automatisation de la régie théâtrale. En régie, pour accompagner un spectacle, on dispose d’une liste de repères, avec des événements comme certains endroits du texte ou un geste d’un acteur qui servent de déclencheurs à d’autres événements, par exemple lancer une lumière ou une chanson. Il faut suivre cette « liste d’événements ». On pourrait imaginer automatiser cela. Il faut bien reconnaitre que cela reste encore balbutiant ; cela se fait seulement dans des conditions expérimentales. C’est d’abord pour des raisons de fiabilité. On ne peut pas planter un spectacle devant une salle remplie de spectateurs parce qu’un programme informatique beugue.
Binaire : Le script d’une représentation théâtrale, c’est comme une partition musicale ? Peut-on imaginer décrire formellement une mise en scène ?
RR : C’est très proche d’une partition. Mais pour le théâtre, il n’existe pas de notation universelle : chaque metteur en scène, chaque régisseur, utilise ses propres notations.
Développer une telle notation est un défi considérable, un sujet un peu tabou. Il y a une résistance culturelle, les créateurs considèrent qu’ils font de l’alchimie et que leur travail ne doit pas être codé. Mais il existe aussi une tradition de « transcription de la mise en scène », pour des questions de transmission. J’aimerais bien regarder cela sérieusement. Malheureusement pour ceux qui veulent faire des recherches sur ces sujets, ces documents ne sont pas faciles à trouver.
Binaire : Est-ce qu’on pourrait imaginer une IA qui réaliserait la transcription d’une mise en scène ?
RR : J’aimerais beaucoup construire une telle IA. Mais ce n’est pas facile, car elle devrait être d’une certaine façon assez générale : intégrer des techniques de vision, de reconnaissance vocale, de traitement de la parole, de compréhension des mouvements, de la prosodie… Il lui faudrait s’appuyer sur une notation. Quelle notation ? À vrai dire c’est une de mes ambitions à long terme. Une difficulté pour une telle IA est de savoir où on s’arrête, de distinguer ce qui est important et ce qui ne l’est pas dans une mise en scène. Si à un moment donné, un acteur lève le petit doigt, est-ce un hasard, ou est-ce que cela fait partie de la mise en scène ?
Binaire : Est-ce qu’on pourrait entraîner une IA sur des millions d’enregistrement de mises en scènes pour apprendre cela ?
RR : Je n’y crois pas du tout avec les IA actuelles. Cela demande une forme de compréhension globale de trop d’aspects distincts. On pourrait déjà regarder ce qu’on peut faire avec une dizaine de mises en scènes différentes d’une même pièce ; on peut trouver cela pour des auteurs très populaires comme Marivaux.
Mais… est-ce qu’il faut viser un tel but ? Ce n’est pas évident. J’imagine plutôt que la technologie assiste le metteur en scène, l’aide à donner des indications sur sa mise en scène, à transcrire la mise en scène. De telles transcriptions seraient utile pour garder des traces patrimoniales, une forme de dépôt légal.
Mosaïque d’images filmées avec KinoAi et utilisées dans le 3eme court métrage cité. Crédit image : KinoAi.
Binaire : Ces aspects patrimoniaux nous conduisent naturellement à ton outil KinoAi ? Mais d’abord, comment ça se prononce ?
RR : On dit Kino-Aïe. Le nom est un clin d’œil à un mouvement important de l’histoire du cinéma [1]. Nous l’avons développé dans le cadre d’une thèse en partenariat avec le théâtre des Célestins à Lyon. La directrice du théâtre voulait enrichir leur site avec des vidéos de répétitions. Mais pour cela, il fallait les filmer, ce qui demande beaucoup d’efforts et coûte cher. Comment arriver à le faire sans les moyens considérables d’une grosse équipe de télévision ?
Notre solution part d’une captation avec une seule caméra fixe de l’ensemble de la scène. Puis, des algorithmes détectent les acteurs, déterminent leurs positions, les identifient et les recadrent. Pour cela, on utilise des techniques existantes de détection des mouvements et des poses du corps. Notre logiciel propose des cadrages. La difficulté est qu’un bon cadrage doit capturer complètement un acteur et exclure les acteurs voisins, ou bien les inclure sans les découper. Et puis les acteurs bougent et tout cela doit être réalisé dynamiquement. Enfin, le metteur en scène peut choisir parmi plusieurs cadrages intéressants pour réaliser un film.
Le problème de filmer automatiquement un spectacle est passionnant. On a fait déjà plusieurs courts métrages sur des répétitions de spectacles [2]. Et on continue à travailler sur le sujet, y compris pour la captation du produit final lui-même, le spectacle.
Binaire : Mais pourquoi ne trouve-t-on pas plus les vidéos de spectacles ?
RR : Le problème est d’abord commercial. Si la pièce est visible en ligne, cela incite moins les spectateurs à payer pour aller au théâtre ? Pour le théâtre privé, l’obstacle est là. Pour le théâtre public, ceux qui pensent filmer préfèrent carrément réaliser un vrai film. La diffusion vidéo de spectacles s’est un peu développée pendant le covid. J’espère que cette question reviendra. Pour des questions de préservation de notre patrimoine, on pourrait déjà filmer plus systématiquement les spectacles au moins en caméra fixe.
Binaire : De nos jours, des IA sont utilisées en assistant pour l’écriture, par exemple de scénarios aux USA. Pourrait-on imaginer ça dans l’écriture de pièces de théâtre ?
RR : Cela a déjà été imaginé ; des pièces ont été écrites par des IA et jouées. C’est un peu du buzz ; ça ne m’intéresse pas trop. C’est une drôle d’idée, on se demande pourquoi faire cela. Je trouve beaucoup plus intéressant d’avoir des IA qui aident à la mise en scène de textes écrits par des auteurs humains. C’est peut-être plus difficile, mais tellement plus intéressant !
Par exemple, on peut utiliser de l’intelligence artificielle pour prévisualiser un spectacle qu’on a imaginé. L’auteur peut avoir, avec l’IA, une impression de ce que pourrait donner son texte. Et puis, les roboticiens s’intéressent beaucoup aussi à réaliser des robots qui jouent dans des spectacles.
Binaire : Comment se fait la mayonnaise entre informaticiens et des artistes dans les spectacles ?
RR : J’ai peu d’exemples parce que des formes longues de théâtre utilisant l’informatique sont encore rares. Mais la question se pose déjà quand on engage des projets de recherche sur le sujet. Le dialogue n’est pas toujours facile. Il faut vaincre des résistances. En tant qu’informaticien, on se sent bête quand on parle avec auteurs parce qu’on plonge dans un monde nouveau pour nous, dont on n’a pas tous les codes. On sort de sa zone de confort. Et certains artistes ont sûrement un sentiment symétrique. Du coup, il y a parfois une certaine timidité. C’est pour ça que j’organise des rencontres annuelles de la communauté en informatique théâtrale.
Binaire : Comment ces travaux pluridisciplinaires se valorisent-t-ils au niveau académique, surtout pour les doctorants ?
RR : Il faut faire très attention à rester dans une recherche validée par son domaine. L’idéal serait un système de thèses en parallèle en arts du théâtre et en informatique. Chacun reste dans sa discipline mais les deux décident de travailler ensemble. La difficulté est de synchroniser les intérêts, de trouver des sujets intéressants des deux côtés. On peut avoir un sujet super original et passionnant pour le théâtre mais qui ne met en jeu que des techniques standard en informatique. Ou on peut avoir des idées de techniques informatiques super novatrices qui laissent de marbre les gens de théâtre.
Binaire : Comment les artistes s’approprient-ils les nouvelles technologies ?
RR : Les artistes adorent détourner la technologie, faire l’inverse ce qui était prévu. Ils adorent également en montrer les limites. Pour les informaticiens, ce n’est pas toujours facile à accepter. On s’escrime à faire marcher un truc, et l’artiste insiste sur le seul aspect qui met en évidence l’imperfection ! On voit cela comme une déconsidération du travail de recherche. Mais en même temps, les détournements qu’ils imaginent sont passionnants.
Binaire : Tu observes de leur part une tendance à la technophobie ?
RR : Ce n’est pas du tout de la technophobie, puisque, par nature, les technophobes ne veulent pas travailler avec nous. Les autres nous aiment bien, mais ils gardent un regard hyper critique. Ce n’est pas facile mais cela rend la collaboration intéressante. Ces questionnements sont finalement très sains.
Binaire : Et pour parler d’un autre domaine dans lequel tu as travaillé, quels sont les liens entre le jeu vidéo et l’informatique théâtrale ?
RR : D’un point de vue technique, c’est curieusement assez proche. Je vois quand même une grande différence. En théâtre, on peut expérimenter, alors que dans le domaine du jeu vidéo, c’est difficile et cela représente des efforts de développement énormes. Il y a peu d’industriels du jeu vidéo avec qui on peut mener des expériences. Ils peuvent commander des trucs d’animation par exemple sur des points très techniques, mais ne sont pas du tout dans l’expérience. Le théâtre offre cette possibilité d’expérimenter, de faire de la recherche, parce qu’il est moins industrialisé, plus proche de l’artisanat.
« Le théâtre est-il une industrie » est d’ailleurs l’objet d’une journée qu’on organise dans le cadre du programme de recherche ICCARE[3].
Binaire : Et le métavers ?
RR : Il existe une pratique du théâtre dans le métavers. Des acteurs ont utilisé le métavers pendant la pandémie avec un public distant, avec des casques de réalité virtuelle. C’est du théâtre distribué, qui apporte aux artistes de théâtre une forme d’ubiquité qui est complètement nouvelle pour eux. Un jour, on peut enregistrer un spectacle, et y assister voire participer le lendemain n’importe où dans le monde. Pour la musique, ce phénomène est devenu courant, au théâtre non.
Aujourd’hui le théâtre est matériel et cela nous parait faire partie de son essence. Mais est-ce absolument nécessaire ? Qu’est-ce que ça changerait, si on avait un théâtre immatériel avec une immersion parfaite en réalité virtuelle ? Des risques existent évidemment comme de voir le modèle publicitaire en vogue coloniser ce nouveau théâtre. Mais si on arrive à maîtriser ces risques, le métavers ouvre des perspectives folles dans le domaine des arts et de la culture, bien plus intéressantes à mon avis que ses perspectives commerciales.
Serge Abiteboul, Inria et ENS Paris, et Charlotte Truchet, Université Paris Sorbonne et Ircam.
[1] Kino-Eye, ou Ciné-Œil, ou Kino Glaz, est à la fois un film et un manifeste du réalisateur et théoricien du cinéma Dziga Vertov, parus ensemble à Moscou en 1924 .
[2] Répétitions en cours, La fabrique des Monstres de Jean-François Peyret.
Un article de binaire parlait déjà de l’école 42 en 2014. On y trouvait certains aspects de la pédagogie intéressants. Cependant, nous avions été surpris par l’absence abyssale de considérations pour la fracture sociale et la question du genre. Carolina Somarriba Pérez-Desoy, qui a acquis ses galons d’informaticienne dans cette école, nous parle des changements pour les femmes. Serge Abiteboul et Chloé Mercier.
Carolina Somarriba Pérez-Desoy
L’école 42 était la nouvelle réponse (universelle) de ma mère à mes questionnements professionnels.
Cet établissement créé par Xavier Niel en 2013, faisait souvent les gros titres en raison de sa pédagogie novatrice et de sa gratuité. Cette perspective ne m’enchantait guère : reprendre à zéro des études dans une école qui ne me fournirait pas forcément de diplôme, alors que mes six années d’études dont deux masters en urbanisme ne me suffisaient apparemment pas à trouver un travail ? Pourtant, si je n’arrivais pas à m’imaginer repartir pour des études dans un cadre strict comme celui, par exemple, de Sciences Po, je pouvais envisager de le faire en toute autonomie dans le cadre très différent d’une école singulière. L’alternative était de continuer à enchaîner des entretiens d’embauche déprimants.
Une salle de travail, appelée « cluster » à 42.
Une rapide recherche internet m’avait révélé l’existence d’une immersion d’une semaine (appelée « piscine Découverte ») qui devait nous apprendre les bases de la programmation web. Elle était destinée aussi bien aux étudiants de 42 qu’aux femmes âgées d’au moins 16 ans, désireuses de tester la pédagogie de l’école. Cette semaine allait déterminer si je me sentais capable de m’intégrer à des jeunes geeks problématiques sur les questions de sexisme. C’était l’image peu flatteuse que je me faisais des étudiants en tech. Certains scandales liés à cette école aidaient à confirmer ces craintes. Entre autres soucis, des listes de classement du physique des étudiantes, une discrimination assumée et des caméras de vidéosurveillance en libre-accès permettant un stalking illimité. Pour moi, l’école 42 paraissait le paradis des harceleurs.
Je n’avais aucun bagage technique en informatique. Mais tel que le mentionnait l’école, la détermination et l’enthousiasme devaient suffire à combler mes lacunes.
La découverte de l’école – une semaine « girl power »
Une bande d’adolescents prépubères aux cheveux gras et aux habits (pyjamas ?) mal lavés, jetant des regards libidineux aux deux seules femmes de l’école. C’est ainsi que j’imaginais mon inconfortable entrée dans l’établissement. La réalité ? Des rangées entières de femmes venues découvrir l’école et des étudiants trop accaparés par leurs projets pour remarquer notre arrivée. Les étudiants, appelés « studs » (pour « students »), participant à cette immersion furent d’une grande assistance et nous encouragèrent toutes à tenter d’intégrer l’école. Malgré cela, la majorité des femmes externes abandonnèrent au cours des deux premiers jours, sentant leur retard se creuser d’heure en heure.
Il faut dire que pour réussir à suivre (ne serait-ce que de loin) le rythme des studs, il fallait faire des horaires intensifs, et ne pas se laisser abattre par les échecs répétés. Pour autant, celles qui restèrent jusqu’au bout se présentèrent toutes à l’examen d’entrée.
L’examen d’entrée – un mois de « piscine » décourageant
L’examen d’entrée, la « piscine », consiste en un mois pendant lequel chaque candidat, appelé « piscineux » doit valider un maximum d’examens et exercices, appelés « days ». Le tout en autonomie, en étant corrigé par ses pairs ainsi que par un algorithme appelé Moulinette. La plupart des scandales liés à l’école ayant fait les grands titres avaient eu lieu pendant cette épreuve. Chose positive cependant, il semblait qu’un changement de direction dans les dernières années avait su rendre l’ambiance moins hostile et plus inclusive, notamment pour les femmes.
La salle de pause, reconvertie en dortoir les soirs de piscine.
La réalité me parut plus contrastée quand je passai ma piscine en juillet 2022. S’il était bien vrai que beaucoup de progrès avaient été faits depuis le changement de direction, de nombreux comportements problématiques persistaient. Par exemple, il était courant d’entendre dire aux femmes qu’elles seraient favorisées au moment de la sélection et qu’elles pouvaient donc se permettre de maintenir leur niveau minable en programmation.
Aussi, certaines piscineuses subissaient des pressions en tant que correctrices de la part de groupes d’hommes pour les forcer à valider leurs exercices. Et pendant qu’elles se faisaient corriger leurs travaux, les femmes étaient souvent méprisées par des correcteurs voulant montrer leur présumée supériorité technique. Étant donné l’accès difficile au « bocal », nom donné aux bureaux de l’administration, beaucoup de commentaires dévalorisants et de comportements désobligeants étaient tolérés par les piscineuses —ceux-ci étant à la marge de ce qui pouvait être perçu comme suffisamment grave pour se sentir légitimes à les reporter. Cet ensemble pesait lourd sur le moral et poussait beaucoup de femmes à abandonner.
Une grande partie de ces commentaires et comportements sexistes découlent d’une différence de niveau en informatique entre hommes et femmes. Pourtant, il est connu de tous les piscineux que le critère fondamental de sélection est le delta de progression de chacun plutôt que le niveau final atteint. Ainsi, les candidats sans connaissances préalables ne sont pas désavantagés. Malgré cela, beaucoup de femmes se sentent progresser plus lentement que le reste de leurs camarades masculins et se demandent si elles ont leur place dans l’école. En effet, ce sont quasi-exclusivement des hommes qui figurent dans le top 10 du classement de chaque piscine, qui ne prend en compte que le niveau atteint.
Au fil du temps, afin de limiter le nombre d’abandons féminins et de réduire les différences de niveau homme/femme, l’école avait mis en place plusieurs mesures.
Pour commencer, l’école prit l’initiative d’instaurer un « Tea Time », une réunion hebdomadaire de trois heures animées par la directrice de l’école et d’autres membres féminins du staff. Celle-ci devait remotiver les femmes qui hésiteraient à abandonner la piscine. Beaucoup y ont trouvé des camarades avec qui travailler, plus proches de leur niveau et plus réceptives aux difficultés rencontrées. Personnellement, je n’ai assisté qu’à une seule d’entre elles, car je l’ai trouvée profondément déprimante. Trois heures de témoignages négatifs, de dénonciations de comportements inappropriés, ainsi que de nombreux craquages psychologiques en direct, c’était trop pour moi. Les retours de cette initiative ont néanmoins été positifs, beaucoup de femmes ayant trouvé le soutien émotionnel nécessaire pour se motiver à terminer la piscine. Ces séances avaient également aidé à se défaire d’éventuels syndromes de l’imposteur, et donc à se faire une place légitime dans l’école. Ces réunions ont aussi révélé des témoignages positifs sur des hommes prenant la défense de leurs collègues féminines face à des comportements déplacés.
Ensuite, afin de favoriser l’entraide, et ainsi pallier les différences de niveau, l’école avait instauré le Voxotron, un système de votes hebdomadaire dans lequel tout piscineux pouvait voter pour les dix camarades l’ayant le plus aidé dans la semaine. Un candidat ne recevant aucun vote, même ayant atteint un niveau un élevé, ne serait pas sélectionné pour intégrer l’école. Cela devait forcer tous les candidats à aider leur prochain, et donc notamment à aider leurs camarades féminines, dont le vote était important.
Malheureusement, d’autres initiatives dans cette même veine se retrouvaient contournées. C’était notamment le cas du système d’appariement des groupes de « rush », des projets communs ayant lieu pendant le weekend. Les meilleurs piscineux, généralement des hommes, préféraient parfois faire tout le travail seuls plutôt que de collaborer avec leurs camarades moins expérimentés, cela afin d’avancer plus vite. Cette attitude frustrait tant les hommes que les femmes en difficulté, qui auraient voulu profiter de cette opportunité pour progresser. Pour autant, cela semblait davantage affecter les femmes, plus enclines à travailler en groupe et qui semblaient plus souvent dérangées à l’idée de présenter un projet auquel elles n’avaient pas contribué. Cependant, lorsque les membres travaillaient en groupe, ces séances de rush étaient des moments de rencontre importants. Ils permettaient notamment de former des groupes de travail pour la suite ainsi que de se faire des connaissances à qui demander de l’aide. En bref, les rush étaient des moments généralement très appréciés et édifiants.
Le cursus – deux années plus équilibrées
Avec la baisse des inégalités de niveau à la fin de la piscine, s’étaient également réduits les comportements sexistes. De plus, j’avais été agréablement surprise de voir que les réclamations faites pendant la piscine avaient été prises très au sérieux par l’administration, qui avait refusé les candidats les plus problématiques. Même si certains comportements sexistes persistaient, ils étaient beaucoup moins importants. La piscine ayant permis aux femmes de rattraper une grande partie de leur retard technique et leur ayant permis de s’affirmer en ayant gagné en légitimité. Pendant le cursus, les femmes étaient loin d’être invisibles dans les « clusters » (salles de travail). Les amitiés et groupes de travail homme/femme étaient la norme.
En 2024, alors que je viens de terminer mon cursus, les femmes ont obtenu un taux record de 46% de participation aux piscines de février et mars, et représentent environ 25% des étudiants. Ce nombre de femmes grandissant et avec une administration sensible et volontaire à atteindre la parité, être une femme à 42 est de plus en plus agréable au fil des années. Personnellement, j’ai mal été orientée dans mes choix d’études, car on partait du principe que je serais plus épanouie dans un milieu plus mixte et moins technique. Je me suis donc dirigée tard vers l’informatique, à mon grand regret.
Cette école est très dure mais, si on est motivé et curieux, c’est aussi un lieu de rencontres incroyable. J’encourage tout le monde à venir essayer, en particulier les femmes, pour faire en sorte que l’informatique ne soit plus un secteur majoritairement masculin.
Combien pèse un gigaoctet, un tera, un exa ? La question ne vous parait pas avoir de sens. Pourtant elle passionne plus d’un et en particulier l’ami Max Dauchet qui nous initie au sujet. Max Dauchet est un brillant informaticien de l’Université de Lille, spécialiste d’algorithmique et de méthodes formelles pour la programmation.. Serge Abiteboul et Thierry Viéville.
Si la question du poids de la connaissance dans un cerveau fait sourire et n’a guère de sens, celle du poids de l’information chargée dans une clé USB est bien réelle et inspire les Youtubers.
On parle d’information dématérialisée quand elle est accessible sous forme numérique plutôt que stockée dans des bibliothèques soumises à des contraintes architecturales draconiennes tant le papier est lourd. Jusqu’où peut-on aller dans l’allégement du support ? Rien ou Presque rien ? « Rien » signifierait que l’information est immatérielle. « Presque rien » signifierait qu’elle a un lien irréductible avec la matière. Idéalisme d’un côté, matérialisme de l’autre ? éclairer le distinguo vaut le détour. Le chemin nous fait passer par la thermodynamique et l’entropie, celle-là même qui nous fascine quand il s’agit du cosmos, dont la formule S = k logW orne la sépulture de Boltzmann à Vienne. Il aboutit à un « Presque rien » que quantifie le principe de Landauer.
Ce qu’en disent les Youtubers
Le Youtuber scientifique Théo Drieu a mis en ligne ce printemps la vidéo Combien pèse la totalité d’internet sur sa chaîne Balade Mentale (un million d’abonnés). Il ne s’agit bien entendu pas de la masse des infrastructures du net – des millions de tonnes – ni de l’équivalent en masse de l’énergie consommée – dans les 10 à 15 % de l’électricité de la planète. Il s’agit d’une estimation de la masse des électrons nécessairement mis en jeu pour faire circuler l’information sur le net. Dans la vidéo, l’animateur sacrifie à la loi du genre en tripotant une orange afin de marquer les esprits : la masse des informations sur le net serait celle d’une orange. Drieu ne fait là, comme il l’annonce, qu’actualiser les chiffres avancés par son collègue d’Outre-Atlantique Michael Stevens qui dans une vidéo de 2012 intitulée How Much Does The Internet Weigh? croquait modestement une fraise, les millions de térabits sur le net étant alors moins nombreux que maintenant. Dans cette même vidéo sur sa chaîne Vauce (vingt-deux millions d’abonnés) Stevens évoquait deux aspects : le nombre d’électrons nécessairement mobilisés selon les technologies du moment pour faire circuler l’information, et le nombre nécessaire pour la stocker. Dans ce cas, il estimait la masse inférieure à celle non plus d’une fraise mais d’une graine de fraise[i].
Ce qu’en disent les chercheurs
Ce qu’en dit précisément la science est plus saisissant encore, car la limite théorique est des milliards de fois moindre que la masse d’une graine de fraise évoquée par Stevens. Pour le raconter mieux vaut le faire en énergie plutôt qu’en matière, puisque matière et énergie se valent selon la célébrissime formule d’Einstein E = m c². Cela évite le biais lié à l’usage de la matière pour coder, que l’on peut ajouter, comme la plume encre le papier, ou retrancher comme le burin incise la pierre. D’autre part nous nous limitons ici au stockage, sans considérer la circulation de l’information.
La clé de voûte du raisonnement est le principe formulé en 1961 par Rolf Landauer, physicien américain chez IBM[ii] : l’effacement d’un bit dissipe au moins une énergie de k T log2 Joule, où k est la constante de Boltzmann, T la température absolue (en Kelvin) et log 2 ≈ 0,693. L’irruption de Boltzmann au milieu de l’informatique théorique peut surprendre, c’est pourtant lui qui fait le lien entre la physique-chimie – donc les sciences de la matière – et l’informatique – donc les sciences de l’information.
Landauer est pour sa part le premier à avoir tiré clairement toutes les conséquences de la théorie de Boltzmann. Les systèmes que considère Boltzmann sont des gaz, avec des milliards de milliards de milliards d’états possibles au niveau de l’ensemble des particules. Landauer applique l’idée de Bolzmann sur un système à … deux états, le 0 et le 1, juste de quoi stocker un bit. Pour étudier les propriétés d’un bit d’information, il applique ainsi un concept – l’entropie – basé sur quatre siècles d’intenses recherches en physique-chimie. On comprend que les laboratoires de physique demeurent mobilisés pour monter des expériences de confirmation ou d’invalidation de la proposition de Landauer, car de leurs résultats dépend notre conception des rapports entre matière, énergie et information. Ces expériences se situent au niveau quantique et font face à des phénomènes complexes comme les fluctuations statistiques d’énergie qui sont ici passés sous silence. Le présent regard est celui d’un informaticien, illustré par un petit démon imaginé par Maxwell, démon qui lui aussi a suscité de nombreuses vidéos.
L’entropie, une histoire de gaz et de piston
Wikipédia définit l’entropie comme une grandeur physique qui caractérise le degré de désorganisation d’un système. Cette notion naît de l’étude du rendement de la machine à vapeur et des travaux de Carnot sur les échanges de chaleur, autrement dit de la thermodynamique au sens littéral du terme. Le principe de Carnot dit que sans apport extérieur d’énergie, une source chaude et une source froide s’équilibrent irréversiblement en un système de température homogène. Ce principe a été généralisé en ce qui est maintenant le deuxième principe de thermodynamique, en introduisant la notion d’entropie pour quantifier « le désordre » vers lequel tout système sans apport extérieur d’énergie évolue inexorablement selon ce principe.
Clausius relie en 1865 la baisse d’entropie d’un gaz parfait à la la chaleur que dégage le travail d’un piston qui comprime le gaz à température constante[iii].
Quelques années plus tard, Bolzmann propose une définition radicalement différente de l’entropie S. Cette définition s’appuie sur la description statistique de l’état du gaz et aboutit à la formule S = k log W déjà évoquée (la version étendue de cet article montre l’équivalence des deux approches).
W est la clé du lien avec le numérique, ce symbole désigne le nombre de configurations possibles du gaz en considérant la position et de la vitesse de chaque particule. Quand le piston divise par deux le volume du gaz, le nombre possible de positions d’une particule est également divisé par deux : Pour chaque particule, il n’y a plus à préciser si elle est à gauche ou à droite dans la boite. Landauer en déduira plus tard que c’est l’effacement de cette information pour chaque particule qui produit la chaleur.
Cette présentation de l’entropie de Boltzmann et de son interprétation par Landauer enjambe l’histoire. Entre temps, les réflexions des physiciens ont évolué pas à pas, et elles ne sont pas closes. Le démon de Maxwell illustre ces réflexions.
Le démon de Maxwell : quand le calcul et la mémoire s’en mêlent
Se plaçant comme Boltzmann au niveau des particules, Maxwell proposa une expérience de pensée comme les physiciens aiment à les imaginer.
Maxwell considéra une boîte partagée en deux par une cloison munie d’une trappe qu’un démon actionne sans frottement de façon à faire passer une à une des particules[iv]. En les faisant passer de gauche à droite, le démon « range les particules », il diminue l’entropie du gaz sans fournir de travail, contrairement au piston : le deuxième principe de thermodynamique est contredit !
Pour lever la contradiction, les physiciens cherchèrent du côté des calculs effectués par le démon de Maxwell, considérant que si celui-ci n’exerce pas sur le gaz un travail mécanique, il exerce en quelque sorte un travail intellectuel, il observe, il acquière de l’information et il calcule. Tel fut le point de vue de Szilárd, un des principaux scientifiques du projet Manhattan connu pour son opposition farouche à l’usage de la bombe atomique[v]. Puis Brillouin[vi] ébaucha l’idée ensuite érigée en principe par Landauer que c’est l’effacement d’information qui augmente l’entropie, comme nous allons le préciser.
Le principe de Landauer : du gaz à l’ordinateur
Le principe de Landauer est une extrapolation de la formule de Boltzmann aux systèmes informatiques. La relation entre énergie et nombre de micro-états est étendue par analogie.
Landauer pose directement la formule de Boltzmann en considérant un seul bit de mémoire comme un système à deux états possibles, 0 et 1 [vii]. Si le bit est effacé, il n’y a plus qu’un seul état, l’entropie a donc diminué et ce travail d’effacement s’est dissipé en chaleur.
Retour sur le démon de Maxwell
Pour la simplicité de l’interprétation numérique, nous avons seulement considéré plus haut le cas où le volume du gaz est réduit de moitié. Mais le parallèle entre le piston et le démon doit tenir pour tous les taux de compression. Pour pouvoir revenir aux conditions initiales, le démon doit compter les particules de gauche à droite, afin d’en renvoyer autant si l’on poursuit le parallèle avec le piston. D’après Landauer, pour ne pas chauffer, le démon ne doit effacer aucun bit intermédiaire, ce qui n’est pas le cas avec l’addition habituelle mais est réalisé par exemple en « comptant des bâtons ». Or le démon fait partie du système physique considéré dans l’expérience de pensée, il doit donc être remis dans son état d’origine si l’on veut faire un bilan énergétique à l’issue de la compression comme c’est le cas ici. Autrement dit, il doit alors effacer sa mémoire, ce qui dégage la chaleur prévue par la physique.
Réversibilité et entropie
Pour imaginer un système informatique ne consommant aucune énergie, ce système ne doit donc effacer aucune information durant ses calculs, ce qui revient à considérer des machines logiquement réversibles, où l’on peut remonter pas-à-pas les calculs comme si on remontait le temps . C’est ainsi que nous avons réinterprété le démon. Les opérateurs logiques et arithmétiques usuels ne sont évidemment pas réversibles (l’addition et le ET perdent les valeurs de leurs données) . Cependant Bennett[viii], [ix], [x] a montré que l’on peut rendre tout calcul logiquement réversible en donnant un modèle de machine de Turing conservant l’historique de tous ses calculs. Ces considérations sont particulièrement prometteuses pour les ordinateurs quantiques, où la superposition d’états dans les q-bits conduit (sous les nombreuses contraintes liées à ce type de machine) à considérer directement des opérateurs réversibles.
Les physiciens continuent de se passionner pour le principe de Landauer[xi], imaginant des nano machines parfois extravagantes, à cliquets, escaliers, poulies ou trappes et construisant des expériences de plus en plus fines[xii] pour mesurer l’énergie dégagée par l’effacement d’un bit[xiii]. Jusqu’à présent, le principe est confirmé, dans le cadre de la physique classique comme de la physique quantique. Il n’est cependant pas exclu que sa limite soit un jour abaissée, notamment en exploitant des propriétés de la physique quantique encore mal connues. Cela remettrait en cause les interprétations qui viennent d’être décrites, et ce serait alors une nouvelle source de progrès dans les modèles scientifiques de l’organisation de la matière et de l’information.
En guise de conclusion
La limite de Landauer commence à influencer l’architecture des systèmes et plaide pour l’informatique quantique. Elle fournit un horizon qui nous incite à méditer sur ce qu’est le traitement de l’information, que ce soit par le vivant ou la machine.
La théorie associe à l’information une masse minimale de matière bien moindre encore que celle mise en scène par les Youtubers, déjà spectaculaire par sa modicité. De même il faut peu de matière pour libérer beaucoup d’énergie (bombe, centrale nucléaire) et beaucoup d’énergie pour générer quelques particules (au LHC du CERN). Le second principe de thermodynamique et l’entropie nous font penser qu’il est plus facile de désordonner que de structurer. Pourtant l’univers fabrique sans cesse de nouveaux objets cosmiques et la vie s’est développée sur terre[xiv]. Nous devons nous méfier de nos appréciations sur le petit ou le grand, le beaucoup ou le peu, qui sont des jugements attachés à notre échelle et à notre condition.
Max Dauchet, Professeur Émérite de l’Université de Lille.
[i] Estimation tirée d’articles universitaires. Cinquante ans avant, Richard Feynman, prix Nobel de physique , dans sa célèbre conférence de 1959 intitulée There’s Plenty of Room at the Bottom, annonciatrice de l’essor des nanotechnologies, estimait que l’on pourrait coder avec les technologies de l’époque toutes les connaissances du monde dans un grain de poussière, et indiquait les pistes pour le faire.
[ii] Rolf Landauer, Irreversibility and Heat Generation in the Computing Process, IBM Journal of Research and Development, 5(3), 183–191 (1961).
[iii]Die mechanische Wärmetheorie, Friedrich Vieweg und Sohn ed (1865 -1867).
[iv] Historiquement, le démon trie les particules les plus rapides et les plus lentes, distribuées statistiquement autour de la valeur moyenne, pour créer une source chaude et une source froide à partir d’un milieu en équilibre thermique.
[v] La première planche de La bombe, BD consacrée au projet Manhattan, illustre un cours de Szilárd sur le sujet en 1933. Alcante, Bollée, Rodier, Ed. Glénat, 2020.
[vi] Brillouin est sans doute un des noms les moins connus de ceux cités ici. Alfred Kastler, prix Nobel de physique, lui rendait hommage dans les colonnes du Monde lors de sa disparition 1969 : Léon Brillouin : un des plus brillants physiciens français.
[vii] En réalité un réseau de bits statistiquement liés, pour des raisons de phénomènes physiques.
[viii] C. H. Bennett, Logical reversibility of computation, IBM journal of Research and Development, 1973.
[ix] J.-P. Delahaye, Vers du calcul sans coût énergétique, Pour la science, pp 78-83, janvier 2017
[xi] La plupart des références données ici sont les références historiques – il est souvent instructif de découvrir les idées « dans leur jus ». Cependant il suffit de parcourir le net pour en trouver des récentes en pagaille.
[xii] Les fluctuations statistiques ici négligées y jouent un rôle important.
[xiii] Séminaire information en physique quantique de l’Institut Henri Poincaré, 17/11/2018 . vidéos sur carmin.tv, les mathématiques vivantes. Landauer et le démon de Maxwell, Sergio Ciliberto. Thermodynamique et information, Kirone Mallik.
[xiv] Dans son article déjà cité, Bennett évoque l’économie de moyens de la duplication des gènes, déjà remarquée par Landauer en 1961.
Michel LEDUC a participé à la création d’une des premiers ordinateurs personnels en France. En plus des foyers, cet ordinateur a aussi pénétré les écoles ce qui fait que ce petit TO7 est un peu connu. Michel nous narre cette histoire à l’occasion de la sortie d’un livre sur cette aventure. Pierre Paradinas et Benjamin Ninassi.
Binaire : Comment es tu entré chez Thomson dans les années 1970 ?
Michel LEDUC : Diplômé de l’ESEO en 1973, je recherche du travail à la fin de mon service militaire pendant l’été 1974. Après CV et lettres de motivations, je passe un entretien à Paris pour un poste à Thomson Moulins. Ce fut, un entretien original avec une visite du LCR de Corbeville (le laboratoire de recherche du groupe Thomson) où je suis ébloui par la démonstration d’une maquette de vidéodisque et je suis séduit par l’équipe de chercheurs à l’origine de cette merveilleuse lampe d’Aladin qui permettait d’obtenir une image vidéo à partir d’un bout de plastique avec des milliards de micro-cuvettes ! Ce vidéodisque était la version Thomson du disque optique qui a vu le jour dans le grand public sous le nom de Laservision porté par l’alliance Sony Philips. La version de Thomson portait sur un disque transparent et souple alors que Philips défendait une version réflective sur un disque d’1mm d’épaisseur . L’absence de protection des micro cuvettes du disque Thomson a causé sa perte ainsi que la stratégie de Thomson mais le système de lecture étant similaire, c’est avec les brevets que Thomson a gagné beaucoup d’argent sur tous les lecteurs de CD et de DVD vendus dans le monde. Ma mission était de récupérer le savoir-faire de l’équipe parisienne et de transformer leur maquette en un produit grand public pour la partie électronique. L’arrêt du projet de vidéodisque grand public m’amènera de manière fortuite à la création du TO7.
Binaire: Thomson à l’époque, c’est quelle entreprise ?
ML : Thomson-Houston est déjà un grand groupe alliant électronique grand public (radio, électrophone, machine à laver, réfrigérateurs…), électronique professionnelle et militaire (Thomson CSF). Le LCR où naîtra le vidéodisque est le laboratoire de recherches de l’ensemble du groupe. La division grand public a de nombreuses usines en France : Angers et Saint Pierre Montlimart pour la télévision, Moulins pour l’audio, la Roche sur Yon (machine à laver le linge) et bien d’autres. Le groupe comprend plus de 40 000 personnes à l’époque et détient même une majorité des parts de CII-Honeywell. La situation évoluera avec la nationalisation du groupe en 1982.
Binaire: Peux tu nous décrire le paysage de la micro informatique en France à cette époque ?
ML : Quand on me demande en 1979 de choisir le micro-ordinateur que le groupe va revendre, je m’adresse aux fabricants américains car il n’existe pas de marché en France mais on commence à entendre parler d’Apple, de Commodore, d’Atari… Les dirigeants de Thomson et les équipes marketing ont entendu parler du phénomène qui se développe aux US avec l’arrivée de l’ordinateur individuel dans les foyers américains. L‘objectif principal était de suivre ce qui se passait aux Etats-Unis et d’être présent sur ce marché qui apparaissait prometteur aux US. Quand nous arrivons avec le TO7. Quand le TO7 sortira, près de trois ans après, de nombreux concurrents se sont déjà positionnés sur le marché français mais le TO7 trouvera sa place grâce à son orientation éducative et les accords avec VIFI Nathan qui permettront au TO7 de passer la barrière habituelle que le public français crée à l’arrivée d’une nouvelle technologie ! Ce choix judicieux pour le marché français constituera un obstacle infranchissable pour adresser les autres marchés !
Binaire: On fait comment pour fabriquer un PC dans les années 70 ?
Photo : Michel Leduc
ML : À la fin du vidéodisque grand public, mon patron moulinois m’a proposé de rechercher un micro-ordinateur pour le revendre dans le réseau Thomson. La recherche se solda par un échec et poussé par l’équipe grenobloise de Thomson semi-conducteurs, nous avons proposé d’en fabriquer un ! Je partais de rien. Je me suis appuyé sur les conseils et la volonté de l’équipe de Grenoble de Thomson semi-conducteurs qui me poussaient vers les puces 6800 pour le microprocesseur et vers les chips de TV Antiope pour la vidéo. Ensuite faute d’expertise en logiciel, on a embauché José Henrard, chercheur en sociologie au CNRS, qui bricolait dans le labo de Mr Dupuis à Jussieu et qui avait développé une maquette basée sur un microprocesseur 4 bits. Il avait conçu le moniteur pour la faire fonctionner. Avec ces deux éléments, on a réalisé la première maquette wrappée du T07 avec un microprocesseur 6800, et une interface vidéo réalisée avec 70 circuits TTL. Le tout fonctionnait avec un moniteur et un crayon optique conçu que j’avais conçu. Inutile de dire que cela n’a pas fonctionné du premier coup, mais à force de travail acharné de toute l’équipe on a pu réaliser une démonstration à la direction générale dans des conditions assez rocambolesques !
Binaire: quels rôles pour l’ADI, le centre mondial de l’informatique et l’éducation nationale dans cette aventure ?
ML : Je suis mal placé pour juger du rôle du centre mondial de l’informatique car c’est plutôt José, situé à la SIMIV à Paris, qui avait les relations avec le monde politique. Tout ce que je sais c’est que les relations n’étaient pas les meilleures car JJSS poussait plus pour les produits Apple que vers les TO/MO. Il a, avec quelques autres acteurs du monde éducatif savonner la planche du plan informatique pour tous et a surtout œuvré pour qu’Apple soit l’ordinateur du plan IPT. Je pense qu’il y a eu un apport positif avec Seymour Papert et Logo que l’on utilisé sur le TO7.
Photo : Michel Leduc
Binaire: quel est l’un de tes plus beau souvenir ? ML : J’en citerai plusieurs :
l’apparition de la première image sur l’écran et le pilotage par le crayon optique
le passage de la première pub (les rois mages) à la TV juste avant Noël
Binaire: quelle est ta plus grande fierté ?
ML : Il est clair que ma plus grande fierté a été de voir les TO7 dans les écoles et de pouvoir en faire bénéficier les élèves des classes de mes enfants. De voir les yeux émerveillés des enfants dans la classe de mon fils quand ils faisaient du dessin avec le logiciel PICTOR et le crayon optique. C’est aussi de savoir que de nombreuses personnes sont devenus informaticiens ou tout au moins se sont initiés à l’informatique grâce à ces produits.
Le plus étonnant est de voir encore les fans (nombreux) jouer sur ces produits (ou émulateurs), créer de nouveaux jeux , faire des compétitions! Depuis la sortie du livre des témoignages touchants me racontent avec émotion la place qu’avait pris les TO7 dans leur enfance. Utilisations originales : accord avec Légo pour piloter les moteurs de constructions Légo, pilotage d’outils de laboratoire via l’interface IEEE, la tortue Logo…..
Binaire: des regrets ?
ML : Au niveau stratégique, de ne pas avoir su commuter au bon moment vers le domaine du jeu (tant au niveau hardware que bien sûr logiciel) et ainsi de nous permettre de mieux nous positionner sur le marché européen, et d’avoir été un acteur, malgré moi, des premières délocalisations avec le transfert de la fabrication du TO8 vers la Corée et vers Daewoo!
Pour aller plus loin:
à propos du CMI : https://www.ina.fr/ina-eclaire-actu/video/cab8300029601/centre-mondial-informatique
le livre « Le Thomson T07, succès controversé de la microinformatique française« , chez L’écritoire
Qui mieux que Rachid Guerraoui, un ami de binaire, pour nous parler de la grande panne informatique. Rachid est professeur d’informatique à l’École Polytechnique Fédérale de Lausanne (EPFL) et membre du comité de pilotage du Collège of Computing à l’UM6P. Il a été chercheur aux laboratoires Hewlett Packard de la Silicon Valley et professeur invité au MIT et au Collège de France. Serge Abiteboul et Pierre Paradinas.
Dans le film La Grande Vadrouille, Bourvil vole un uniforme de colonel allemand dans le hammam de la mosquée de Paris pour sauver un pilote britannique caché à l’opéra. Lors d’une représentation de Berlioz dirigée par De Funès devant les hauts gradés allemands, Bourvil, vêtu de son uniforme, accède aux coulisses sans être inquiété. La réalité dépasse parfois la fiction. En avril 2024, des malfrats ont dévalisé les habitants d’une petite commune française grâce à un stratagème ingénieux : l’un d’eux se faisait passer pour un plombier venu vérifier des fuites d’eau, puis ses complices, déguisés en policiers, prétendaient enquêter sur ce faux plombier pour accéder aux coffres des victimes.
Le monde numérique, lui, nous réserve des scénarios encore plus incroyables. Le vendredi 19 juillet 2024, des « policiers » virtuels ont pris la relève de leurs prédécesseurs pour mieux protéger les systèmes informatiques : aéroports, banques, hôpitaux, médias, administrations et entreprises. Leur mission : détecter d’éventuels intrus et les bloquer. Mais ces nouveaux « policiers », une fois introduits dans le cœur des systèmes, les ont bloqués au lieu de les protéger. Près de dix millions d’ordinateurs se sont arrêtés, entraînant un chaos mondial. Avant de tirer les leçons de cette panne informatique sans précédent, posons-nous quelques questions : Qui sont ces « policiers » ? Qui les a envoyés ? Pourquoi ont-ils remplacé les anciens systèmes qui semblaient fonctionner correctement ? Comment ont-ils pu pénétrer le cœur des systèmes et les bloquer à une telle échelle ?
Ces « policiers » sont des segments de programmes envoyés par des messages Internet aux systèmes Windows de Microsoft. Grâce à sa solution Office 365 (Word, Excel, PowerPoint, Outlook, Skype, Teams, etc.), Microsoft est le leader mondial de la bureautique, équipant plus d’un milliard d’utilisateurs. Windows, son système d’exploitation, fait tourner la majorité des ordinateurs de la planète. Les segments de programmes visent à renforcer la sécurité de Windows en s’intégrant au système existant pour contrôler son exécution.
Les messages contenant ces programmes sont envoyés automatiquement par le logiciel Falcon Sensor, hébergé sur le cloud pour le compte de Crowdstrike, un leader mondial de la cybersécurité. Crowdstrike s’est forgé une réputation grâce à ses enquêtes sur des cyberattaques majeures. Son logiciel Falcon Sensor analyse et bloque les attaques informatiques en s’adaptant de manière autonome aux nouvelles menaces, sans intervention humaine, ce qui a séduit Microsoft.
Ces mécanismes de défense jouissent de droits élevés (sous forme de « signatures »), et aucun autre logiciel ne peut les stopper. Ils s’introduisent au cœur du système Windows et s’exécutent avant les autres applications. Toutefois, le mécanisme envoyé le 19 juillet était défaillant. Une « erreur logique » dans un fichier de configuration critique a provoqué une « erreur physique » : des adresses mémoire ont été calculées incorrectement et affectées sans vérification, conduisant Windows à lancer sa procédure de blocage (« Blue Screen Of Death ») sur plus de 8 millions d’ordinateurs.
La panne a coûté plus d’un milliard de dollars. Elle aurait pu être pire, seulement 1 % des machines Windows ont été touchées, et l’envoi du mécanisme a été stoppé après 88 minutes. De nombreux vols ont été annulés, et des interventions médicales reportées, mais heureusement, aucune perte humaine n’est à déplorer.
Deux fausses bonnes idées ont été proposées par certains médias au lendemain de la panne :
Revenir au crayon et au papier pour se passer du numérique. C’est juste est irréaliste parce que le numérique fait désormais partie intégrante de notre quotidien.
La souveraineté numérique n’aurait pas prévenu la panne. Les États-Unis, très autonomes dans ce domaine, ont été touchés. Le fait que certains pays, comme la Chine et la Russie, s’en soient mieux sortis tient simplement à ce qu’ils n’utilisent pas Windows et Crowdstrike.
Par contre, je retiendrais au moins trois leçons de la panne :
Le numérique est un ensemble : les données, l’IA, les réseaux, les systèmes d’exploitation, la sécurité, etc., sont interconnectés et doivent être traités de manière globale. La conception d’un logiciel doit être vérifiée de bout en bout avec des méthodes de génie logiciel. Ajouter des segments de programmes à un logiciel certifié, sans revalider l’ensemble, est une faute grave.
La probabilité d’erreur n’est jamais nulle, même avec des tests et vérifications. Il ne faut donc pas dépendre d’une seule infrastructure. Ici, des millions de machines cruciales étaient toutes sous le même système d’exploitation et logiciel de sécurité. Espérons que les infrastructures informatiques ne dépendront plus uniquement de Microsoft et Crowdstrike à l’avenir.
Les architectures ouvertes et décentralisées sont essentielles. La plateforme blockchain de Bitcoin, attaquée régulièrement, fonctionne sans accroc majeur depuis 2009. Bien que le code soit accessible et modifiable par tous, il ne peut être déployé que s’il est accepté par la communauté, contrairement au code fermé de Falcon Sensor, déployé de manière non transparente.
En résumé, un logiciel devrait être considéré dans son intégralité et il faudrait vérifier ses algorithmes et tester sa mise en œuvre de bout en bout ; on ne doit pas dépendre d’un seul type de logiciel pour une infrastructure. critique ; et il faudrait privilégier les architectures ouvertes et décentralisées. Le législateur pourrait imposer aux sociétés informatiques d’ouvrir leurs logiciels et d’offrir des interfaces standards pour diversifier les fournisseurs. La résilience de l’infrastructure DNS, grâce à la diversité de ses implémentations, prouve que cet objectif est réalisable.
Billet d’introduction: L’expression “David contre Goliath” n’a jamais semblé aussi pertinente que lorsqu’il faut décrire le combat des artistes contre les GAFAM. Cette expression souvent utilisée pour décrire un combat entre deux parties prenantes de force inégale souligne une réalité : celle de la nécessité qu’ont ressenti des artistes de différents milieux et pays de se défendre face à des géants de la tech de l’IA générative pour protéger leur oeuvres, leur passion et leur métier, pour eux et pour les générations futures. Si la Direction Artistique porte le nom de [DA]vid, alors l’IA sera notre Gol[IA]th… C’est parti pour une épopée 5.0 !
Julie Laï-Pei, femme dans la tech, a à cœur de créer un pont entre les nouvelles technologies et le secteur Culturel et Créatif, et d’en animer la communauté. Elle nous partage ici sa réflexion au croisement de ces deux domaines.
Chloé Mercier, Thierry Vieville et Ikram Chraibi Kaadoud
Comment les artistes font-ils face au géant IA, Gol[IA]th ?
« David et Goliath » – Gustave Doré passé dans Dall-e – Montage réalisé par @JulieLaï-Pei
A l’heure d’internet, les métiers créatifs ont connu une évolution significative de leur activité. Alors que nous sommes plus que jamais immergés dans un monde d’images, certains artistes évoluent et surfent sur la vague, alors que d’autres reviennent à des méthodes de travail plus classiques. Cependant tous se retrouvent confrontés aux nouvelles technologies et à leurs impacts direct et indirect dans le paysage de la créativité artistique.
Si les artistes, les graphistes, les animateurs devaient faire face à une concurrence sévère dans ce domaine entre eux et face à celle de grands acteurs du milieu, depuis peu (on parle ici de quelques mois), un nouveau concurrent se fait une place : l’Intelligence artificielle générative, la Gen-IA !
C’est dans ce contexte mitigé, entre écosystème mondial de créatifs souvent isolés et puissances économiques démesurées que se posent les questions suivantes :
Quelle est la place de la création graphique dans cet océan numérique ? Comment sont nourris les gros poissons de l’intelligence artificielle pour de la création et quelles en sont les conséquences ?
L’évolution des modèles d’entraînement des IA pour aller vers la Gen-AI que l’on connaît aujourd’hui
Afin qu’une intelligence artificielle soit en capacité de générer de l’image, elle a besoin de consommer une quantité importante d’images pour faire le lien entre la perception de “l’objet” et sa définition nominale. Par exemple, à la question “Qu’est-ce qu’un chat ?” En tant qu’humain, nous pouvons facilement, en quelques coup d’œil, enfant ou adulte, comprendre qu’un chat n’est pas un chien, ni une table ou un loup. Or cela est une tâche complexe pour une intelligence artificielle, et c’est justement pour cela qu’elle a besoin de beaucoup d’exemples !
Ci dessous une frise chronologique de l’évolution des modèles d’apprentissage de l’IA depuis les premiers réseaux de neurones aux Gen-IA :
Frise chronologique par @JulieLaiPei
En 74 ans, les modèles d’IA ont eu une évolution fulgurante, d’abord cantonnée aux sphères techniques ou celle d’entreprises très spécialisées, à récemment en quelques mois en 2023, la société civile au sens large et surtout au sens mondial.
Ainsi, en résumé, si notre IA Gol[IA]th souhaite générer des images de chats, elle doit avoir appris des centaines d’exemples d’images de chat. Même principe pour des images de voitures, des paysages, etc.
Le problème vient du fait que, pour ingurgiter ces quantités d’images pour se développer, Gol[IA]th mange sans discerner ce qu’il engloutit… que ce soit des photos libres de droit, que ce soit des oeuvres photographiques, des planches d’artwork, ou le travail d’une vie d’un artiste, Gol[IA]th ne fait pas de différence, tout n’est “que” nourriture…
Dans cet appétit gargantuesque, les questions d’éthique et de propriétés intellectuelles passent bien après la volonté de développer la meilleure IA générative la plus performante du paysage technologique. Actuellement, les USA ont bien de l’avance sur ce sujet, créant de véritables problématiques pour les acteurs de la création, alors que l’Europe essaie de normer et d’encadrer l’éthique des algorithmes, tout en essayant de mettre en place une réglementation et des actions concrètes dédiées à la question de la propriété intellectuelle, qui est toujours une question en cours à ce jour.
Faisons un petit détour auprès des différents régimes alimentaires de ce géant…
Comment sont alimentées les bases de données d’image pour les Gen-AI ?
L’alimentation des IA génératives en données d’images est une étape cruciale pour leur entraînement et leur performance. Comme tout bon géant, son régime alimentaire est varié et il sait se sustenter par différents procédés… Voici les principales sources et méthodes utilisées pour fournir les calories nécessaires de données d’images aux IA génératives :
Les bases de données publiques
Notre Gol[IA]th commence généralement par une alimentation saine, basée sur un des ensembles de données les plus vastes et les plus communément utilisés: par exemple, ImageNet qui est une base de données d’images annotées produite par l’organisation du même nom, à destination des travaux de recherche en vision par ordinateur. Cette dernière représente plus de 14 millions d’images annotées dans des milliers de catégories. Pour obtenir ces résultats, c’est un travail fastidieux qui demande de passer en revue chaque image pour la qualifier, en la déterminant d’après des descriptions, des mot-clefs, des labels, etc…
Entre autres, MNIST, un ensemble de données de chiffres manuscrits, couramment utilisé pour les tâches de classification d’images simples.
Dans ces ensembles de données publics, on retrouve également COCO (à comprendre comme Common Objects in COntext) qui contient plus de 330 000 images d’objets communs dans un contexte annotées, pour l’usage de la segmentation d’objets, la détection d’objets, de la légendes d’image, etc…
Plus à la marge, on retrouve la base de données CelebA qui contient plus de 200 000 images de visages célèbres avec des annotations d’attributs.
Plus discutable, Gol[IA]th peut également chasser sa pitance… Pour ce faire, il peut utiliser le web scraping. Il s’agit d’un procédé d’extraction automatique d’images à partir de sites web, moteurs de recherche d’images, réseaux sociaux, et autres sources en ligne. Concrètement, au niveau technique, il est possible d’utiliser des APIs (Application Programming Interfaces) pour accéder à des bases de données d’images: il s’agit d’interfaces logicielles qui permettent de “connecter” un logiciel ou un service à un autre logiciel ou service afin d’échanger des données et des fonctionnalités. Il en existe pour Flickr, pour Google Images, et bien d’autres.
Ce procédé pose question sur le plan éthique, notamment au sujet du consentement éclairé des utilisateurs de la toile numérique : Est-ce qu’une IA a le droit d’apprendre de tout, absolument tout, ce qu’il y a en ligne ? Et si un artiste a choisi de partager ses créations sur internet, son œuvre reste-t-elle sa propriété ou devient-elle, en quelque sorte, la propriété de tous ?
Ces questions soulignent un dilemme omniprésent pour tout créatif au partage de leur œuvre sur internet : sans cette visibilité, il n’existe pas, mais avec cette visibilité, ils peuvent se faire spolier leur réalisation sans jamais s’en voir reconnaître la maternité ou paternité.
Il y a en effet peu de safe-places pour les créatifs qui permettent efficacement d’être mis en lumière tout en se prémunissant contre les affres de la copie et du vol de propriété intellectuelle et encore moins de l’appétit titanesque des géants de l’IA.
C’est à cause de cela et notamment de cette méthode arrivée sans fanfare que certains créatifs ont choisi de déserter certaines plateformes/réseaux sociaux: les vannes de la gloutonnerie de l’IA générative avaient été ouvertes avant même que les internautes et les créatifs ne puissent prendre le temps de réfléchir à ces questions. Cette problématique a été aperçue, entre autres, sur Artstation, une plateforme de présentation jouant le rôle de vitrine artistique pour les artistes des jeux, du cinéma, des médias et du divertissement. mais également sur Instagram et bien d’autres : parfois ces plateformes assument ce positionnement ouvertement, mais elles sont rares ; la plupart préfèrent enterrer l’information dans les lignes d’interminables conditions d’utilisation qu’il serait bon de commencer à lire pour prendre conscience de l’impact que cela représente sur notre “propriété numérique”.
Les bases de données spécialisées
Dans certains cas, Gol[IA]th peut avoir accès à des bases de données spécialisées, comprenant des données médicales (comme les scans radiographiques, IRM, et autres images médicales disponibles via des initiatives comme ImageCLEF) ou des données satellites (fournies par des agences spatiales comme la NASA et des entreprises privées pour des images de la Terre prises depuis l’espace).
Les données synthétiques
Au-delà des images tirées du réel, l’IA peut également être alimentée à partir d’images générées par ordinateur. La création d’images synthétiques par des techniques de rendu 3D permet de simuler des scénarios spécifiques (par exemple, de la simulation d’environnements de conduite pour entraîner des systèmes de conduite autonome), ainsi que des modèles génératifs pré-entraînés. En effet, les images générées par des modèles peuvent également servir pour l’entraînement d’un autre modèle. Mais les ressources peuvent également provenir d’images de jeux vidéo ou d’environnement de réalité virtuelle pour créer des ensembles de données (on pense alors à Unreal Engine ou Unity).
Les caméras et les capteurs
L’utilisation de caméras pour capturer des images et des vidéos est souvent employée dans les projets de recherche et développement, et dans une volonté de sources plus fines, de capteurs pour obtenir des images dans des conditions spécifiques, comme des caméras infrarouges pour la vision nocturne, des LIDAR pour la cartographie 3D, etc.
Toutes ces différentes sources d’approvisionnement pour Gol[IA]th sont généralement prétraitées avant d’être utilisées pour l’entraînement : normalisation, redimensionnement, augmentation des données, sont des moyens de préparation des images.
En résumé, il faut retenir que les IA génératives sont alimentées par une vaste gamme de sources de données d’images, allant des ensembles de données publiques aux données collectées en ligne, en passant par les images synthétiques et les captures du monde réel. La diversité et la qualité des données sont essentielles pour entraîner des modèles génératifs performants et capables de produire des images réalistes et variées. Cependant cette performance ne se fait pas toujours avec l’accord éclairé des auteurs des images. Il est en effet compliqué – certains diront impossible – de s’assurer que la gloutonnerie de Gol[IA]th s’est faite dans les règles avec le consentement de tous les créatifs impliqués… Un sujet d’éducation à la propriété numérique est à considérer!
Mais alors, comment [DA]vid et ses créatifs subissent cette naissance monstrueuse ?
Les métiers créatifs voient leur carnet de commande diminuer, les IA se démocratisant à une vitesse folle. [DA]vid, au delà de perdre des revenus en n’étant plus employé par des revues pour faire la couverture du magazine, se retrouve face à une concurrence déloyale : l’image générée a le même style… voir “son style”… Or pour un créatif, le style est l’œuvre du travail d’une vie, un facteur différenciant dans le paysage créatif, et le moteur de compétitivité dans le secteur… Comment faire pour maintenir son statut d’acteur de la compétitivité de l’économie alors que les clients du secteur substituent leur commande par des procédés éthiquement questionnables pour faire des économies ?
Gol[IA]th mange sans se sentir rompu, qu’il s’agisse de données libres ou protégées par des droits d’auteur, la saveur ne change pas. L’espoir de voir les tribunaux s’animer, pays après pays, sur des questionnements de violation, ou non, des lois protégeant les auteurs, s’amenuise dans certaines communautés. En attendant, les [DA]vid créatifs se retrouvent livrés à eux-mêmes, lentement dépossédés de l’espoir de pouvoir échapper au géant Gol[IA]th. Alors que l’inquiétude des artistes et des créateurs grandit à l’idée de voir une série d’algorithmes reproduire et s’accaparer leur style artistique, jusqu’à leur carrière, certains s’organisent pour manifester en occupant l’espace médiatique comme l’ont fait les acteurs en grève à Hollywood en 2023, et d’autres choisissent d’attaquer le sujet directement au niveau informatique en contactant Ben Zhao et Heather Zheng, deux informaticiens de l’Université de Chicago qui ont créé un outil appelé “Fawkes”, capable de modifier des photographies pour déjouer les IA de reconnaissance faciale.
“Est-ce que Fawkes peut protéger notre style contre des modèles de génération d’images comme Midjourney ou Stable Diffusion ?”
Bien que la réponse immédiate soit “non”, la réflexion a guidé vers une autre solution…
“Glaze”, un camouflage en jus sur une oeuvre
Les chercheurs de l’Université de Chicago se sont penchés sur la recherche d’une option de défense des utilisateurs du web face aux progrès de l’IA. Ils ont mis au point un produit appelé “Glaze”, en 2022, un outil de protection des œuvres d’art contre l’imitation par l’IA. L’idée de postulat est simple : à l’image d’un glacis ( une technique de la peinture à l’huile consistant à poser, sur une toile déjà sèche, une fine couche colorée transparente et lisse) déposer pour désaturer les pigments“Glaze” est un filtre protecteur des créations contre les IAs.
“Glaze” va alors se positionner comme un camouflage numérique : l’objectif est de brouiller la façon dont un modèle d’IA va “percevoir” une image en la laissant inchangée pour les yeux humains.
Ce programme modifie les pixels d’une image de manière systématique mais subtile, de sorte à ce que les modifications restent discrètes pour l’homme, mais déconcertantes pour un modèle d’IA. L’outil tire parti des vulnérabilités de l’architecture sous-jacente d’un modèle d’IA, car en effet, les systèmes de Gen-AI sont formés à partir d’une quantité importante d’images et de textes descriptifs à partir desquels ils apprennent à faire des associations entre certains mots et des caractéristiques visuelles (couleurs, formes). “Ces associations cryptiques sont représentées dans des « cartes » internes massives et multidimensionnelles, où les concepts et les caractéristiques connexes sont regroupés les uns à côté des autres. Les modèles utilisent ces cartes comme guide pour convertir les textes en images nouvellement générées.” (- Lauren Leffer,biologiste et journaliste spécialisée dans les sciences, la santé, la technologie et l’environnement.)
“Glaze” va alors intervenir sur ces cartes internes, en associant des concepts à d’autres, sans qu’il n’y ait de liens entre eux. Pour parvenir à ce résultat, les chercheurs ont utilisé des “extracteurs de caractéristiques” (programmes analytiques qui simplifient ces cartes hypercomplexes et indiquent les concepts que les modèles génératifs regroupent et ceux qu’ils séparent). Les modifications ainsi faites, le style d’un artiste s’en retrouve masqué : cela afin d’empêcher les modèles de s’entraîner à imiter le travail des créateurs. “S’il est nourri d’images « glacées » lors de l’entraînement, un modèle d’IA pourrait interpréter le style d’illustration pétillante et caricatural d’un artiste comme s’il s’apparentait davantage au cubisme de Picasso. Plus on utilise d’images « glacées » pour entraîner un modèle d’imitation potentiel, plus les résultats de l’IA seront mélangés. D’autres outils tels que Mist, également destinés à défendre le style unique des artistes contre le mimétisme de l’IA, fonctionnent de la même manière.” explique M Heather Zheng, un des deux créateurs de cet outil.
Plus simplement, la Gen-AI sera toujours en capacité de reconnaître les éléments de l’image (un arbre, une toiture, une personne) mais ne pourra plus restituer les détails, les palettes de couleurs, les jeux de contrastes qui constituent le “style”, i.e., la “patte” de l’artiste.
Quelques exemples de l’utilisation de Glaze arXiv:2302.04222
Bien que cette méthode soit prometteuse, elle présente des limites techniques et dans son utilisation.
Face à Gol[IA]th, les [DA]vid ne peuvent que se cacher après avoir pris conscience de son arrivée : dans son utilisation, la limite de “Glaze” vient du fait que chaque image que va publier un créatif ou un artiste doit passer par le logiciel avant d’être postée en ligne.. Les œuvres déjà englouties par les modèles d’IA ne peuvent donc pas bénéficier, rétroactivement, de cette solution. De plus, au niveau créatif, l’usage de cette protection génère du bruit sur l’image, ce qui peut détériorer sa qualité et s’apercevoir sur des couleurs faiblement saturées. Enfin au niveau technique, les outils d’occultation mise à l’œuvre ont aussi leurs propres limites et leur efficacité ne pourra se maintenir sur le long terme.
En résumé, à la vitesse à laquelle évoluent les Gen-AI, “Glaze” ne peut être qu’un barrage temporaire, et malheureusement non une solution : un pansement sur une jambe gangrenée, mais c’est un des rares remparts à la créativité humaine et sa préservation.
Il faut savoir que le logiciel a été téléchargé 720 000 fois, et ce, à 10 semaines de sa sortie, ce qui montre une véritable volonté de la part des créatifs de se défendre face aux affronts du géant.
La Gen-AI prend du terrain sur la toile, les [DA]vid se retrouvent forcés à se cacher… Est-ce possible pour eux de trouver de quoi charger leur fronde ? Et bien il s’avère que la crainte a su faire naître la colère et les revendications, et les créatifs et les artistes ont décidé de se rebeller face à l’envahisseur… L’idée n’est plus de se cacher, mais bien de contre-attaquer Gol[IA]th avec les armes à leur disposition…
“Nightshade”, lorsque la riposte s’organise ou comment empoisonner l’IA ?
Les chercheurs de l’Université de Chicago vont pousser la réflexion au delà de “Glaze”, au delà de bloquer le mimétisme de style, “Nightshade” est conçu comme un outil offensif pour déformer les représentations des caractéristiques à l’intérieur même des modèles de générateurs d’image par IA…
« Ce qui est important avec Nightshade, c’est que nous avons prouvé que les artistes n’ont pas à être impuissants », déclare Zheng.
Nightshade ne se contente pas de masquer la touche artistique d’une image, mais va jusqu’à saboter les modèles de Gen-AI existants. Au-delà de simplement occulter l’intégrité de l’image, il la transforme en véritable “poison” pour Gol[IA]th en agissant directement sur l’interprétation de celui-ci. Nightshade va agir sur l’association incorrecte des idées et des images fondamentales. Il faut imaginer une image empoisonnée par “Nightshade” comme une goutte d’eau salée dans un récipient d’eau douce. Une seule goutte n’aura pas grand effet, mais chaque goutte qui s’ajoute va lentement saler le récipient. Il suffit de quelques centaines d’images empoisonnées pour reprogrammer un modèle d’IA générative. C’est en intervenant directement sur la mécanique du modèle que “Nightshade” entrave le processus d’apprentissage, en le rendant plus lent ou plus coûteux pour les développeurs. L’objectif sous-jacent serait, théoriquement,d’inciter les entreprises d’IA à payer les droits d’utilisation des images par le biais des canaux officiels plutôt que d’investir du temps dans le nettoyage et le filtrage des données d’entraînement sans licence récupérée sur le Web.
Image issue de l’article de Shan, S., Ding, W., Passananti, J., Zheng, H., & Zhao, B. Y. (2023). Prompt-specific poisoning attacks on text-to-image generative models. arXiv:2310.13828
Ce qu’il faut comprendre de « Nightshade » :
Empoisonnement des données: Nightshade fonctionne en ajoutant des modifications indétectables mais significatives aux images. Ces modifications sont introduites de manière à ne pas affecter la perception humaine de l’image mais à perturber le processus de formation des modèles d’IA. Il en résulte un contenu généré par l’IA qui s’écarte de l’art prévu ou original.
Invisibilité: Les altérations introduites par Nightshade sont invisibles à l’œil humain. Cela signifie que lorsque quelqu’un regarde l’image empoisonnée, elle apparaît identique à l’originale. Cependant, lorsqu’un modèle d’IA traite l’image empoisonnée, il peut générer des résultats complètement différents, pouvant potentiellement mal interpréter le contenu.
Impact: L’impact de l’empoisonnement des données de Nightshade peut être important. Par exemple, un modèle d’IA entraîné sur des données empoisonnées pourrait produire des images dans lesquelles les chiens ressemblent à des chats ou les voitures à des vaches. Cela peut rendre le contenu généré par l’IA moins fiable, inexact et potentiellement inutilisable pour des applications spécifiques.
Ci-dessus, des exemples d’images générées par les modèles SD-XL empoisonnés de Nightshade.arXiv:2310.13828
Voici alors quelques exemples après de concepts empoisonnés :
Ci-dessus, des exemples d’images générées par les modèles SD-XL empoisonnés de Nightshade et le modèle SD-XL propre, lorsqu’ils sont invités à utiliser le concept empoisonné C. arXiv:2310.13828
Plus précisément, « Nightshade transforme les images en échantillons ’empoisonnés’, de sorte que les modèles qui s’entraînent sur ces images sans consentement verront leurs modèles apprendre des comportements imprévisibles qui s’écartent des normes attendues, par exemple une ligne de commande qui demande l’image d’une vache volant dans l’espace pourrait obtenir à la place l’image d’un sac à main flottant dans l’espace », indiquent les chercheurs.
Le « Data Poisoning » est une technique largement répandue. Ce type d’attaque manipule les données d’entraînement pour introduire un comportement inattendu dans le modèle au moment de l’entraînement. L’exploitation de cette vulnérabilité rend possible l’introduction de résultats de mauvaise classification.
« Un nombre modéré d’attaques Nightshade peut déstabiliser les caractéristiques générales d’un modèle texte-image, rendant ainsi inopérante sa capacité à générer des images significatives », affirment-ils.
Cette offensive tend à montrer que les créatifs peuvent impacter les acteurs de la technologie en rendant contre-productif l’ingestion massive de données sans l’accord des ayant-droits.
Plusieurs plaintes ont ainsi émané d’auteurs, accusant OpenAI et Microsoft d’avoir utilisé leurs livres pour entraîner ses grands modèles de langage. Getty Images s’est même fendu d’une accusation contre la start-up d’IA Stability AI connue pour son modèle de conversion texte-image Stable Diffusion, en Février 2023. Celle-ci aurait pillé sa banque d’images pour entraîner son modèle génératif Stable Diffusion. 12 millions d’œuvres auraient été « scrappées » sans autorisation, attribution, ou compensation financière. Cependant, il semble que ces entreprises ne puissent pas se passer d’oeuvres soumises au droit d’auteur, comme l’a récemment révélé OpenAI, dans une déclaration auprès de la Chambre des Lords du Royaume-Uni concernant le droit d’auteur, la start-up a admis qu’il était impossible de créer des outils comme le sien sans utiliser d’œuvres protégées par le droit d’auteur. Un aveu qui pourrait servir dans ses nombreux procès en cours…
Ainsi, quelle est la place de la créativité humaine dans le paysage de l’intelligence artificielle générative ?
En résumé, dans sa gloutonnerie, Gol[IA]th a souhaité engloutir les [DA]vid qui nous entourent, qui ont marqué l’histoire et ceux qui la créent actuellement, dans leur entièreté et leur complexité : en cherchant à dévorer ce qui fait leur créativité, leur style, leur patte, au travers d’une analyse de caractéristiques et de pixels, Gol[IA]th a transformé la créativité humaine qui était sa muse, son idéal à atteindre, en un ensemble de données sans sémantique, ni histoire, ni passion sous-jacente.
C’est peut être un exemple d’amour nocif à l’heure de l’IA, tel que vu par l’IA ?
Sans sous-entendre que les personnes à l’origine de l’écriture des IA génératives ne sont pas des créatifs sans passion, il est probable que la curiosité, la prouesse et l’accélération technologique ont peu à peu fait perdre le fil sur les impacts que pourrait produire un tel engouement.
A l’arrivée de cette technologie sur le Web, les artistes et les créatifs n’avaient pas de connaissance éclairée sur ce qui se produisait à l’abri de leurs regards. Cependant, les modèles d’apprentissage ont commencé à être alimentés en données à l’insu de leur ayant-droits. La protection juridique des ayant-droits n’évoluant pas à la vitesse de la technologie, les créatifs ont rapidement été acculés, parfois trop tard, les Gen-AI ayant déjà collecté le travail d’une vie. Beaucoup d’artistes se sont alors “reclus”, se retirant des plateformes et des réseaux sociaux pour éviter les vols, mais ce choix ne fut pas sans conséquence pour leur visibilité et la suite de leur carrière.
Alors que les réseaux jouaient l’opacité sur leurs conditions liées à la propriété intellectuelle, le choix a été de demander aux créatifs de se “manifester s’ils refusaient que leurs données soient exploitées”, profitant de la méconnaissance des risques pour forcer l’acceptation de condition, sans consentement éclairé. Mais la grogne est montée dans le camp des créatifs, qui commencent à être excédés par l’abus qu’ils subissent. “Glaze” fut une première réaction, une protection pour conserver l’intégrité visuelle de leur œuvre, mais face à une machine toujours plus gloutonne, se protéger semble rapidement ne pas suffire. C’est alors que “Nightshade” voit le jour, avec la volonté de faire respecter le droit des artistes, et de montrer qu’ils ne se laisseraient pas écraser par la pression des modèles.
Il est important de suivre l’évolution des droits des différents pays et de la perception des sociétés civiles dans ces pays de ce sujet car le Web, l’IA et la créativité étant sans limite géographique, l’harmonisation juridique concernant les droits d’auteur, la réglementation autour de la propriété intellectuelle, et l’éducation au numérique pour toutes et tous, vont être – ou sont peut-être déjà – un enjeu d’avenir au niveau mondial.
Pour avoir davantage d’informations sur Glaze et Nightshade :page officielle
Article Glaze : Shan, S., Cryan, J., Wenger, E., Zheng, H., Hanocka, R., & Zhao, B. Y. (2023). Glaze: Protecting artists from style mimicry by {Text-to-Image} models. In 32nd USENIX Security Symposium (USENIX Security 23) (pp. 2187-2204). arXiv preprint arXiv:2302.04222
Article Nightshade : Shan, S., Ding, W., Passananti, J., Zheng, H., & Zhao, B. Y. (2023). Prompt-specific poisoning attacks on text-to-image generative models. arXiv preprint arXiv:2310.13828.
A propos de l’autrice : Julie Laï-Pei, après une première vie dans le secteur artistique et narratif, a rejoint l’émulation de l’innovation en Nouvelle-Aquitaine, en tant que responsable de l’animation d’une communauté technologique Numérique auprès d’un pôle de compétitivité. Femme dans la tech et profondément attachée au secteur Culturel et Créatif, elle a à coeur de partager le résultat de sa veille et de ses recherches sur l’impact des nouvelles technologies dans le monde de la créativité.
Max Dauchet nous a parlé ici d’une nouvelle théorie de l’apprentissage Probablement Approximativement Correct (PAC) en présentant le dernier livre de Leslie Vaillant. Ici, pour nous permettre d’aller un peu plus loin, il nous fait partager l’évolution scientifique d’une approche purement statistique à la vision scientifique de l’apprentissage. Max y arrive, sans alourdir son propos d’aucune équation. Serge Abiteboul et Thierry Viéville.
Pour mieux situer les travaux de Leslie Valiant, il faut évoquer ceux conduits antérieurement en URSS par Vladimir Vapniki.
La dimension de Vapnik-Chervonenkis (VC-dimension).
La motivation de Vapnik et ses collègues est purement statistique : comment assurer qu’un modèle minimise à la fois l’erreur sur les données d’apprentissage (erreur empirique) et l’erreur de généralisation sur l’ensemble des données ? Comme lors des sondages électoraux, par exemple : s’assurer que ce qui est approximativement vrai sur un échantillon, l’est toujours à peu près sur toute la population visée.
Cette propriété, appelée convergence uniforme, n’est évidemment pas satisfaite en général. En fait, si un modèle possède tellement de paramètres à ajuster, qu’il puisse coller très précisément et de manière spécifique aux données d’apprentissage, il ne saura pas bien prédire des données plus générales.
La VC-dimension est un indicateur de ces classes de modèles – souvent désignées par le terme de classes de concepts – qui conditionne la convergence uniforme.
Pour définir la VC-dimension, considérons un ensemble de données et une classe de modèles. Pour chaque modèle, une donnée satisfait ou ne satisfait pas ce modèle. Par exemple, si l’on considère comme données les points d’un carré de taille 1 du plan, et comme modèles les portions de demi-plans inférieuresii, alors pour tout demi-plan, une donnée appartient ou non à ce demi-plan. La suite de la définition repose sur la possibilité pour les modèles de prédire si les données correspondent ou pas au modèle. On parle de pulvériser (shatter) des échantillons finis de données pour une classe C de modèles et un échantillon D de données, si pour tout sous-échantillon D’ de D, il existe un modèle de C tel que D’ est la partie de D satisfaisant ce modèle.
Figure 1 : tout échantillon de deux données est pulvérisé par un demi-plan : que A ou B lui appartiennent ou ne lui appartiennent pas , il y a toujours un demi plan qui satisfait ce résultat.
La Figure 1 illustre que tout couple de points peut être pulvérisé par des demi-plansiii. Par contre un échantillon de 3 points n’est pas pulvériséiv. La VC-dimension d’une classe de modèles C est alors le plus grand nombre d’échantillons d tel que tous les échantillons D de cette taille soient pulvérisables.
Dans notre exemple, la classe des fonctions affines (ces droites qui définissent des demi-plan) est donc de VC-dimension 2, puisqu’elles pulvérisent tous les couples de 2 points, mais pas de 3.
Figure 2 : approximer par une classe de modèles ni trop simple ni trop large, les données correspondant aux 5 points, en noir par une droite, en pointillé rouge par une parabole, en violet par une courbe qui passe par tous les points.
La Figure 2 illustre l’influence de la VC-dimension. Une parabole (que l’on ignore) définit la fonction à approximer à partir d’échantillons bruités. La classe des fonctions affines (VC-dimension 2) est trop pauvre, l’erreur empirique est grande. La classe des polynômes de degré 5 (VC-dimension 6) est trop riche, elle permet un sur-apprentissage (erreur empirique faible ou nulle mais erreur de généralisation forte).
Dans leur papier fondateur, Vapnik et Chervonenkis établissent que la convergence est uniforme si et seulement si la VC-dimension est finie, et ils bornent en fonction de cette dimension la taille des échantillons nécessaires pour obtenir un résultat d’une précision donnée.
Du cadre de pensée de Vapnik à l’ingénierie algorithmique de Valiant
En un mot : un algorithme ne rase pas gratisvi . Les travaux de Vapnik et Chervonenkis sur la VC-dimension sont publiés en anglais en 1971 dans une revue soviétique renommée. Lorsqu’il introduit l’apprentissage PAC treize ans plus tard, Valiant ne cite pas Vapnik. Pourtant dans la foulée du papier de Valiant il est vite démontré qu’un concept est PAC apprenable si et seulement si sa VC-dimension est finie.
Il y a donc une concordance entre l’approche statistique et l’approche algorithmique, résultat remarquable qui ancre la problématique de l’apprentissagevii. Et c’est la notion de complexité algorithmique promue par Valiant qui a depuis inspiré l’essentiel des recherches en informatique, parce qu’en général la VC-dimension ne dit pas grand-chose du fait qu’il puisse exister un algorithmique d’apprentissage.
L’ingénierie algorithmique de Valiant appliquée au réseaux de neurones
On peut voir également les réseaux d’apprentissage profond avec des neurones artificiels comme des classes de concepts. Une architecture constitue une classe dans laquelle l’apprentissage consiste à trouver un concept en ajustant les coefficients synaptiques. Il est difficile d’en estimer la VC-dimension mais celle-ci est considérable et n’aide pas à expliquer l’efficacité. Comme l’évoquait Yann le Cun déjà cité, l’efficacité d’un réseau profond de neurones et l’importance de bien le dimensionner sont à rechercher dans son adéquation aux structures cachées du monde où il apprend, ce qui rejoint à très grande échelle la problématique sommairement illustrée par la Figure 1. On perçoit bien que disposer d’un cadre théorique solide, ici la notion d’apprenabilité, fournit un cadre de pensée mais ne fournit pas l’ingénierie nécessaire pour le traitement d’une question particulière. Les recherches ont de beaux jours devant elles. Pour en savoir beaucoup plus sur l’apprentissage en sciences informatiques et statistiques, les cours, articles et ouvrages accessibles sur le net ne manquent pas. Le panorama précis de Shai Shalev-Shwartz et Shai Ben-Davidviii peut être combiné avec les vidéos des cours de Stéphane Mallat, titulaire de la chaire de sciences des données au Collège de France.
Max Dauchet, Université de Lille.
i Vapnik, V. N., & Chervonenkis, A. Y. (1971). « On the Uniform Convergence of Relative Frequencies of Events to Their Probabilities. » Theory of Probability and its Applications, 16(2), 264-280.
ii Ensemble des points sous la droite frontière. Il faut en effet considérer les demi-plans et non les droites pour appliquer rigoureusement la définition en termes d’appartenance d’une donnée à un concept.
iii Sauf si les deux points ont même abscisse, ce qui a une probabilité nulle. Pour un échantillon de deux données, il y a 4 cas à étudier, et il y en a 2dpourddonnées.
iv A delà des fonctions affines, qui sont des poylynômes de degré 1, on établit sans peine que la classe des polynômes de degré n est de VC-dimension n+1. La classe de l’ensemble des polynômes est donc de VC-dimension infinie.
v Soit A le point de plus faible ordonnée. Pour aucun demi-plan inférieur A n’est au dessus et les deux autres points en dessous de la droite frontière.
vi En référence au No-Free-Lunch -Theorem qui stipule qu’il n’y a pas d’algorithme universel d’apprentissage.
vii Valiant passera toujours les travaux de Vapnik sous silence, on peut se demander pourquoi, alors qu’il aurait pu faire de la VC-dimension un argument en faveur de la pertinence de sa propre démarche sans prendre ombrage de Vapnik. C’est qu’en général la VC-dimension ne dit pas grand-chose de la praticabilité algorithmique. En effet, pour de nombreuses classes C d’intérêt, le nombre n de paramètres définit une sous classe Cn : c’est le cas pour le degré n des polynômes, la dimension n d’un espace ou le nombre n de variables d’une expression booléenne. Or, c’est la complexité relative à cet n qu’adresse l’algorithmique et la VC-dimension de Cn ne permet pas de la calculer, même si elle est parfois de l’ordre de n comme c’est le cas pour les polynômes. Ainsi, selon les concepts considérés sur les expressions booléennes à n variables ( les structures syntaxiques comme CNF, 3-CNF, DNF ou 3-terms DNF sont des classes de concepts), il existe ou il n’existe pas d’algorithme d’apprentissage en temps polynomial relativement à n, même si la VC-dimension est polynomiale en n.
viii Shai Shalev-Shwartz and Shai Ben-David, Understanding Machine Learning :From Theory to Algorithms, Cambridge University Press, 2014.
L’image du chercheur qui travaille seul en ignorant la communauté scientifique n’est qu’un mythe. La recherche est fondée sur un échange permanent, tout d’abord et avant tout pour comprendre les travaux des autres et ensuite, pour faire connaître ses propres résultats. La lecture et l’écriture d’articles publiées dans des revues ou des conférences scientifiques sont donc au cœur de l’activité des chercheurs. Quand on écrit un article, il est fondamental de citer les travaux de ses pairs que ce soit pour décrire un contexte, détailler ses propres sources d’inspiration ou encore expliquer les différences d’approches et de résultats. Etre cité par d’autres chercheurs, quand c’est pour de « bonnes raisons », est donc une des mesures de l’importance de ses propres résultats. Mais que se passe-t-il lorsque ce système de citations est manipulé ? Une récente étude [1], menée par une équipe de « détectives scientifiques », révèle une méthode insidieuse pour gonfler artificiellement les comptes de citations : les « références furtives ». Lonni Besançon et Guillaume Cabanac, deux des membres de cette équipe, nous présentent ici leurs résultats. Pascal Guitton et Serge Abiteboul. Article publié en collaboration avec theconversation.
Les dessous de la manipulation
Le monde de la publication scientifique et son fonctionnement ainsi que ses potentiels travers et leurs causes sont des sujets récurrent de la vulgarisation scientifique. Cependant, nous allons ici nous pencher tout particulièrement sur nouveau type de dérive affectant les citations entre articles scientifiques, censées refléter les apports et influences intellectuelles d’un article cité sur l’article citant. Les citations de travaux scientifiques reposent sur un système de référencement qui est standardisé : les auteurs mentionnent explicitement dans le texte de leur article, a minima le titre de l’article cité, le nom de ses auteurs, l’année de publication, le nom de la revue ou de la conférence, les numéros de page… Ces informations apparaissent dans la bibliographe de l’article (une liste de références) et sont enregistrées sous forme de données annexes (non visibles dans le texte de l’article) qualifiées de métadonnées, notamment lors de l’attribution du DOI (Digital Object Identifier), un identifiant unique pour chaque publication scientifique. Les références d’une publication scientifique permettent, de façon simplifiée, aux auteurs de justifier des choix méthodologiques ou de rappeler les résultats d’études passées. Les références listées dans chaque article scientifique sont en fait la manifestation évidente de l’aspect itératif et collaboratif de la science. Cependant, certains acteurs peu scrupuleux ont visiblement ajouté des références supplémentaires, invisibles dans le texte, mais présentes dans les métadonnées de l’article pendant son enregistrement par les maisons d’édition (publishers). Résultat ? Les comptes de citations de certains chercheurs ou journaux explosent sans raison valable car ces références ne sont pas présentes dans les articles qui sont censés les citer.
Un nouveau type de fraude et une découverte opportuniste
Tout commence grâce à Guillaume Cabanac (Professeur à l’Université Toulouse 3 – Paul Sabatier) qui publie un rapport d’évaluation post-publication sur PubPeer, un site où les scientifiques discutent et analysent les publications. Il remarque une incohérence : un article, probablement frauduleux car présentant des expressions torturées [2], d’une revue scientifique a obtenu beaucoup plus de citations que de téléchargements, ce qui est très inhabituel. Ce post attire l’attention de plusieurs « détectives scientifiques » dont Lonni Besançon, Alexander Magazinov et Cyril Labbé. Ils essaient de retrouver, via un moteur de recherche scientifique, les articles citant l’article initial mais le moteur de recherche Google Scholar ne fournit aucun résultat alors que d’autres (Crossref, Dimensions) en trouvent. Il s’avère, en réalité, que Google Scholar et Crossref ou Dimensions n’utilisent pas le même procédé pour récupérer les citations : Google Scholar utilise le texte même de l’article scientifique alors que Crossref ou Dimensions utilisent les métadonnées de l’article que fournissent les maisons d’édition.
Pour comprendre l’étendue de la manipulation, l’équipe examine alors trois revues scientifiques. Leur démarche comporte 3 étapes. Voici comment ils ont procédé:
dans les articles (HTML/PDF) : ils listent d’abord les références présentes explicitement dans les versions HTML ou PDF des articles ;
dans les métadonnées Crossref : Ensuite, ils comparent ces listes avec les métadonnées enregistrées par Crossref, une agence qui attribue les DOIs et leurs métadonnées. Les chercheurs découvrent que certaines références supplémentaires ont été ajoutées ici, mais n’apparaissaient pas dans les articles.
dans Dimensions : Enfin, les chercheurs vérifient une troisième source, Dimensions, une plateforme bibliométrique qui utilise les métadonnées de Crossref pour calculer les citations. Là encore, ils constatent des incohérences.
Le résultat ? Dans ces trois revues, au moins 9 % des références enregistrées étaient des « références furtives ». Ces références supplémentaires ne figurent pas dans les articles mais uniquement dans les métadonnées, faussant ainsi les comptes de citations et donnant un avantage injuste à certains auteurs. Certaines références réellement présentes dans les articles sont par ailleurs « perdues » dans les métadonnées.
Les implications et potentielles solutions
Pourquoi cette découverte est-elle importante ? Les comptes de citations influencent de façon pervasive les financements de recherche, les promotions académiques et les classements des institutions. Elles sont utilisées de façon différentesuivant les institutions et les pays mais jouent toujours un rôle dans ce genre de décisions. Une manipulation des citations peut par conséquent conduire à des injustices et à des décisions basées sur des données fausses. Plus inquiétant encore, cette découverte soulève des questions sur l’intégrité des systèmes de mesure de l’impact scientifique qui sont mises en avant depuis plusieurs années déjà [3]. En effet, beaucoup de chercheurs ont déjà, par le passé, souligné le fait que ces mesures pouvaient être manipulées mais surtout qu’elles engendraient une compétition malsaine entre chercheurs qui allaient, par conséquent, être tentés de prendre des raccourcis pour publier plus rapidement ou avoir de meilleurs résultats qui seraient donc plus cités. Une conséquence, potentiellement plus dramatique de ces mesures de productivité des chercheurs réside surtout dans le gâchis d’efforts et de ressources scientifiques dû à la compétition mise en place par ces mesures [5,6].
Pour lutter contre cette pratique, les chercheurs suggèrent plusieurs mesures :
Une vérification rigoureuse des métadonnées par les éditeurs et les agences comme Crossref.
Des audits indépendants pour s’assurer de la fiabilité des données.
Une transparence accrue dans la gestion des références et des citations.
Cette étude met en lumière l’importance de la précision et de l’intégrité des métadonnées car elles sont, elles aussi, sujettes à des manipulations. Il est également important de noter que Crossref et Dimensions ont confirmé les résultats de l’étude et qu’il semblerait que certaines corrections aient été apportées par la maison d’édition qui a manipulé les métadonnées confiées à Crossref et, par effet de bord, aux plateformes bibliométriques comme Dimensions. En attendant des mesures correctives, qui sont parfois très longues voire inexistantes [7], cette découverte rappelle la nécessité d’une vigilance constante dans le monde académique.
Lonni Besançon, Assistant Professor, Linköping University, Sweden.
Guillaume Cabanac, professeur d’informatique à l’Université Toulouse 3 – Paul Sabatier, membre de l’Institut Universitaire de France (IUF), chercheur à l’Institut de recherche en informatique de Toulouse (IRIT).
[1] Besançon, L., Cabanac, G., Labbé, C., & Magazinov, A. (2024). Sneaked references: Fabricated reference metadata distort citation counts. Journal of the Association for Information Science and Technology, 1–12. https://doi.org/10.1002/asi.24896
[2] Cabanac, G., Labbé, C., & Magazinov, A. (2021). Tortured phrases: A dubious writing style emerging in science. Evidence of critical issues affecting established journals. arXiv preprint arXiv:2107.06751.
L’apport du logiciel libre pour la souveraineté numérique notamment en Europe commence à être compris. Pourtant, on peut s’inquiéter de l’absence de ce sujet dans la campagne pour les Européennes en France. Stéphane Fermigier, coprésident de l’Union des entreprises du logiciel libre et du numérique ouvert (CNLL, Conseil national du logiciel libre) aborde le sujet. Pierre Paradinas et Serge Abiteboul
La souveraineté numérique, que nous définirons comme une autonomie stratégique pour les États, les entreprises et les citoyens dans le domaine du numérique (logiciels, données, matériels, infrastructures…), apparaît sous-représentée dans le débat politique actuel, en particulier en France où la campagne pour les élections européennes ne met pas suffisamment en lumière cet enjeu crucial. Ce manque d’attention est préoccupant compte tenu de l’importance croissante des technologies numériques dans notre société et de notre dépendance envers des acteurs principalement américains et asiatiques.
Un peu de contexte
Le logiciel libre, ou open source, représente un pilier fondamental pour atteindre la souveraineté numérique. Ce type de logiciel, dont le code source est public et que chacun peut modifier, améliorer et redistribuer, accélère l’innovation ouverte, évite l’enfermement technologique (lock-in) au sein de plateformes propriétaires et renforce l’autodétermination numérique des utilisateurs. Selon la Commission européenne, l’open source « accroît notre capacité à agir de manière indépendante pour préserver nos intérêts, défendre les valeurs et le mode de vie européens et contribuer à façonner notre avenir.”
En dépit d’une contribution économique significative — représentant 10 % du marché des logiciels et services informatiques en France, soit plus de 6 milliards d’euros de chiffre d’affaires annuel — le logiciel libre ne reçoit pas l’attention politique proportionnelle à son impact. La législation française, notamment la Loi pour une République Numérique de 2016, a bien tenté de promouvoir son usage dans l’administration publique en “encourageant” son adoption, mais les initiatives restent insuffisantes.
À l’échelle de l’Union européenne, des efforts ont été entrepris, comme en témoignent les Stratégies Open Source de la Commission européenne pour les périodes 2014-2017 et 2020-2023, qui visent à augmenter la transparence, à améliorer la sécurité des systèmes informatiques et à stimuler l’innovation au sein des services publics. Toutefois, pour que l’Europe progresse réellement vers une autonomie numérique, il est essentiel que ces engagements soient non seulement renouvelés pour la mandature à venir du Parlement et de la Commission, mais aussi significativement élargis pour impacter plus que les services informatiques de la Commission, si importants soient-ils.
Les grands partis français aux abonnés absents
Le CNLL, qui représente la filière française des entreprises du logiciel libre, a élaboré et diffusé un questionnaire auprès des principaux partis candidats aux Européennes de juin. Aucun des grands partis sollicités à de multiples reprises et par différents canaux n’a donné suite.
Cette absence de réponse des grands partis est la marque soit d’un désintérêt, soit d’une absence d’expertise sur ces sujets cruciaux, et dans tous les cas nous apparaît comme une faute majeure face aux enjeux.
À ce jour, seuls deux petits partis, Volt France et le Parti Pirate, ont répondu à ce questionnaire (réponse de Volt, réponse du Paris Pirate), en reconnaissant pleinement l’importance de la souveraineté numérique et en proposant des stratégies claires pour intégrer davantage le logiciel libre dans la politique numérique européenne.
Le Parti Pirate, fidèle à son engagement historique envers l’idéologie du logiciel libre, adopte le slogan “argent public, code public”, qui affirme que tous les logiciels financés par des ressources publiques doivent être libres et ouverts. Cette position s’inscrit dans une vision plus large visant à transformer l’administration publique en intégrant le logiciel libre pour renforcer l’indépendance, la transparence et réduire les coûts.
Volt France, de son côté, reconnaît également le rôle stratégique du logiciel libre dans la quête de souveraineté numérique, mais adopte une approche qui inclut la création d’une infrastructure numérique européenne autonome. Ils envisagent des mesures législatives et des financements spécifiques pour soutenir le logiciel libre, y compris un Small Business Act européen qui garantirait un soutien aux PME, notamment celles offrant des solutions de cloud et de logiciels libres. Cette initiative vise à favoriser la compétitivité et à réduire la dépendance vis-à-vis des géants technologiques non européens.
En comparaison, le Parti Pirate se concentre davantage sur les aspects éthiques et communautaires de la technologie, cherchant à démocratiser l’accès au logiciel libre et à en faire une norme dans toute l’administration publique, alors que Volt aligne ses initiatives sur les objectifs stratégiques plus larges de l’Union européenne, visant à positionner le continent comme un acteur compétitif et indépendant sur la scène numérique mondiale. Les deux partis promeuvent par ailleurs une intégration approfondie du logiciel libre dans les systèmes éducatifs pour sensibiliser et éduquer la prochaine génération sur les avantages de l’open source.
Que faire?
Les réponses de Volt France et du Parti Pirate, ainsi que celle des principaux partis allemands à un questionnaire similaire à celui du CNLL, nous donnent la matière à relancer le débat public sur la souveraineté numérique et le soutien à l’écosystème du logiciel libre en France et en Europe, en alignant de nombreuses propositions concrètes, au niveau national comme européen, autour d’une stratégie cohérente et volontariste, visant entre autres à soutenir un écosystème européen robuste de développeurs et d’entreprises spécialisées dans l’open source.
En premier lieu, il faut donner la priorité aux solutions open source dans les marchés publics, sauf lorsque des alternatives propriétaires sont absolument nécessaires. L’adoption d’une politique « Open Source First » au niveau de l’UE garantira que tous les nouveaux projets numériques financés par l’UE examinent d’abord les options open source. De plus, la stratégie numérique de l’UE devra être renouvelée pour inclure un soutien spécifique aux projets open source, en proposant des directives claires pour leur adoption et leur maintenance.
Pour financer efficacement cette transition vers l’open source, il faudra allouer au moins 10 % du budget numérique de l’UE au soutien direct de ces projets. Cela inclut des subventions pour la recherche et le développement, la création d’un fonds permanent pour l’open source visant à assurer l’amélioration continue et la sécurité des systèmes, ainsi que l’implémentation de métriques pour suivre et rapporter les progrès.
Le soutien aux petites et moyennes entreprises (PME) européennes spécialisées dans l’open source est également crucial, en leur garantissant une part significative de la commande publique (“Small Business Act”), par des allégements fiscaux ciblés et des subventions spécifiques, et par la facilitation de l’accès aux programmes de recherche financés par l’UE. Un réseau de clusters ou de hubs d’innovation open source à travers l’Europe fournira un soutien technique et commercial essentiel, ainsi que des fonds de démarrage pour les start-up du secteur.
En outre, pour combattre la pénurie de compétences et améliorer la compréhension des technologies ouvertes, il est vital d’intégrer l’éducation au logiciel libre (en tant qu’outil aussi bien qu’objet d’étude) dans les curriculums à tous les niveaux de l’éducation et par un soutien à des formations professionnelles, initiale et continue. L’UE pourra également financer une large campagne de sensibilisation aux avantages des technologies et des solutions open source.
Pour finir ce survol rapide, l’implication des communautés open source dans les processus législatifs et réglementaires est indispensable. La création d’un conseil consultatif européen sur l’open source, représentatif de la diversité de l’écosystème, permettra une interaction continue et productive entre les décideurs et la communauté open source, enrichissant ainsi la formulation des politiques numériques avec des recommandations éclairées et pragmatiques.
Observons qu’aucune de ces propositions ne tranche par sa radicalité. Pour ne donner qu’un exemple, la préférence pour le logiciel libre dans la commande publique est déjà inscrite dans la loi en Italie depuis 2012 et en France, pour le secteur plus restreint de l’enseignement supérieur, depuis 2013. La France se distingue par ailleurs par la notion d’ “encouragement” à l’utilisation du logiciel libre par l’administration, ainsi que l’obligation de “préserver la maîtrise, la pérennité et l’indépendance de [ses] systèmes d’information”, inscrites dans la loi République Numérique de 2016. D’autres propositions sont directement inspirées de rapports parlementaires, comme celui du député Philippe Latombe sur la souveraineté numérique.
Conclusion
La souveraineté numérique, bien que cruciale pour l’autonomie stratégique de l’Europe, est négligée dans la campagne actuelle pour les élections européennes en France. Seuls Volt France et le Parti Pirate ont réellement abordé ce sujet, et ont mis en avant l’importance des logiciels libres et de l’open source comme pilier de cette souveraineté. Leurs propositions convergent vers un renforcement de l’utilisation du logiciel libre dans les administrations publiques, l’éducation et le secteur privé pour garantir une Europe plus autonome et moins dépendante des géants technologiques extra-européens.
Il est essentiel que d’autres partis prennent également position sur ces enjeux pour enrichir le débat et proposer une politique numérique européenne cohérente et dynamique. Les mesures proposées, telles que l’adoption généralisée de solutions et technologies ouvertes, le soutien financier accru aux PME du secteur de l’open source, et la formation axée sur les technologies libres, sont fondamentales pour construire un écosystème numérique robuste et ouvert. Cela implique aussi et avant tout une volonté politique affirmée doublée d’une vision systématique, et notamment une collaboration étroite entre tous les acteurs de l’écosystème numérique européen ouvert. La prochaine législature européenne a ainsi une opportunité, mais également une responsabilité, de repenser profondément notre approche du numérique afin de construire un avenir numérique plus résilient et autonome pour l’Union européenne.
Stéfane Fermigier, co-président du CNLL et fondateur d’Abilian
Sarah Cohen-Boulakia est bioinformaticienne, professeure à l’Université Paris Saclay et chercheuse au Laboratoire Interdisciplinaire des Sciences du Numérique. Elle est spécialiste en science des données, notamment de l’analyse et l’intégration de données biologiques et biomédicales. Pendant la crise du covid, elle a participé à l’intégration les résultats de milliers d’essais cliniques. Elle a obtenu en 2024 la médaille d’argent du CNRS. Elle est directrice adjointe sur les aspects formation de l’institut DATAIA. Elle participe également au montage du réseau français de reproductibilité.
Sarah Cohen-Boulakia, Site du LISN
Binaire : Comment es-tu devenue informaticienne ?
SCB : Quand je suis entrée à l’Université, j’ai commencé par faire des maths. Et puis j’ai rencontré des informaticiennes, des enseignantes formidables comme Marie-Christine Rousset, Christine Froidevaux, ou Claire Mathieu, qui commençait ses cours en poussant les tables dans toute la salle, parce qu’elle disait que c’était comme ça qu’on pouvait mieux “travailler l’algo”. Elles étaient brillantes, passionnées ; certaines avaient même un côté un peu dingue qui me plaisait énormément. Je me suis mise à l’informatique.
J’avais de bons résultats, mais je n’aurais jamais osé penser que je pouvais faire une thèse. C’est encore une enseignante, Christine Paulin, qui m’a littéralement fait passer de la salle de réunion d’information sur les Masters Pro (DESS à l’époque) à celle pour les Master Recherche (DEA). Je l’ai écoutée, j’ai fait de belles rencontres, fini major de promo de mon DEA et j’ai décidé avec grand plaisir de faire une thèse.
Binaire : Tu cites des enseignantes. C’était important que ce soit des femmes ?
SCB : Oh oui ! Parce que c’était impressionnant en licence d’être seulement sept filles dans un amphi de 180 personnes. Elles m’ont montré qu’il y avait aussi une place pour nous. Mais j’ai eu aussi d’excellents enseignants masculins ! Grâce à elles et eux, j’ai mordu à la recherche. Pour moi, la science est un virus qui fait du bien. Les enseignants se doivent de transmettre ce virus. Maintenant, j’essaie à mon tour de le partager au maximum.
Binaire : Tu travailles sur l’intégration de données biologiques. Qu’est-ce que ça veut dire ?
SCB : En biologie, on dispose de beaucoup de données, de points de vue différents, de formats très différents : des mesures, des diagrammes, des images, des textes, etc. L’intégration de données biologiques consiste à combiner ces données provenant de différentes sources pour en extraire des connaissances : l’évolution d’une maladie, la santé d’un patient ou d’une population…
Binaire : Où sont stockées ces données ?
SCB : Des données de santé sont collectées dans de grandes bases de données gérées par l’État, le Ministère de la Santé, la CNAM. Elles sont pseudonymisées : le nom du patient est remplacé par un pseudonyme qui permet de relier les données concernant le même patient mais en protégeant son identité. D’autres données sont obtenues par les hôpitaux pour tracer le parcours de soin. En plus de tout cela, il y a toutes les données de la recherche, comme les études sur une cohorte pour une pathologie donnée. Toutes ces données sont essentielles mais également sensibles. On ne peut pas faire n’importe quoi avec.
Binaire : Pourrais-tu nous donner un exemple de ton travail, un exemple de recherche en informatique sur ce qu’on peut faire avec ces données ?
SCB : Un médecin peut rechercher, par exemple, les gènes associés à une maladie. Avec un moteur de recherche médical, il tape le nom de la maladie qu’il étudie et il obtient une liste de gènes, triés dans l’ordre de pertinence. Le problème, c’est que la maladie peut être référencée sous plusieurs noms. Si le médecin tape un synonyme du nom de la maladie dans le moteur de recherche, la liste de gènes obtenus est sensiblement modifiée, de nouveaux gènes peuvent apparaître et leur ordre d’importance être différent. L’enjeu ici c’est à partir d’un ensemble de listes de gènes de construire une liste de gènes consensuelle : classant au début les gènes très bien classés dans un grand nombre de listes tout en minimisant les désaccords. Ce classement est bien plus riche en information pour les médecins que celui obtenu avec une simple recherche avec le nom commun de la maladie. Derrière cela, il y a un objet mathématique beaucoup étudié, les permutations.
Travailler sur les classements de résultats, c’est loin d’être simple algorithmiquement. Et ce problème est proche d’un autre problème dans une autre communauté : la théorie du vote. La situation est similaire, pour le vote, on a un grand nombre de votants (de milliers) qui votent pour un relativement petit nombre de candidats (une dizaine). Dans notre contexte biomédical, nous avons un grand nombre de gènes potentiellement associés à une maladie (des centaines) et un petit nombre de synonymes pour la maladie (une dizaine). Cela change un peu les choses, on reste dans un problème difficile et on peut s’inspirer de certaines solutions. Nous avons développé un outil basé sur ces recherches dans lequel les médecins mettent simplement le nom de la maladie à étudier, l’outil cherche automatiquement les synonymes dans les bases de synonymes, récupère les listes de gènes et fournit un classement consensuel. Avec notre outil, les médecins accèdent à une liste de gènes qui leur donne des informations plus complètes et plus fiables.
Binaire : Les données de santé sont évidemment essentielles. On parle beaucoup en ce moment du Health Data Hub. Pourrais-tu nous en dire quelques mots ?
SCB : Le Health Data Hub (HDH) propose un guichet d’entrée aux données de santé pour améliorer les soins, l’accompagnement des patients, et la recherche sur ces données. Le HDH a soulevé une polémique en choisissant un stockage dans Microsoft Azure, un service de cloud américain. Même si le stockage est conforme au RGPD, il pose un problème de souveraineté. Ce n’est pas une question d’impossibilité : d’autres données, de volume et complexité comparables sont sur des serveurs français. On espère que ce sera corrigé mais cela va sûrement durer au moins quelques années.
Binaire : Tu travailles sur les workflows scientifiques. Pourrais-tu expliquer cela aux lecteurs de binaire ?
SCB : Pour intégrer de gros volumes de données et les analyser, on est amené à combiner un assez grand nombre d’opérations avec différents logiciels, souvent des logiciels libres. On crée des chaînes de traitements parfois très complexes, en séquençant ou en menant en parallèle certains de ces traitements. Un workflow est une description d’un tel processus (souvent un code) pour s’en souvenir, le transmettre, peut-être le réaliser automatiquement. Pour les chercheurs, il tient un peu la place des cahiers de laboratoires d’antan.
Un workflow favorise la transparence, ce qui est fondamental en recherche. Définir du code informatique qui peut être réalisé par une machine mais également lu et compris par un humain permet de partager son travail, de travailler avec des collègues experts de différents domaines.
Binaire : Les workflows nous amènent à la reproductibilité, un sujet qui te tient particulièrement à cœur.
SCB : La reproductibilité d’une expérience permet à quelqu’un d’autre de réaliser la même expérience de nouveau, et d’obtenir, on l’espère, le même résultat. Compte tenu de la complexité d’une expérience et des variations de ses conditions de réalisation, c’est loin d’être évident. Nous avons toutes et tous vécu de grands moments de solitude en travaux pratiques de chimie quand on fait tout comme le prof a dit : on mélange, on secoue, c’est censé devenir bleu, et … ça ne se passe pas comme ça. Cela peut être pour de nombreuses raisons : parce qu’on n’est pas à la bonne température, que le mélange est mal fait, que le tube n’est pas propre, etc. Pour permettre la reproductibilité il faut préciser les conditions exactes qui font que l’expérience marche.
Le problème se pose aussi en informatique. Par exemple, on peut penser que si on fait tourner deux fois le même programme sur la même machine, on obtient le même résultat. La réponse courte c’est pas toujours ! Il suffit de presque rien, une mise à jour du compilateur du langage, du contexte d’exécution, d’un paramétrage un peu différent, et, par exemple, on obtient des arbres phylogénétiques complètement différents sur les mêmes données génétiques !
Binaire : Pourquoi est-il important d’être capable de reproduire les expériences ?
SCB : La science est cumulative. Le scientifique est un nain sur des épaules de géants. Il s’appuie sur les résultats des scientifiques avant lui pour ne pas tout refaire, ne pas tout réinventer. S’il utilise des résultats erronés, il peut partir sur une mauvaise piste, la science se fourvoie, le géant chancelle.
Des résultats peuvent être faux à cause de la fraude, parce que le scientifique a trafiqué ses résultats pour que son article soit publié. Ils peuvent être faux parce que le travail a été bâclé. Une étude de 2009 publiée par le New York Times a montré que la proportion de fraude varie peu, par contre le nombre de résultats faux a beaucoup augmenté. Les erreurs viennent d’erreurs de calcul statistiques, de mauvaises utilisations de modèles, parfois de calculs de logiciels mal utilisés. Cela arrive beaucoup en ce moment à cause d’une règle qui s’est imposée aux chercheurs : “publish or perish” (publie ou péris, en français) ; cette loi pousse les scientifiques à publier de façon massive au détriment de la qualité et de la vérification de leurs résultats.
La reproductibilité s’attache à combattre cette tendance. Il ne s’agit pas de rajouter des couches de processus lourds mais de les amener à une prise de conscience collective. Il faudrait aller vers moins de publications mais des publications beaucoup plus solides. Publier moins peut avoir des effets très positifs. Par exemple, en vérifiant un résultat, en cherchant les effets des variations de paramètres, on peut être conduit à bien mieux comprendre son résultat, ce qui fait progresser la science.
Binaire : Tu es directrice adjointe de l’institut DATAIA. Qu’est-ce que c’est ?
SCB : L’Université Paris-Saclay est prestigieuse, mais elle est aussi très grande. On y trouve de l’IA et des données dans de nombreux établissements et l’IA est utilisée dans de nombreuses disciplines. Dans l’institut DATAIA, nous essayons de coordonner la recherche, la formation et l’innovation à UPS dans ces domaines. Il s’agit en particulier de fédérer les expertises pluridisciplinaires des scientifiques de UPS pour développer une recherche de pointe en science des données en lien avec d’autres disciplines telles que la médecine, la physique ou les sciences humaines et sociales. En ce qui me concerne, je coordonne le volet formation à l’IA dans toutes les disciplines de l’université. Un de mes objectifs est d’attirer des talents plus variés dans l’IA, plus mixtes et paritaires.
Binaire : Tu travailles dans un domaine interdisciplinaire. Est-ce que, par exemple, les différences entre informaticiens et biologistes ne posent pas de problèmes particuliers ?
SCB : Je dis souvent pour provoquer que l’interdisciplinarité, “ça fait mal”… parce que les résultats sont longs à émerger. Il faut au départ se mettre d’accord sur le vocabulaire, les enjeux, les partages du travail et des résultats (qui profite de ce travail). Chaque discipline a sa conférence ou revue phare et ce qui est un objectif de résultat pour les uns ne l’est pas pour les autres. L’interdisciplinarité doit se construire comme un échange : en tant qu’informaticienne je dois parfois coder, implémenter des solutions assez classiques sur les données de mes collaborateurs mais en retour ces médecins et biologistes passent un temps long et précieux à annoter, interpréter les résultats que j’ai pu obtenir et ils me font avancer.
Depuis le début de ma carrière, j’ai toujours adoré les interactions interdisciplinaires avec les biologistes et les médecins. Grâce à ces échanges, on développe un algorithme nouveau qui répond à leur besoin, cet algorithme n’est pas juste un résultat dans un article, il est utilisé par eux. Parfois plus tard on se rend aussi compte que cet algorithme répond aux besoins d’autres disciplines.
Pendant la crise du covid, le CNRS m’a demandé de monter une équipe – collègues enseignants-chercheurs et ingénieurs – et ensemble nous sommes partis au feu pour aider des médecins à rapidement extraire les traitements prometteurs pour la Covid-19 à partir des données de l’OMS… Ces médecins travaillaient jours et nuits depuis plusieurs semaines… Nous les avons rejoints dans leurs nuits blanches pour les aider à automatiser leurs actions, pour intégrer ces données et proposer un cadre représentant tous les essais de façon uniforme. J’étais très heureuse de pouvoir les aider. Ils m’ont fait découvrir comment étaient gérés les essais cliniques au niveau international. A l’époque, je ne savais pas ce qu’était un essai clinique mais cela ressemblait fort à des données que je connaissais bien et j’avais l’habitude d’interagir avec des non informaticiens; maintenant je peux t’en parler pendant des heures. J’ai fait des rencontres incroyables avec des chercheurs passionnants.
Serge Abiteboul, Inria et ENS, Paris, Charlotte Truchet, Université de Nantes.
Un nouvel « Entretien autour de l’informatique ». Gilles Dowek est chercheur en informatique chez Inria et enseignant à l’ENS de Paris-Saclay. Il est lauréat du Grand prix de philosophie 2007 de l’Académie française pour son ouvrage Les métamorphoses du calcul, une étonnante histoire de mathématiques (éditions Le Pommier) et du Grand prix Inria – Académie des sciences 2023 pour ses travaux sur les systèmes de vérification automatique de démonstrations mathématiques. Il a brièvement travaillé sur le système Coq au début de sa carrière. Il est à l’origine de Dedukti, un cadre logique permettant d’exprimer les théories utilisées dans différents systèmes de vérification de démonstrations. C’est l’une des personnes qui a le plus contribué à l’introduction en France de l’enseignement de l’informatique au collège et au lycée.
Binaire : Comment doit-on te présenter ? Mathématicien, logicien, informaticien ou philosophe ?
GD : Le seul métier que j’aie jamais exercé, c’est informaticien. La séparation des connaissances en disciplines est bien sûr toujours un peu arbitraire. Il y a des frontières qu’on passe facilement. Mes travaux empiètent donc sur les mathématiques, la logique et la philosophie. Mais je suis informaticien.
Binaire : Peux-tu nous raconter brièvement ta vie professionnelle ?
GD : Enfant, je voulais déjà être chercheur, mais je ne savais pas dans quelle discipline. Les chercheurs que je connaissais étaient surtout des physiciens : Einstein, Marie Curie… Je voyais dans la recherche une construction collective qui durait toute l’histoire de l’humanité. J’étais attiré par l’idée d’apporter une contribution, peut-être modeste, à cette grande aventure. Mes fréquentes visites au Palais de la Découverte m’ont encouragé dans cette voie.
J’ai commencé ma carrière de chercheur assez jeune grâce à l’entreprise Philips, qui organisait, à l’époque, chaque année un concours pour les chercheurs de moins de 21 ans, des amateurs donc. J’ai proposé un programme pour jouer au Master Mind et j’ai obtenu le 3ème prix. Jacques-Louis Lions qui participait au jury a fait lire mon mémoire à Gérard Huet, qui l’a fait lire à François Fages. J’avais chez moi en 1982 un ordinateur avec 1 k-octet de mémoire et mon algorithme avait besoin de plus. Je ne pouvais l’utiliser qu’en fin de partie et je devais utiliser un autre algorithme, moins bon, pour le début et le milieu de la partie.
Gérard et François m’ont invité à faire un stage pendant les vacances de Noël 1982. Ils ont tenté de m’intéresser à leurs recherches sur la réécriture, mais sans succès. La seule chose que je voulais était utiliser leurs ordinateurs pour implémenter mon algorithme pour jouer au Master Mind. Et ils m’ont laissé faire. Cela m’a permis d’avoir de bien meilleurs résultats et de finir avec le 3ème prix, cette fois au niveau européen.
Durant ce stage, Gérard m’avait quand même expliqué qu’il n’y avait pas d’algorithme pour décider si un programme terminait ou non ; il m’a juste dit que c’était un théorème, sans m’en donner la démonstration. Mais cela me semblait incroyable. À l’époque, pour moi, l’informatique se résumait à écrire des programmes ; je voyais cela comme une forme d’artisanat. Ce théorème m’ouvrait de nouveaux horizons : l’informatique devenait une vraie science, avec des résultats, et même des résultats négatifs. C’est ce qui m’a fait changer de projet professionnel.
Gérard m’avait aussi dit que, pour si je voulais vraiment être chercheur et avoir un poste, je devais faire des études. Alors j’ai fait des études, prépa puis école d’ingénieur. Je suis retourné chez Gérard Huet, pour mon stage de recherche de fin d’étude, puis pour ma thèse. Ensuite, je suis devenu professionnel de la recherche ; j’ai eu un poste et j’ai obtenu le grand plaisir de gagner ma vie en faisant ce qui m’intéressait et qui, le plus souvent, qui me procure toujours une très grande joie.
Binaire : Peux-tu nous parler de ta recherche ?
GD : En thèse, je cherchais des algorithmes de démonstration automatique pour produire des démonstrations dans un système qui est devenu aujourd’hui le système Coq. Mais dans les conférences, je découvrais que d’autres gens développaient d’autres systèmes de vérification de démonstrations, un peu différents. Cela me semblait une organisation curieuse du travail. Chacun de son côté développait son propre système, alors que les mathématiques sont, par nature, universelles.
Qu’est-ce qu’un système de vérification de démonstrations mathématiques ? Prouver un théorème n’est pas facile. En fait, comme l’ont montré Church et Turing, il n’existe pas d’algorithme qui puisse nous dire, quand on lui donne un énoncé, si cet énoncé a une démonstration ou non. En revanche, si, en plus de l’énoncé du théorème, on donne une démonstration potentielle de cet énoncé, il est possible de vérifier avec un algorithme que la démonstration est correcte. Trouver des méthodes pour vérifier automatiquement les démonstrations mathématiques était le programme de recherche de Robin Milner (Prix Turing) et également de Nicolaas De Bruijn. Mais en faisant cela, ils se sont rendu compte que si on voulait faire vérifier des démonstrations par des machines, il fallait les écrire très différemment, et beaucoup plus rigoureusement, que la manière dont on les écrit habituellement pour les communiquer à d’autres mathématiciens.
Les travaux de Milner et de De Bruijn ouvraient donc une nouvelle étape dans l’histoire de la rigueur mathématique, comme avant eux, ceux d’Euclide, de Russell et Whitehead et de Bourbaki. Le langage dans lequel on exprime les démonstrations devient plus précis, plus rigoureux. L’utilisation de logiciels change la nature même des mathématiques en créant, par exemple, la possibilité de construire des démonstrations qui font des millions de pages.
Notre travail était passionnant mais je restais insatisfait par le côté tour de Babel : chaque groupe arrivait avec son langage et son système de vérification. Est-ce que cela impliquait à un relativisme de la notion de vérité ? Il me semblait que cela conduisait à une crise de l’universalité de la vérité mathématique. Ce n’était certes pas la première de l’histoire, mais les crises précédentes avaient été résolues. J’ai donc cherché à construire des outils pour résoudre cette crise-là.
Binaire : Est-ce qu’on ne rencontre pas un problème assez semblable avec les langages de programmation ? On a de nombreuses propositions de langages.
GD : Tout à fait. Cela tient à la nature même des langages formels. Il faut faire des choix dans la manière de s’exprimer. Pour implémenter l’algorithme de l’addition dans un langage de programmation (ajouter les unités avec les unités, puis les dizaines avec les dizaines, etc. en propageant la retenue), on doit décider comment représenter les nombres, si le symbole « etc. » traduit une boucle, une définition par récurrence, une définition récursive, etc. Mais pour les langages de programmation, il y a des traducteurs (les compilateurs) pour passer d’un langage à un autre. Et on a un avantage énorme : tous les langages de programmation permettent d’exprimer les mêmes fonctions : les fonctions calculables.
Avec les démonstrations mathématiques, c’est plus compliqué. Tous les langages ne sont pas équivalents. Une démonstration particulière peut être exprimable dans un langage mais pas dans un autre. Pire, il n’y a pas de langage qui permette d’exprimer toutes les démonstrations : c’est une conséquence assez simple du théorème de Gödel. Peut-on traduire des démonstrations d’un langage vers un autre ? Oui, mais seulement partiellement.
Pour résoudre une précédente crise de l’universalité de la vérité mathématique, la crise des géométries non euclidiennes (*), Hilbert et Ackermann avaient introduit une méthode : ils avaient mis en évidence que Euclide, Lobatchevski et Riemann n’utilisaient pas les mêmes axiomes, mais surtout ils avaient proposé un langage universel, la logique des prédicats, dans lequel ces différents axiomes pouvaient s’exprimer. Cette logique des prédicats a été un grand succès des mathématiques des années 1920 et 1930 puisque, non seulement les différentes géométries, mais aussi l’arithmétique et la théorie des ensembles s’exprimaient dans ce cadre. Mais, rétrospectivement, on voit bien qu’il y avait un problème avec la logique des prédicats, puisque personne n’avait exprimé, dans ce cadre logique, la théorie des types de Russell, une autre théorie importante à cette époque. Et pour le faire, il aurait fallu étendre la logique des prédicats. Par la suite, de nombreuses autres théories ont été proposées, en particulier le Calcul des Constructions, qui est le langage du système Coq, et n’ont pas été exprimée dans ce cadre.
Au début de ma carrière, je pensais qu’il suffisait d’exprimer le Calcul des Constructions dans la logique des prédicats pour sortir de la tour de Babel et retrouver l’universalité de la vérité mathématique. C’était long, pénible, frustrant, et en fait, cette piste m’a conduit à une impasse. Mais cela m’a surtout permis de comprendre que nous avions besoin d’autres cadres que la logique des prédicats. Et, depuis les années 1980, plusieurs nouveaux cadres logiques étaient apparus dans les travaux de Dale Miller, Larry Paulson, Tobias Nipkow, Bob Harper, Furio Honsel, Gordon Plotkin, et d’autres. Nous avons emprunté de nombreuses idées à ces travaux pour aboutir à un nouveau cadre logique que nous avons appelé Dedukti (“déduire” en espéranto). C’est un cadre général, c’est-à-dire un langage pour définir des langages pour exprimer des démonstrations. En Dedukti, on peut définir par exemple la théorie des types de Russell ou le Calcul des Constructions et on peut mettre en évidence les axiomes utilisés dans chaque théorie, et surtout dans chaque démonstration.
Binaire : Pourquoi l’appeler Dedukti ? Ce n’est pas anodin ?
GD : Qu’est-ce qui guidait ces travaux ? L’idée que certaines choses, comme la vérité mathématique, sont communes à toute l’humanité, par-delà les différences culturelles. Nous étions attachés à cette universalité des démonstrations mathématiques, les voir comme des “communs”. Dans l’esprit, les liens avec des communs numériques comme les logiciels libres sont d’ailleurs étroits. On retrouve les valeurs d’universalité et de partage. Il se trouve d’ailleurs que la plupart des systèmes de vérification de démonstrations sont des logiciels libres. Coq et Dedukti le sont. Vérifier une démonstration avec un système qu’on ne peut pas lui-même vérifier, parce que son code n’est pas ouvert, ce serait bizarre.
Revenons sur cette universalité. Si quelqu’un arrivait avec une théorie et qu’on n’arrivait pas à exprimer cette théorie dans Dedukti, il faudrait changer Dedukti, le faire évoluer. Il n’est pas question d’imposer un seul système, ce serait brider la créativité. Ce qu’on vise, c’est un cadre général qui englobe tous les systèmes de vérification de démonstrations utilisés.
Longtemps, nous étions des gourous sans disciples : nous avions un langage universel, mais les seuls utilisateurs de Dedukti étaient l’équipe de ses concepteurs. Mais depuis peu, Dedukti commence à avoir des utilisateurs extérieurs à notre équipe, un peu partout dans le monde. C’est bien entendu une expansion modeste, mais cela montre que nos idées commencent à être comprises et partagées.
Binaire : Tu es très intéressé par les langages formels. Tu as même écrit un livre sur ce sujet. Pourrais-tu nous en parler ?
GD : Les débutants en informatique découvrent d’abord les langages de programmation. L’apprentissage d’un langage de programmation n’est pas facile. Mais la principale difficulté de cet apprentissage vient du fait que les langages de programmation sont des langages. Quand on s’exprime dans un langage, il faut tout dire, mais avec un vocabulaire et une syntaxe très pauvre. Les langages de démonstrations sont proches des langages de programmation. Mais de nombreux autres langages formels sont utilisés en informatique, par exemple des langages de requêtes comme SQL, des langages de description de pages web comme HTML, et d’autres. Le concept de langage formel est un concept central de l’informatique.
Mais ce concept a une histoire bien plus ancienne que l’informatique elle-même. Les humains ont depuis longtemps inventé des langages dans des domaines particuliers, comme les ophtalmologistes pour prescrire des lunettes. On peut multiplier les exemples : en mathématiques, les langages des nombres, de l’arithmétique, de l’algèbre, où apparaît pour la première fois la notion de variable, les cylindres à picots des automates, le langage des réactions chimiques, inventé au XIXe siècle, la notation musicale.
C’est le sujet de mon livre, Ce dont on ne peut parler, il faut l’écrire (Le Pommier, 2019). La création de langage est un énorme champ de notre culture. Les langages sont créés de toute pièce dans des buts spécifiques. Ils sont bien plus simples que les langues naturelles utilisées à l’oral. Ils expriment moins de choses mais ils sont souvent au centre des progrès scientifiques. L’écriture a probablement été inventée d’abord pour fixer des textes exprimés dans des langages formels et non dans des langues.
Binaire : Tu fais une très belle recherche, plutôt fondamentale. Est-ce que faire de la recherche fondamentale sert à quelque chose ?
GD : Je ne sais pas si je fais de la recherche fondamentale. En un certain sens, toute l’informatique est appliquée.
Maintenant, est-ce que la recherche fondamentale sert à quelque chose ? Cela me rappelle une anecdote. À l’École polytechnique, le poly d’informatique disait que la moitié de l’industrie mondiale était due aux découvertes de l’informatique et celui de physique que deux tiers de l’industrie mondiale étaient dus aux découvertes de la physique quantique. Les élèves nous faisaient remarquer que 1/2 + 2/3, cela faisait plus que 1. Bien entendu, les physiciens avaient compté toute l’informatique dans la partie de l’industrie que nous devions à la physique quantique, car sans physique quantique, pas de transistors, et sans transistors, pas d’informatique. Mais le message commun que nous voulions faire passer était que des pans entiers de l’économie existent du fait de découvertes scientifiques au départ perçues comme fondamentales. L’existence d’un algorithme pour décider de la correction d’une démonstration mathématique, question qui semble très détachée de l’économie, nous a conduit à concevoir des logiciels plus sûrs. La recherche la plus désintéressée, éloignée a priori de toute application, peut conduire à des transformations majeures de l’économie.
Cependant, ce n’est pas parce que la recherche a une forte influence sur le développement économique que nous pouvons en conclure que c’est sa seule motivation. La recherche nous sert aussi à mieux comprendre le monde, à développer notre agilité intellectuelle, notre esprit critique, notre curiosité. Cette quête participe de notre humanité. Et si cela conduit à des progrès industriels, tant mieux.
Serge Abiteboul, Inria, & Claire Mathieu, CNRS
(*) Des géomètres comme Euclide ont démontré que la somme des angles d’un triangle est toujours égale à 180 degrés. Mais des mathématiciens comme Lobatchevski ont démontré que cette somme était inférieure à 180 degrés. Crise ! Cette crise a été résolue au début du XXe siècle par l’observation, finalement banale, que Euclide et Lobatchevski n’utilisaient pas les mêmes axiomes, les mêmes présupposés sur l’espace géométrique.
Tristan Nitot a publié un message sur LinkedIn en hommage à Niklaus Wirth. Binaire et le Bulletin 1024 de la Société Informatique de France lui avons demandé de nous écrire un article. Serge Abiteboul, Sylvie Alayranques,Denis Pallez et Pierre Paradinas.
Niklaus Wirth en 1984 à côté de Lilith. (Photo: Niklaus Wirth). ETH Zurich.
Dans toutes les industries, il y a des figures légendaires. Dans le numérique (qui pour moi rassemble le matériel informatique et le logiciel), il y a indéniablement Niklaus Wirth. Même si aujourd’hui, dans un monde qui va vite, peu de gens se souviennent de ce scientifique suisse qui vient de s’éteindre le premier janvier juste avant ses 90 ans. Et pourtant, quel parcours, quelles contributions, quelle sagesse et, chose plus rare encore dans ces métiers, une étonnante humilité.
On ne saurait résumer la vie du professeur Niklaus Wirth en quelques mots : il est né en Suisse en 1934, a étudié à l’ETH Zurich, puis obtenu un doctorat en informatique à Berkeley. C’est là qu’il a découvert les langages informatiques et les compilateurs. Il a obtenu l’ACM Turing Award, (le prix Nobel de l’informatique) en 1984. Il a inventé de nombreux langages, dont le célèbre langage Pascal mais aussi Modula-2.
Mais réduire la carrière de Niklaus Wirth aux langages informatique serait une erreur. Il inventait des systèmes informatiques, comprenant un système d’exploitation, un environnement de développement avec un langage et un compilateur, avec les interfaces homme-machine.
Il a fait deux passages d’une année au Xerox PARC Palo Alto Research Center, s’inspirant de la citation d’Alan Kay qui y officiait : Les gens qui font du logiciel sérieusement devraient construire leur propre matériel. C’est ainsi qu’en 1980, quatre ans avant l’arrivée du Mac, Niklaus Wirth a commencé à développer Lilith (cf. image page précédente), une des premières stations de travail avec une souris et un affichage graphique haute résolution, sans arriver au succès commercial des solutions américaines.
En 1992, dans le manuel du système Oberon, il explique que malgré la loi de Moore qui stipule que la puissance des semi-conducteurs double tous les deux ans, les logiciels deviennent plus gros et moins optimisés au même rythme. On a appelé cela la loi de Wirth : En dépit de multiples bonds en avant, le matériel accélère moins vite que le logiciel ne se ralentit. Le système Oberon, qui était composé d’un système d’exploitation, d’un langage et d’un ordinateur, visait à contredire la loi de Wirth. En 2013 (il a alors 79 ans !), sortait une nouvelle version d’Oberon où Wirth est allé jusqu’à fabriquer son propre microprocesseur sur la base de circuits FPGA.
Wirth a aussi publié dès 1995 un plaidoyer pour le logiciel frugal où il explique les origines de la loi de Wirth dans le fait que les auteurs de logiciels rajoutent des fonctionnalités inutiles pour inciter leurs clients à acheter la nouvelle version, ce qui rend le logiciel plus gras, plus lent, et fait les affaires des fabricants de matériel, dont la précédente génération est devenue de facto obsolète. Les clients rachètent donc du matériel pour remplacer l’ancien qui fonctionne pourtant très bien. De nos jours, presque 30 ans plus tard, la notion d’obsolescence programmée est dorénavant connue de tous, et on réalise que cela fait 50 ans que les industries du matériel et du logiciel l’ont institutionnalisée.
Pourtant, alors que l’on doit réduire l’empreinte écologique de l’activité humaine pour faire face à l’effondrement de la biodiversité et au réchauffement climatique, et que le numérique pollue plus encore que le transport aérien, l’appel de Niklaus Wirth à plus de simplicité, d’optimisation, de sobriété et de frugalité, donc d’élégance, est plus que jamais d’actualité.
Merci pour vos contributions, Professeur Wirth, puissent les communautés du numérique vous rendre hommage en suivant vos principes !
Sandrine Blazy, Professeure à l’université de Rennes et directrice adjointe de l’IRISA, est une spécialiste des compilateurs et des logiciels sûrs. Elle a développé avec Xavier Leroy, CompCert, le premier compilateur pour le langage C vérifié à l’aide de Coq. Pour ce véritable tour de force scientifique et technique, elle a obtenu la médaille d’argent du CNRS (une des plus belles récompenses scientifiques en France). Si vous ne comprenez pas en quoi cela consiste, Sandrine va l’expliquer à binaire et ce sera l’occasion d’un peu mieux comprendre ce qui se passe dans un ordinateur.Serge Abiteboul et Pierre Paradinas
La sémantique de ces langages et la vérification déductive
Dès l’invention des premiers langages de programmation, s’est posée la question de savoir comment définir précisément un langage, c’est-à-dire comment décrire le comportement de tout programme. Une première réponse pragmatique a été de considérer qu’un langage est défini par son compilateur (compiler le programme pour l’exécuter ensuite et observer certains de ses comportements). Une seconde réponse est venue à nouveau des mathématiques, cette fois-ci de la logique mathématique. En effet, indépendamment du développement des premiers ordinateurs, des logiciens ont proposé des théories des langages de programmation, focalisées sur des langages de programmation théoriques, comme le lambda calcul de Church (1930), dont les principes seront par la suite mis en œuvre dans les langages de programmation fonctionnelle. Ainsi sont apparus les formalismes fondamentaux caractérisant un langage de programmation, notamment la syntaxe, la sémantique formelle (caractériser sans ambiguïté le comportement attendu de tout programme, quelles que soient ses valeurs fournies en entrée) et ses différents styles, et les principes de raisonnement déductif associés. Ces formalismes sont toujours l’objet de recherches actives.
Un de ces styles sémantiques est à l’origine de la vérification déductive, qui permet d’avoir des garanties très fortes sur l’absence d’erreurs dans les logiciels. Cela été l’occasion de revisiter et pousser plus loin les premières intuitions de Turing lorsqu’il avait démontré la correction de son organigramme. La vérification déductive permet de démontrer mathématiquement la correction d’un logiciel, c’est-à-dire qu’il satisfait sa spécification, écrite dans un langage logique pour éviter toute ambiguïté du langage humain. Aujourd’hui, grâce à la vérification déductive, on dispose de logiciels vérifiés, constitués d’un logiciel et d’une preuve de sa correction, qu’on peut rejouer ou fournir à un tiers de confiance. Cette preuve nécessite de raisonner sur des propriétés du langage dans lequel est écrit le logiciel, en particulier sur la sémantique formelle de ce langage.
Avec des langages réalistes, le raisonnement ne peut plus se faire à la main, mais il nécessite d’être automatisé par des outils logiciels d’aide à la preuve. Les premiers de ces outils sont apparus au début des années 70. De même que les premières machines ont été conçues pour mécaniser la résolution d’équations, les sémantiques formelles et la logique ont permis de mécaniser le raisonnement déductif sur les programmes, et donc de développer les outils logiciels automatisant les idées issues des intuitions de la fin des années 60. Ces outils ont beaucoup progressé ces dernières années. Ils se regroupent en deux familles :
les logiciels de preuve automatique, qui prennent en charge la totalité d’une preuve, en déchargeant les formules logiques à prouver vers des solveurs de logique capables de déterminer si ces formules sont vraies ou fausses; et
les assistants à la preuve, des logiciels qui permettent de mener une preuve mathématique vérifiée par ordinateur, c’est-à-dire une démonstration en interaction avec l’assistant de preuve, au moyen de commandes indiquant comment progresser. L’assistant de preuve automatise une partie du raisonnement, s’assure que la démonstration est complète et respecte les lois de la logique mathématique, alors que l’utilisateur décide comment raisonner et progresser dans le raisonnement.
Mener une preuve de correction est une activité à part entière, qui nécessite d’inventer puis établir les invariants (sémantiques) du logiciel, qui sont des assertions devant être garanties à tout moment de l’exécution du programme. Cela peut nécessiter de définir les principes de raisonnement associés. Le programme “majorité” (Boyer, Moore, 1980) déterminant de façon efficace le candidat majoritaire (i.e., qui remporte une élection à scrutin majoritaire) d’un ensemble de bulletins de vote en est une illustration. Le programme est surprenant de par sa simplicité, mais sa compréhension demande à réfléchir à son invariant qui est difficile à trouver, car cela nécessite d’imaginer un arrangement des bulletins de vote, qui n’est pas calculé par le programme. On se retrouve ainsi dans le cas plus général où il est nécessaire d’inventer pour les besoins de la preuve une structure de données qui n’est pas utile au programme.
Retournons au début des années 70. Le premier programme dont la preuve a été mécanisée est un compilateur rudimentaire d’un langage d’expressions arithmétiques (Milner, 1972, LCF). Un compilateur était un exemple représentatif d’un programme particulièrement complexe. Le théorème de correction d’un compilateur exprime que le code produit doit s’exécuter comme prescrit par la sémantique du programme source dont il est issu. C’est une propriété de préservation sémantique, qui devient mathématiquement précise dès lors qu’on dispose de sémantiques formelles (pour les langages source et cible du compilateur). Ici, il devient : pour toute expression, sa valeur calculée par la sémantique du langage source est exactement la valeur renvoyée par l’exécution du code de l’expression compilée. Ce théorème est établi une seule fois, pour toute expression donnée en entrée au compilateur. Désormais, la vérification de ce petit compilateur jouet de 1972 est enseignée à titre d’exercice dans des cours de master.
Aujourd’hui, le compilateur demeure un logiciel particulièrement complexe (de par les nombreuses optimisations qu’il effectue afin de produire du code efficace), mais également le point de passage obligé dans la chaîne de production du logiciel. Aussi, le vérifier permet de s’assurer qu’aucune erreur n’est introduite lors de la compilation, et de préserver les garanties obtenues au niveau source sur le logiciel. L’idée d’avoir un théorème unique démontré une fois pour toutes, ainsi qu’une preuve lisible était déjà présente en 1972, mais il a fallu attendre plusieurs dizaines d’années pour que la compilation vérifiée se développe et passe à l’échelle.
CompCert est le premier compilateur optimisant ciblant plusieurs architectures et utilisé dans l’industrie, qui soit doté d’une preuve mathématique de correction vérifiée par ordinateur. Cette preuve a été menée avec l’assistant à la preuve Coq. C’est un compilateur modérément optimisant du langage C, le langage le plus utilisé dans l’industrie pour programmer des logiciels embarqués critiques, dont le mauvais comportement peut avoir des conséquences catastrophiques. C’est aussi un projet de recherche qui a démarré il y a vingt ans, et également un logiciel commercialisé par la société AbsInt, qui a été employé dans l’industrie pour compiler des logiciels embarqués critiques utilisés dans l’avionique et le nucléaire. Dans ces domaines, l’intérêt pour CompCert a résulté d’un besoin d’améliorer les performances du code produit, tout en garantissant des exigences de traçabilité requises par les processus de développement en vigueur dans ces domaines critiques, ce qu’a effectivement permis CompCert.
Le langage C a été conçu au début des années 70, afin de laisser davantage de liberté aux écrivains de compilateurs pour programmer au plus près de la machine. Ce langage n’a pas été conçu avec l’optique d’être mathématiquement défini. Établir la correction de CompCert a nécessité de définir une sémantique formelle du langage C qui décrit non seulement des programmes fournissant un résultat final (comme le compilateur jouet de 1972), mais aussi des programmes dont l’exécution ne termine jamais, comme ceux utilisés par les commandes de vol d’un avion. Le théorème de correction établit que ces comportements sont préservés lors de la compilation.
Pour mener cette preuve, il a fallu résoudre plusieurs défis :
se fonder sur des formalismes adaptés,
avoir des principes de raisonnement associés (notamment proposer un style sémantique adapté au raisonnement inductif), et plus généralement une méthodologie de preuve passant à l’échelle, et enfin,
disposer d’outils logiciels facilitant la mise en oeuvre de ces formalismes et automatisant le raisonnement.
CompCert a reçu plusieurs récompenses, dont l’ACM software system award en 2022, le prix le plus prestigieux décerné à un logiciel issu de la recherche, qui a par la passé été décerné aux compilateurs C les plus utilisés, GCC (2015) et LLVM (2012).
CompCert est un jalon. Il a montré qu’il est désormais possible de mener des preuves sur des objets aussi complexes que des compilateurs réalistes. Les formalismes et la méthodologie de preuve qu’il propose ont été réutilisés dans plusieurs projets de recherche en France et à l’étranger. Par exemple, à Rennes, nous poursuivons nos travaux dans le but de doter CompCert de davantage de possibilités de compilation, et d’offrir des garanties supplémentaires en matière de sécurité logicielle.
Sandrine Blazy, Professeure à l’université de Rennes et directrice adjointe de l’IRISA, est une spécialiste des compilateurs et des logiciels sûrs. Elle a développé avec Xavier Leroy, CompCert, le premier compilateur pour le langage C vérifié à l’aide de Coq. Pour ce véritable tour de force scientifique et technique, elle a obtenu la médaille d’argent du CNRS (une des plus belles récompenses scientifiques en France). Si vous ne comprenez pas en quoi cela consiste, Sandrine va l’expliquer à binaire et ce sera l’occasion d’un peu mieux comprendre ce qui se passe dans un ordinateur.Serge Abiteboul et Pierre Paradinas
Les liens entre mathématiques et informatique sont féconds. Dans les années quarante, la nécessité de mécaniser des calculs numériques permettant de résoudre des équations mathématiques a permis le développement des premières machines de calcul à grande échelle, qui ont préfiguré les premiers ordinateurs. Ces calculateurs universels enchaînaient en séquence des opérations mathématiques élémentaires, décomposant des calculs modélisant des phénomènes physiques. Aujourd’hui, ces calculs sont réalisés par une simple calculette de bureau.
Chaque opération était fidèlement décrite par un code constitué de commandes compréhensibles par la machine, c’est-à-dire des suites de chiffres zéros et un (signifiant l’absence et la présence de courant dans les composants d’un circuit électronique). Aussi, faire exécuter une opération par un calculateur était une véritable gageure. Les experts dont c’était le travail devaient encoder l’opération (c’est-à-dire trouver les nombres adéquats pour représenter l’opération, ainsi que les valeurs auxquelles elle s’appliquait qui étaient encodées sur des cartes perforées), en plus d’effectuer des manipulations physiques sur la machine. Ces experts écrivaient ces codes sur papier, avant de les fournir à la machine, dont ils devaient de plus comprendre le fonctionnement électromécanique. Ces premières machines étaient gigantesques et complexes à manipuler. En guise d’écran, des marteaux (tels que ceux utilisés par les machines à écrire) imprimaient sur papier des caractères. Par contre, elles avaient l’avantage de fonctionner sans cesse et d’accélérer grandement les temps de calcul de chaque opération, en enchaînant en des temps records des successions de calculs variés, ce qui a fait leur succès.
Le succès aidant et les calculs devenant de plus en plus complexes, il a été nécessaire de rendre l’écriture des codes moins absconse et d’automatiser davantage l’enchaînement des calculs. Une première réponse a été l’utilisation répandue d’une notation plus expressive et graphique (à l’aide de boîtes reliées par des flèches) pour représenter l’enchaînement des calculs. Les diagrammes résultants, appelés organigrammes permettaient de représenter simplement non seulement des séquences de calculs, mais aussi des décisions à prendre en fonction de résultats intermédiaires, et donc des enchaînements plus sophistiqués de calculs (comme la répétition d’étapes de calculs jusqu’à atteindre un certain seuil). Ces diagrammes permettaient de s’abstraire du matériel, et de décomposer un problème avant d’écrire du code. Plus faciles à comprendre par des humains, ils permettaient de réutiliser une opération lorsque la machine évoluait en fonction des progrès technologiques fréquents.
L’expressivité des organigrammes a favorisé l’émergence d’”algorithmes”, c’est-à-dire d’enchaînements plus efficaces des calculs (c’est-à-dire réduisant le temps de calcul), du fait de la représentation particulière des nombres en machine. Par exemple, en 1949, Alan Turing a proposé une nouvelle façon de calculer la fonction mathématique factorielle, sans utiliser les opérations coûteuses de multiplication mais seulement des additions. Il se demande alors comment être sûr que ce que calcule son organigramme est effectivement le même résultat que celui de la fonction factorielle du mathématicien, en d’autres termes que son organigramme est correct. Pour y répondre, il a effectué ce qu’on appellerait aujourd’hui la première preuve de programme, en annotant son organigramme avec des assertions, dont il a ensuite vérifié la cohérence.
L’effort pour démocratiser la mécanisation des calculs s’est poursuivi avec l’invention des premiers langages de programmation. Les organigrammes ont fait place au pseudo-code, puis aux algorithmes et programmes écrits dans un langage dont la syntaxe est plus intuitive. Un langage de programmation définit un ensemble de commandes abstraites mais précises pour effectuer toutes les opérations exprimables dans un organigramme, avec des mots-clés en anglais (plus faciles à appréhender que les seuls nombres d’un code). Le premier livre sur la programmation paraît en 1951, alors que très peu de machines sont en service; il est utilisé pour des recherches en physique, astronomie, météorologie et biochimie.
Les langages de programmations et les compilateurs
Le langage de programmation devient un intermédiaire nécessaire entre l’humain et la machine, et il devient indispensable d’automatiser la traduction des programmes en code machine. Le premier compilateur A-0 mis au point par Grace Hopper est disponible en 1952. Ce terme résulte de son premier usage, mettre bout à bout des portions de code, à la manière d’une bibliothécaire qui rassemble des documents sur un sujet précis. Pour expliquer de plus les possibilités prometteuses offertes par un tel programme de traduction (d’un langage source en un code machine), Grace Hopper utilise la métaphore d’une ligne de production dans une usine, qui produirait des nombres (plutôt que des automobiles) et plus généralement des données au moyen d’outils (tables de calcul, formules, calculs numériques).
Le compilateur devient un point de passage obligé pour traduire tout programme écrit par un humain en un code compréhensible par la machine, et la traduction de l’un vers l’autre est un défi scientifique. En effet, un problème se pose du fait de la faible vitesse des calculs, des capacités très limitées de stockage, mais aussi de l’abstraction et la généralité des programmes écrits : plus le programme source est facile à comprendre pour un humain, moins l’exécution du code machine engendré est efficace.
En 1953, le langage Fortran est le premier à être dédié au calcul numérique, et donc à s’abstraire du matériel spécifique à une machine. C’est aussi le premier qui devient un standard: pour la première fois, les programmeurs parlent un même langage, quelle que soit la machine qu’ils utilisent. IBM consacre un effort notable à développer son compilateur, afin qu’il produise un code efficace. C’est le début de l’invention de nouvelles techniques de compilation, les premières optimisations (ex. compiler séparément des portions de code, ou encore détecter des calculs communs pour les factoriser). Le manuel de Fortran est disponible en 1956, et son compilateur en 1957.
Cet effort pour démocratiser la programmation se poursuit avec le langage Cobol dédié au traitement des données. Désormais, l’ordinateur ne calcule pas que des nombres; il permet plus généralement de structurer des données et de les traiter efficacement. COBOL ouvre la voie à de nouvelles applications. Le premier programme COBOL est compilé en 1960; en 1999 la grande majorité des logiciels seront écrits en COBOL, suite à son utilisation massive dans les domaines de la banque et de l’assurance. Ainsi, dans les années 60, la pratique de la programmation se répand et devient une science; les langages de programmation foisonnent. Aujourd’hui encore, les langages de programmation évoluent sans cesse, pour s’adapter aux nouveaux besoins.