L’IA pourrait être utilisée pour numériser des milliers de textes, et les faire parler. Si l’État décide de s’en servir.
Publicité
Publicité
Un appel d’offres
Depuis décembre 2018 et ce jusqu’en avril 2019, le Président de la République a initié un “Grand débat national”.
Publicité
Sur l’ensemble du territoire, des réunions sont organisées pour que les citoyen·ne·s puissent se faire entendre et exprimer leurs doléances. À l’issue de ces débats locaux, les contributions seront remontées pour “permettre une analyse approfondie à la fois quantitative et qualitative et ainsi nourrir une restitution placée sous le contrôle et la responsabilité de garants“, dixit le site web.
Comment traiter ces milliers de textes ? À plusieurs reprises dans les médias, certains des organisateurs du Grand débat ont brandi l’expression magique d'”intelligence artificielle” (IA) sans livrer d’explication supplémentaire, si ce n’est que cette mystérieuse IA viendra appuyer le travail d’analyse fait par ces braves vieux humains – sans s’y substituer, évidemment.
Contacté par Konbini, le service de presse du Grand débat n’a pas fourni beaucoup de détails supplémentaires. On apprendra seulement qu’un appel d’offres a été publié et qu’il sera possible d’en savoir plus dans les semaines à venir.
Publicité
L’appel d’offres est ici. Intitulé “Transcription de documents en fichiers numériques dans le cadre du Grand Débat national“, il émane du Ministère de la Transition écologique et solidaire et du Ministère de la Cohésion des territoires et des relations avec les collectivités territoriales. Les candidats doivent y répondre d’ici le 15 février prochain.
Dans ce document, l’expression “intelligence artificielle” n’apparaît pas une seule fois. Que veulent donc les deux ministères ? La section “Procédure de passation” nous éclaire :
Pour appuyer le Grand débat national, une plateforme numérique a été mise en place, qui permet de recevoir les comptes rendus des débats locaux et des contributions individuelles, dans un format très cadré et numérisé dès l’origine, qui peuvent être exploitées sans retraitement préalable.
Les autres contributions (notamment manuscrites) doivent au préalable être retranscrites in extenso dans un format électronique directement exploitable, ce qui donne lieu au présent appel d’offres.
Publicité
Documents imprimés VS documents manuscrits
De la transcription, donc. Autrement dit, numériser, archiver et rendre accessible des documents dactylographiés ou manuscrits. L’appel d’offres contient également une information sur la masse de boulot qui attend le prestataire : minimum 300 000 pages A4. Pas de maximum.
À ce stade, IA ou pas IA ? Tout dépend.
Publicité
Déjà, rien n’indique que la retranscription doive être faite par des machines. Concernant les doléances manuscrites, des sous-traitants, en France ou installés dans des pays francophones hors du territoire, comme Madagascar (avec une main-d’œuvre à bas coûts), pourraient se positionner et réaliser ce travail colossal… à la main, en recopiant à l’ordinateur chaque document manuscrit.
Pour numériser les documents imprimés, en revanche, le processus est bien plus simple et rapide. Il faut passer par la machine en utilisant un procédé que l’on maîtrise bien et ce sans avoir recours à l’IA (définie plus bas) : la reconnaissance optique de caractères, dite OCR.
L’OCR, vous l’avez peut-être déjà utilisée sans connaître son nom. On le trouve par exemple dans l’appli de Google Translate, lorsque l’on pointe la caméra sur un mot que Google reconnaît tout seul (pour le traduire ensuite).
Si ce type d’OCR n’implique généralement pas d’IA, c’est parce qu’on a su le faire avant 2012, début de la révolution du “machine learning“, de l’apprentissage automatique, technologie sur laquelle repose actuellement le buzzword d’intelligence artificielle. Mais dès lors qu’il s’agit de reconnaître automatiquement des documents manuscrits, la donne change.
“Dans ce cas, on parlerait plutôt de HTR, Handwritten Text Recognition, plutôt que d’OCR. Et ça, pour la machine, c’est encore un vrai challenge !“, nous explique Christopher Kermorvant, chercheur associé en IA appliquée au langage au Laboratoire LITIS de l’université de Rouen-Normandie et fondateur de Teklia, une start-up spécialisée dans les prestations autour de la compréhension automatique de documents.
Pour cet HTR, que l’on maîtrise encore mal, alors oui, des algorithmes de “machine learning“, donc de l’IA, seraient nécessaires. Mais l’appel d’offres de l’État reste évasif là-dessus.
L’étape d’après : l’interprétation
“Si l’on s’en tient là, cela resterait de l’IA au premier degré“, ajoute Gilles Moyse, CEO de reciTAL.ai, une start-up spécialisée dans le traitement du langage (TAL), et docteur en sciences informatiques. “Il ne s’agit que d’une problématique de récolte d’information et de stockage. Il n’y aurait, de la part de l’IA, ni analyse, ni synthèse, ni création de connaissances comme on peut le voir dans d’autres domaines”.
Une IA “plus forte” pourrait donc être utilisée dans un second temps pour analyser tous les textes, aussi bien les textes retranscrits que ceux recueillis directement sur la plateforme du Grand débat. Cela rentrerait dans le champ de compétences de plusieurs entreprises spécialisées, comme Teklia, Abbyy ou Tessi.
Leurs algorithmes pourraient par exemple extraire des thèmes qui reviennent souvent et classer les textes en fonction de ces thèmes (on appelle ça le “clustering“). À grande échelle, l’IA pourrait faire “parler” les textes à sa manière, en faisant des recoupements et/ou en détectant des modèles (“patterns“) que l’humain ne verrait pas avec ses grilles de lectures préconçues. Mais en aucun cas, l’IA n’apporterait de prédiction ou de solution quelconque.
Concernant les modalités, l’État pourrait émettre un second appel d’offres ou faire appel à des data-scientists en interne, comme ceux d’Etalab. Ou attendre que la société civile s’en charge elle-même, puisque toutes les contributions seront disponibles en “open data”, pour tous.
“S’ils font de l’interprétation eux-mêmes, je pense qu’ils le feront discrètement pour ne pas contrarier les participants, précise Gilles Moyse. Utiliser de l’IA pour une initiative reposant sur une intention d’écoute pourrait envoyer un mauvais message et froisser les gens”.