Avec le projet Socface, l'IA va entrer dans les archives départementales
Le ministère de la Culture a annoncé le lancement du projet Socface, qui réunit, sous l'égide de l'Ined, archivistes, démographes, économistes, historiens et informaticiens. Il s'agit d'une base de données qui va, grâce à l'IA, décrypter et exploiter tous les recensements de la population de 1836 à 1936, conservés et numérisés par les services d’archives départementales. La base sera accessible en 2025 sur le portail FranceArchives et chaque service d’archives départementales pourra diffuser sur son propre site les retranscriptions de ses archives.
Le ministère de la Culture annonce le lancement du projet de recherche collaboratif Socface, portant sur l'application de l'intelligence artificielle (IA) aux documents d'archives. Le projet est piloté par l'Institut national d'études démographiques (Ined), en partenariat avec le service interministériel des Archives de France, l'Ecole d'économie de Paris et la société française Teklia, spécialisée dans l'intelligence artificielle. Il associe archivistes, démographes, économistes, historiens et informaticiens, en vue de mettre au point des technologies de traitement à grande échelle de vastes séries de documents historiques. Sa mise en œuvre va reposer tout particulièrement sur les services départementaux d'archives.
Exploiter et analyser tous les recensements de 1836 à 1936
Ce projet, retenu à l'été 2021 par l'Agence nationale de la recherche (ANT), vise à étudier l'évolution de la société française sur un siècle grâce à l'exploitation globale des recensements quinquennaux. L'objectif est en effet de collecter, traiter, retranscrire, organiser et analyser l'ensemble des listes nominatives du recensement de 1836 à 1936 (soit les données de 20 recensements). Socface mobilisera pour cela la reconnaissance automatique à grande vitesse d'écriture manuscrite sur des millions de documents détenus par les archives départementales et déjà numérisés. Au total, les listes à traiter sont estimées à environ 15 millions d'images de 1836 à 1936, correspondant à 700 millions d'enregistrements individuels, conservées dans près d'une centaine d'archives départementales. Le traitement de ces images permettra de construire un ensemble de données individuelles, structurées par commune et par année de recensement. Les appariements permettront ensuite de relier les lignes correspondant à une même personne, afin de suivre les individus au cours de leur vie, en passant de recensement en recensement. La finalité de Socface est ainsi de produire de la connaissance à la fois en sciences sociales et en science informatique, permettant notamment de suivre les évolutions du marché du travail, de l'urbanisme, de la structure sociale, des mobilités... Socface enrichira également l'étude du changement social au niveau local, sur l'ensemble du territoire, "afin de proposer une morphologie détaillée de l'évolution des marchés du travail en France tout au long de l'industrialisation".
Des données mises à disposition de tous en 2025
Le projet Socface sera ainsi le premier en France à apparier à grande échelle des individus au cours du temps, ouvrant ainsi de nombreuses possibilités de recherche. Il est prévu que l'exploitation des documents et les recherches produites seront ensuite mises à disposition de tous. La base de données ainsi constituée deviendra en effet accessible en 2025, sur France Archives, le portail national des archives. Chaque service d'archives départementales pourra également diffuser sur son propre site internet les retranscriptions de ses archives.
Comme le précise le communiqué du ministère de la Culture du 31 janvier, "cet outil sans équivalent en France permettra aux internautes d'effectuer des recherches généalogiques d'une ampleur inédite et aux chercheurs et universitaires de mener des études exceptionnelles en histoire économique et sociale ou encore en démographie historique. Les recherches sur les transformations du marché du travail, les causes et les conséquences des migrations ou l'évolution des inégalités bénéficieront également de ces précieuses nouvelles informations".