IA et RGPD : la Cnil soumet une nouvelle salve de recommandations

La Cnil souhaite favoriser l'émergence d'une IA respectueuse par défaut de la réglementation sur les données personnelles. La commission a soumis le 10 juin 2024 un nouvel ensemble de fiches dont pourront s'inspirer les collectivités pour sélectionner un prestataire ou mener leurs propres projets en matière d'intelligence artificielle.

La Commission nationale de l'informatique et des libertés (Cnil) a lancé une nouvelle consultation publique visant à favoriser l'émergence de systèmes d'intelligence artificielle (IA) respectueux du Règlement général sur la protection des données (RGPD). Cette initiative fait suite à une première série de recommandations, sortie en avril 2024, centrées sur le cadre juridique applicable aux fournisseurs de solutions. Par ces fiches, la Cnil entend favoriser une innovation respectueuse "by design" (nativement) du RGPD, améliorer la transparence des systèmes d'IA et renforcer la confiance du public dans ces technologies. Ces sept fiches thématiques portent sur l'application de la base légale de "l'intérêt légitime" pour collecter des données nécessaires à un système d'IA, l'usage des modèles open source, l'annotation des données d'apprentissage, le moissonnage de données sur internet, l'information des personnes, l'exercice des droits des personnes concernées et l'évaluation et la gestion des risques.

Vigilance sur les bases d'apprentissage

Sur les IA open source, aujourd'hui privilégiées par la Direction interministérielle du numérique notamment avec Albert (notre article du 30 mai), la Cnil estime que les IA ouvertes encouragent l'innovation et le partage, contribuent à la transparence des modèles d'IA et à l'amélioration de leur sécurité. Néanmoins, elle rappelle que ces promesses sont conditionnées par le fait que ces IA soient suffisamment documentées. Elle appelle aussi à la vigilance sur les données d'apprentissage, recommandant le recours à des techniques d'anonymisation et de pseudonymisation si elles contiennent des données personnelles. Elle appelle ensuite à la vigilance sur la pratique du "webscrapping" autrement dit la collecte automatique de données sur internet pour constituer des bases d'apprentissage à moindre coût. Cette technique, bien que très répandue, n'est aujourd'hui pas réglementée rappelle la Cnil, et doit être accompagnée de mesures visant à garantir l'absence de collecte de données nominatives ou permettant la réidentification (géolocalisation, immatriculation…).

Minimiser les annotations

Sur l'annotation des données – lors de leur phase d'entrainement des IA, on leur soumet des contenus annotés manuellement pour leur apprendre à reconnaitre des formes ou des objets - la Cnil rappelle que mal réalisée, cette annotation peut introduire des biais et des erreurs qui affectent les performances et l'équité des systèmes d'IA. Elle invite à minimiser les annotations aux informations strictement nécessaires et à réaliser des contrôles a posteriori réguliers. La Cnil suggère aussi la mise en place de mécanismes facilitant l'exercice des droits des personnes, notamment le droit d'accès, de rectification et de suppression des données présentes dans les bases de connaissance utilisées par les IA. La Cnil invite également à appréhender la sécurité des systèmes d'IA tout au long de leur cycle de vie. Elle recommande une analyse rigoureuse des risques, combinant des mesures de sécurité classiques avec des spécificités liées à l'IA. Des mesures pratiques sont suggérées pour les données d’entraînement, le développement et le fonctionnement des systèmes d’IA, afin de minimiser les risques pour les droits et libertés des individus.

Ces recommandations, font l'objet d'une consultation publique jusqu'au 1er septembre 2024. Elles interviennent alors que l'IA Act européen n'est pas encore entré pleinement en vigueur et que l'IA déferle dans tous les secteurs, administrations incluses. Ces recommandations seront donc utiles aux collectivités pour les aider à sélectionner leurs prestataires, nombreux à proposer la personnalisation de modèles de langage pour l'adapter aux besoins des administrations locales. On rappellera aussi que la Cnil doit tirer les conclusions des expérimentations lancées en novembre 2023 avec 8 services publics dont Ekonom de Nantes métropole, un projet d'IA centré sur la consommation d'eau des habitants.