La Cnil encadre l'aspiration de contenus sur internet à des fins de lutte contre la fraude

La Cnil vient de publier des fiches permettant aux diffuseurs et réutilisateurs de données personnelles issues d'internet de respecter le RGPD. Au-delà d'un enrichissement de ses recommandations sur la diffusion en open data de données personnelles, on signalera l'encadrement du moissonnage de données, le fameux "web scraping", à des fins de lutte contre la fraude.

La Commission nationale de l'informatique et des libertés (Cnil) et la Commission d'accès aux documents administratifs (Cada) avaient publié en 2019 un guide sur l'ouverture des données publiques alors que venait d'être mis en œuvre le règlement général sur la protection des données (RGPD). Celui-ci ne concernait cependant que les données administratives, et la série de fiches publiées le 15 juin 2024 par la Cnil vise à compléter ce travail.  Son objectif est de répondre "de façon pratique aux besoins de l'ensemble des acteurs", qu'il s'agisse des diffuseurs de données ou des réutilisateurs de données personnelles collectées sur internet. 

Clarifier la base légale de la diffusion de données personnelles

Une première série de fiches s'adresse aux diffuseurs de données ouvertes sur internet. Elles s'adressent aux acteurs publics – dont les collectivités soumises à des obligations open data – mais aussi aux acteurs privés diffusant des données personnelles. Une première fiche invite à s'interroger sur la qualification du traitement au regard du RGPD, sujet qui intéressera notamment les collectivités partageant une plateforme open data mutualisée. La Cnil incite ensuite à clarifier les bases légales conduisant à partager des données personnelles sur internet, le traitement pouvant reposer sur une obligation légale, une mission d'intérêt public, un intérêt légitime ou un consentement explicite des personnes. Sont ensuite précisées les modalités d'information des personnes concernées, les droits des personnes sur leurs données personnelles et la façon de sécuriser les données, notamment quand la diffusion utilise des API ou connecteurs internet. 

Minimiser et anonymiser les données

La Cnil explicite par ailleurs le principe de minimisation des données traitées, sachant que par nature, l'open data fixe peu d'obligations sur l'usage des données ouvertes en dehors de la mention de la source. Face à cette contradiction entre RGPD et open data, la Cnil fait comme première recommandation d'anonymiser les données "lorsque c'est possible". Elle rappelle du reste que l'anonymisation est un des principes de base – avec quelques exceptions comme les noms d'élus, les organigrammes ou encore les responsables associatifs – pour les données publiques au sens du code des relations entre le public et l'administration. Elle invite aussi à la vigilance sur les risques de réidentification par croisement de données ou un maillage inapproprié. Parmi les exemples mentionnés : la publication d'une carte sur l'imposition moyenne reposant sur des zones de 200 mètres carré permettra d'identifier précisément un foyer dans une zone peu peuplée. Et si les données ne peuvent être anonymisées, elle invite à utiliser la pseudonymisation ou à apprécier l'intérêt public à diffuser ces données.

La collecte de données sur internet encadrée

Une seconde série de fiches cible les réutilisateurs de données personnelles publiées sur internet. Plusieurs cas d'usage sont détaillés, tels que la diffusion d'annuaires professionnels, l'usage de bases de prospection commerciale et l'aspiration de données issues d'internet par les autorités publiques. Ce dernier cas concerne notamment les impôts ou les administrations sociales pratiquant le "web scraping" pour faire la chasse aux fraudeurs. Cette technique peut, par exemple, consister à détecter un décalage entre une déclaration patrimoniale et un niveau de vie tel qu'étalé sur les réseaux sociaux. La Cnil rappelle l'obligation de collecter "ces données de manière licite et loyale", l'administration devant se fonder sur une loi ou un décret et la poursuite d'objectifs précis. Elle invite aussi à limiter la collecte aux seules données pertinentes, à se limiter aux données librement accessibles (sans création de compte) et à s'assurer de la suppression des données non pertinentes.