«Uniquement pour l'analytique» : l'art. 89 DSGVO ne couvre pas votre jeu de données d'entraînement

Quiconque réutilise des données clients pour entraîner un modèle invoque souvent la dérogation pour la recherche et la statistique prévue à l'art. 89, par. 1, DSGVO et à l'art. 31, al. 2, let. e, DSG. Cette dérogation ne dispense que de l'obligation de compatibilité des finalités, non de l'exigence d'une base légale ; elle est en outre conditionnée à la minimisation des données et à un résultat agrégé qu'un jeu de données d'entraînement commercial remplit rarement — une ligne de défense à documenter, non une position de départ fiable.

«Nous utilisons ces données uniquement à des fins analytiques.» Cette formule est censée justifier la réutilisation de données clients pour l’entraînement d’un modèle, en s’appuyant, le plus souvent de manière implicite, sur la dérogation pour la recherche et la statistique prévue à l’art. 89, par. 1, DSGVO et à l’art. 31, al. 2, let. e, DSG. Cette dérogation existe, mais elle ne dispense que de la limitation des finalités (art. 5, par. 1, let. b, DSGVO), non de l’exigence d’une base légale ; et elle est conditionnée à des garanties qu’un jeu de données d’entraînement commercial remplit rarement. Quiconque entend s’en prévaloir doit documenter cette ligne de défense avant le premier cycle d’entraînement — elle ne constitue pas une position de départ fiable.

Ce que la dérogation couvre — et ce qu’elle ne couvre pas

Le mécanisme figure à l’art. 5, par. 1, let. b, DSGVO. Un traitement ultérieur «à des fins archivistiques dans l’intérêt public, à des fins de recherche scientifique ou historique ou à des fins statistiques» est réputé «conformément à l’article 89, paragraphe 1, compatible avec les finalités initiales». Il s’agit d’une présomption légale de compatibilité des finalités : le responsable qui a collecté des données dans le cadre de l’exécution d’un contrat et les réutilise ensuite pour l’entraînement n’est pas tenu de démontrer séparément la compatibilité des deux finalités. Encore faut-il que cette présomption soit applicable «conformément à l’article 89, paragraphe 1». Si les garanties qu’il prévoit font défaut, la présomption tombe.

L’art. 89, par. 1, DSGVO exige des «garanties appropriées pour les droits et libertés de la personne concernée», notamment des mesures techniques et organisationnelles assurant le respect du «principe de minimisation des données», et la pseudonymisation des données dans la mesure où la finalité le permet. Le paragraphe 2 autorise les États membres à limiter les droits des personnes concernées prévus aux art. 15, 16, 18 et 21 DSGVO, dans la mesure où ces droits «risquent de rendre impossible ou de compromettre gravement la réalisation des finalités spécifiques». Telle est la portée exacte de la dérogation : elle supprime l’obligation de vérification de compatibilité des finalités et atténue certaines obligations d’information et d’effacement. Elle ne fournit pas de base légale. Quiconque traite des données à caractère personnel doit toujours disposer d’un fondement au titre de l’art. 6 DSGVO — et, pour les catégories particulières de données, d’un fondement supplémentaire au titre de l’art. 9. Les lignes directrices 1/2026 du CEPD (projet mis en consultation le 16 avril 2026) précisent que la compatibilité et la licéité du traitement demeurent deux conditions distinctes et cumulatives : la licéité du traitement ultérieur doit être démontrée de manière autonome, même lorsque la compatibilité des finalités est présumée.

L’exemple de l’autorité italienne illustre le coût d’une telle confusion. Le Garante a infligé à OpenAI, en décembre 2024, une amende de 15 millions d’euros au motif que l’entraînement de ChatGPT s’était déroulé sans base légale valable au sens de l’art. 6 DSGVO et en violation des obligations de transparence. Le problème n’était pas la compatibilité des finalités, mais l’absence de fondement. De même, dans son avis 28/2024 sur les modèles d’IA, le Comité européen de la protection des données (CEPD) traite de la licéité de l’entraînement au regard de l’intérêt légitime visé à l’art. 6, par. 1, let. f, DSGVO. La dérogation pour la recherche prévue à l’art. 89 DSGVO n’y figure pas — parce que la base légale applicable à l’entraînement doit être examinée de manière autonome, sans recourir à la présomption de compatibilité des finalités.

«Statistique» signifie agrégé, non personnalisé

Le second malentendu porte sur le mot «statistique». Le considérant 162 DSGVO assortit la finalité statistique d’une condition : le résultat doit consister en «données agrégées», et ce résultat ne peut «pas être utilisé pour prendre des décisions ou des mesures à l’égard de personnes physiques particulières». La limite n’est donc pas l’étiquette apposée sur le traitement, mais l’effet produit par le modèle.

Un modèle qui classe des clients par risque d’attrition, fixe des prix de manière individualisée, établit un classement de candidats ou oriente des soupçons de fraude vers une personne déterminée produit précisément la décision sur l’individu qu’exclut la finalité statistique. Le traitement est alors à caractère personnel, et la dérogation ne s’applique pas. En revanche, quiconque tire de ces mêmes données une analyse de marché dont le résultat n’individualise plus personne reste dans le champ de la dérogation.

Le droit suisse trace la même frontière, mais de façon plus explicite. L’art. 31, al. 2, let. e, DSG justifie un traitement qui porterait autrement atteinte à la limitation des finalités prévue à l’art. 6, al. 3, DSG. Il n’est admissible qu’«à des fins non personnelles, notamment dans le domaine de la recherche, de la planification et de la statistique». Le responsable doit en outre anonymiser les données «dès que la finalité du traitement le permet» et publier les résultats «de façon à ce que les personnes concernées ne soient pas identifiables». Le libellé même — «fins non personnelles» — tranche la question de l’IA : si le modèle vise l’individu, la finalité est personnelle, et le motif justificatif disparaît.

«Recherche» est une notion large, mais pas une étiquette

Reste la voie de sortie par la «recherche scientifique». Le considérant 159 DSGVO interprète intentionnellement la notion de manière large : elle doit couvrir également «le développement technologique» et la «recherche financée par le secteur privé». De prime abord, cela semble couvrir tout laboratoire d’entreprise.

Les lignes directrices 1/2026 du CEPD confirment cette lecture large : la recherche peut être privée et poursuivre un but lucratif. Elles posent cependant six exigences — une démarche méthodique et systématique, des normes éthiques, l’indépendance, la vérifiabilité, un objectif de recherche et une contribution au savoir ou à l’utilité sociale. Elles soulignent par ailleurs que la notion ne saurait être étendue au-delà de son sens ordinaire. Les lignes directrices ne citent nulle part le développement de l’IA comme un cas établi de recherche.

L’équation commode s’effondre dès lors. Le développement d’un produit rebaptisé «recherche» pour assouplir la limitation des finalités satisfait rarement ces six critères. Qui entend se prévaloir de la dérogation supporte la charge de démontrer le caractère scientifique de l’activité : méthode, protocole, supervision indépendante ou éthique, résultat vérifiable. L’entraînement d’un modèle de recommandation dont le seul objectif est d’améliorer le taux de conversion n’en remplit aucun.

La minimisation l’emporte sur «plus de données, meilleur le modèle»

La dernière garantie est la plus contraignante. L’art. 89, par. 1, DSGVO exige des mesures de minimisation des données et de pseudonymisation dans la mesure où la finalité le permet ; l’art. 31, al. 2, let. e, DSG impose l’anonymisation dès que la finalité le permet. Les deux dispositions établissent un ordre de priorité : d’abord les données anonymes, puis les données pseudonymisées, et seulement en dernier recours les données identifiables.

Cela contredit la logique d’entraînement selon laquelle des données plus nombreuses et plus complètes produisent un meilleur modèle. La CNIL recommande pour l’entraînement des modèles : la minimisation des données n’interdit pas de larges jeux de données d’entraînement, mais les données doivent être sélectionnées et épurées, et les données à caractère personnel non nécessaires en sont exclues. La charge de la justification incombe au responsable, qui doit démontrer pour chaque champ pourquoi il figure dans le jeu.

Un jeu de données d’entraînement qui conserve des profils clients complets «par précaution» inverse cet ordre de priorité. Il part des données identifiables et reporte la minimisation à plus tard — or «plus tard» n’arrive jamais en cours d’exploitation. C’est précisément ce type de jeu de données que la dérogation pour la recherche ne couvre pas.

Pour lundi

Il en résulte quatre points à documenter séparément avant le prochain cycle d’entraînement. Premièrement, la base légale au titre de l’art. 6 DSGVO — et, pour les catégories particulières de données, au titre de l’art. 9 — indépendamment de la question de compatibilité des finalités. Deuxièmement, le dispositif de garanties au sens de l’art. 89, par. 1 : niveau de minimisation, pseudonymisation, mesures techniques et organisationnelles. Troisièmement, la démonstration que le résultat reste agrégé et ne fonde aucune décision individuelle, ou que le modèle est anonyme. Quatrièmement, si vous invoquez la «recherche», le dossier attestant le caractère scientifique de l’activité.

La structure est connue. La dérogation remplace la vérification de compatibilité des finalités, non la base légale ; «statistique» signifie agrégé, non personnalisé ; la minimisation s’applique aussi aux grands jeux de données. Ce qui reste ouvert : savoir si une autorité de contrôle reconnaîtra l’entraînement commercial d’un modèle comme «recherche scientifique» au sens du considérant 159, et avec quelle rigueur elle appliquera la limite de la décision individuelle aux modèles personnalisants. Cette incertitude ne sera pas levée par un article de doctrine, mais par la version définitive des lignes directrices 1/2026 du CEPD, à l’issue de la consultation publique ouverte jusqu’au 25 juin 2026. Les responsables dont la réutilisation repose sur la notion de recherche ont intérêt à se manifester avant cette date. Pour la Suisse, l’équivalent de ces lignes directrices fait défaut ; c’est la première prise de position publiée du PFPDT qui déterminera si l’interprétation européenne sera transposée à l’art. 31, al. 2, let. e, DSG.