«Solo per analytics»: l'art. 89 GDPR non copre il vostro training set di IA

Chi riutilizza dati di clientela per il training di modelli tende ad appellarsi al privilegio per la ricerca e la statistica di cui all'art. 89 par. 1 GDPR e all'art. 31 Abs. 2 lit. e DSG. Il privilegio esime però solo dalla limitazione delle finalità, non dalla base giuridica, ed è condizionato alla minimizzazione dei dati e a un risultato aggregato che un training set commerciale raramente produce — una difesa da documentare, non un punto di partenza sicuro.

«Usiamo i dati solo per analytics.» L’affermazione punta a giustificare il riutilizzo di dati di clientela per il training di modelli e si appella, per lo più implicitamente, al privilegio per la ricerca e la statistica di cui all’art. 89 par. 1 GDPR e all’art. 31 Abs. 2 lit. e DSG. Il privilegio esiste, ma esime soltanto dalla limitazione delle finalità (art. 5 par. 1 lett. b GDPR), non dalla base giuridica, ed è condizionato a garanzie che un training set commerciale soddisfa di rado. Chi lo invoca deve documentare questa difesa prima della prima esecuzione del training — il privilegio non è un punto di partenza affidabile.

Cosa copre il privilegio e cosa no

Il meccanismo è disciplinato dall’art. 5 par. 1 lett. b GDPR. Un trattamento ulteriore a fini di ricerca scientifica o storica, ovvero a fini statistici, non è considerato incompatibile con le finalità iniziali «conformemente all’articolo 89, paragrafo 1». Si tratta di una finzione normativa di compatibilità delle finalità: chi ha raccolto dati per l’esecuzione di un contratto e li riutilizza in seguito per il training non è tenuto a verificare separatamente la compatibilità tra le due finalità. La finzione opera però solo «conformemente all’articolo 89, paragrafo 1»: in assenza delle relative garanzie, essa non si applica.

L’art. 89 par. 1 GDPR richiede «misure adeguate a tutela dei diritti e delle libertà dell’interessato», in concreto misure tecniche e organizzative volte a rispettare il principio di minimizzazione dei dati, nonché la pseudonimizzazione nella misura in cui la finalità lo consente. Il par. 2 autorizza gli Stati membri a limitare i diritti degli interessati di cui agli artt. 15, 16, 18 e 21 GDPR, nella misura in cui tali diritti renderebbero impossibile o pregiudicherebbero seriamente il conseguimento delle finalità di ricerca. Questo è il contenuto del privilegio: evita la verifica di compatibilità delle finalità e attenua alcuni obblighi di accesso e cancellazione. Non fornisce invece una base giuridica. Chi tratta dati personali deve comunque disporre di un presupposto di liceità ai sensi dell’art. 6 GDPR e, per le categorie particolari, anche ai sensi dell’art. 9. Le linee guida EDPB 1/2026 (bozza per consultazione del 16 aprile 2026) precisano che compatibilità e liceità rimangono due requisiti distinti e cumulativi: la liceità del trattamento ulteriore deve essere dimostrata autonomamente, anche quando la compatibilità delle finalità è presunta per legge.

Il costo dell’errore è illustrato dall’esperienza dell’autorità italiana. Il Garante ha sanzionato OpenAI nel dicembre 2024 con una multa di 15 milioni di euro, in quanto il training di ChatGPT avveniva in assenza di una valida base giuridica ai sensi dell’art. 6 GDPR e in violazione degli obblighi di trasparenza. Il problema non era la compatibilità delle finalità, bensì l’assenza della base giuridica. Anche il Comitato europeo per la protezione dei dati (EDPB) affronta nel parere 28/2024 sui modelli di IA la questione della liceità del training ricorrendo al legittimo interesse ai sensi dell’art. 6 par. 1 lett. f GDPR. Il privilegio per la ricerca di cui all’art. 89 GDPR non compare nel parere 28/2024: la base giuridica per il training deve essere individuata autonomamente, senza ricorrere alla finzione di compatibilità delle finalità.

«Statistica» vuol dire aggregato, non personalizzato

Il secondo equivoco riguarda la parola «statistica». Il considerando 162 GDPR subordina la finalità statistica a una condizione: il risultato consiste in «dati aggregati» e non può «essere utilizzato per adottare misure o decisioni riguardanti persone fisiche specifiche». Il limite non è quindi l’etichetta apposta al trattamento, ma l’effetto del modello.

Un modello che classifica i clienti in base al rischio di abbandono, che fissa prezzi personalizzati, che ordina i candidati in graduatoria o che orienta un sospetto di frode verso una persona specifica produce esattamente quella decisione sul singolo individuo che la finalità statistica esclude. In tal caso il trattamento riguarda persone identificabili e il privilegio non regge. Chi dagli stessi dati ricava un’analisi di mercato il cui risultato non individua più nessun soggetto rimane invece nell’ambito del privilegio.

Il diritto svizzero traccia la stessa linea, in termini più espliciti. L’art. 31 Abs. 2 lit. e DSG giustifica un trattamento che altrimenti violerebbe la limitazione delle finalità di cui all’art. 6 Abs. 3 DSG. Il trattamento è consentito solo «a fini non riferiti a persone, in particolare nella ricerca, nella pianificazione e nella statistica». Il titolare del trattamento deve inoltre anonimizzare i dati «non appena la finalità del trattamento lo consente» e pubblicare i risultati in modo che le persone interessate non siano identificabili. La formulazione «a fini non riferiti a persone» è già di per sé decisiva per il caso dell’IA: se il modello punta al singolo individuo, la finalità è personale e il presupposto giustificativo viene meno.

«Ricerca» è un concetto ampio, ma non un’etichetta

Resta la via di fuga attraverso la «ricerca scientifica». Il considerando 159 GDPR interpreta il concetto in senso deliberatamente ampio: deve comprendere anche «lo sviluppo tecnologico» e «la ricerca finanziata da privati». Sembrerebbe che ogni laboratorio aziendale rientri nella definizione.

Le linee guida EDPB 1/2026 confermano l’approccio ampio: la ricerca può essere privata e orientata al profitto. Fissano però sei requisiti — un approccio metodico e sistematico, standard etici, indipendenza, verificabilità, un obiettivo di ricerca e un contributo alla conoscenza o all’utilità sociale. E sottolineano che il concetto non può essere esteso oltre il suo significato ordinario. Lo sviluppo dell’IA non viene citato in nessun punto delle linee guida come caso di ricerca consolidato.

L’equazione comoda vacilla. Lo sviluppo di prodotti che si definisce «ricerca» perché il termine allenta la limitazione delle finalità soddisfa raramente i sei criteri. Chi invoca il privilegio porta l’onere di dimostrare il carattere di ricerca: metodo, protocollo, supervisione indipendente o etica, un risultato verificabile. Il training di un modello di raccomandazione il cui unico scopo è migliorare il tasso di conversione non risponde a nessuno di questi requisiti.

La minimizzazione dei dati batte il «più dati è meglio»

L’ultima garanzia è la più scomoda. L’art. 89 par. 1 GDPR richiede misure di minimizzazione dei dati e pseudonimizzazione nella misura in cui la finalità lo consente; l’art. 31 Abs. 2 lit. e DSG richiede l’anonimizzazione non appena la finalità lo permette. Entrambe le disposizioni stabiliscono una gerarchia: prima dati anonimi, poi pseudonimi, solo in ultima istanza dati identificabili.

Questo confligge con la logica del training, secondo cui dati più completi producono un modello migliore. La CNIL raccomanda, per il training di modelli, che la minimizzazione dei dati non vieta training set di grandi dimensioni, ma i dati devono essere selezionati e ripuliti, e quelli personali non necessari devono restare fuori. L’onere giustificativo ricade quindi sul titolare del trattamento, che deve dimostrare per ciascun campo perché è incluso nel set.

Un training set che conserva profili completi di clienti «per sicurezza» inverte la gerarchia: parte dai dati identificabili e rinvia la minimizzazione a un secondo momento — e quel momento, nella pratica operativa, non arriva mai. Proprio questo tipo di set non è coperto dal privilegio per la ricerca.

Il punto per lunedì

Ne consegue il punto operativo per lunedì: prima della prossima esecuzione del training, documentate separatamente quattro elementi. Primo, la base giuridica ai sensi dell’art. 6 GDPR e, per le categorie particolari, anche ai sensi dell’art. 9 — indipendentemente dalla questione della compatibilità delle finalità. Secondo, il quadro delle garanzie ai sensi dell’art. 89 par. 1: livello di minimizzazione, pseudonimizzazione, misure tecniche e organizzative. Terzo, la prova che il risultato rimane aggregato e non supporta decisioni su singoli individui, oppure che il modello è anonimizzato. Quarto, se si invoca la «ricerca», il dossier che ne dimostra il carattere.

Il quadro è assodato. Il privilegio sostituisce la limitazione delle finalità, non la base giuridica; «statistica» significa aggregato, non personalizzato; la minimizzazione si applica anche ai grandi dataset. Aperta rimane la questione se un’autorità di controllo riconoscerà il training commerciale di modelli come «ricerca scientifica» ai sensi del considerando 159 e con quale rigore applicherà il limite della decisione sul singolo individuo ai modelli personalizzanti. Questa lacuna non verrà colmata da un articolo, ma dalla versione definitiva delle linee guida EDPB 1/2026, al termine della consultazione pubblica aperta fino al 25 giugno 2026. Chi basa il riutilizzo dei dati sull’interpretazione relativa alla ricerca deve presentare osservazioni prima di quella data. Per la Svizzera manca un equivalente di queste linee guida; se l’EDÖB trasferirà l’interpretazione europea all’art. 31 Abs. 2 lit. e DSG lo determinerà il primo parere pubblicato in materia.