Datenschutz Deep Dive
Prall gefüllter Aktenordner «Kundendaten» läuft auf einem Förderband in einen KI-Trainingsserver; ein viel zu kleiner Stempel «Art. 89 DSGVO – Forschung» bedeckt nur eine Ecke.

«Nur für Analytics»: Art. 89 DSGVO deckt Ihr KI-Trainingsset nicht

Wer Kundendaten fürs Modelltraining zweitnutzt, beruft sich gern auf das Forschungs- und Statistikprivileg von Art. 89 Abs. 1 DSGVO und Art. 31 Abs. 2 lit. e DSG. Das Privileg befreit aber nur von der Zweckbindung, nicht von der Rechtsgrundlage, und es hängt an Datenminimierung und einem aggregierten Ergebnis, das ein kommerzielles Trainingsset selten liefert — eine Verteidigung zum Dokumentieren, keine sichere Ausgangslage.

Casimir von Firn, MLaw

«Wir nutzen die Daten nur für Analytics.» Der Satz soll die Zweitnutzung von Kundendaten fürs Modelltraining rechtfertigen und beruft sich, meist ungenannt, auf das Forschungs- und Statistikprivileg von Art. 89 Abs. 1 DSGVO und Art. 31 Abs. 2 lit. e DSG. Das Privileg gibt es, doch es befreit nur von der Zweckbindung (Art. 5 Abs. 1 lit. b DSGVO), nicht von der Rechtsgrundlage, und es hängt an Garantien, die ein kommerzielles Trainingsset selten erfüllt. Wer sich darauf beruft, muss diese Verteidigung vor dem ersten Trainingslauf dokumentieren — als sichere Ausgangslage taugt das Privileg nicht.

Was das Privileg befreit, und was nicht

Der Mechanismus steht in Art. 5 Abs. 1 lit. b DSGVO. Eine Weiterverarbeitung «für wissenschaftliche oder historische Forschungszwecke oder für statistische Zwecke» gilt «gemäss Artikel 89 Absatz 1 nicht als unvereinbar mit den ursprünglichen Zwecken». Das ist eine Zweckvereinbarkeitsfiktion: Wer Daten zur Vertragsabwicklung erhoben hat und sie später fürs Training nutzt, muss die Vereinbarkeit der beiden Zwecke nicht eigens prüfen. Die Fiktion greift aber nur «gemäss Artikel 89 Absatz 1». Fehlen dessen Garantien, fehlt die Fiktion.

Art. 89 Abs. 1 DSGVO verlangt «geeignete Garantien für die Rechte und Freiheiten der betroffenen Person», konkret technische und organisatorische Massnahmen zur «Achtung des Grundsatzes der Datenminimierung», und Pseudonymisierung, soweit der Zweck sie zulässt. Abs. 2 ermächtigt die Mitgliedstaaten, die Betroffenenrechte aus Art. 15, 16, 18 und 21 DSGVO einzuschränken, soweit diese den Forschungszweck «unmöglich machen oder ernsthaft beeinträchtigen». Das ist der ganze Inhalt des Privilegs: Es erspart die Vereinbarkeitsprüfung und dämpft einige Auskunfts- und Löschpflichten. Eine Rechtsgrundlage liefert es nicht. Wer personenbezogene Daten verarbeitet, braucht weiterhin einen Erlaubnistatbestand nach Art. 6 DSGVO, für besondere Kategorien zusätzlich nach Art. 9. Die EDSA-Leitlinien 1/2026 (Konsultationsentwurf vom 16. April 2026) stellen klar, dass Vereinbarkeit und Rechtmässigkeit zwei getrennte, kumulative Voraussetzungen bleiben: Die Rechtmässigkeit der Weiterverarbeitung ist eigenständig zu belegen, auch wenn die Zweckvereinbarkeit fingiert wird.

Wie teuer die verwechselte Hürde wird, zeigt die italienische Aufsicht. Die Datenschutzbehörde Garante büsste OpenAI im Dezember 2024 mit EUR 15 Mio., weil das Training von ChatGPT ohne taugliche Rechtsgrundlage nach Art. 6 DSGVO lief und die Transparenzpflichten verletzt waren. Nicht die Zweckvereinbarkeit war das Problem, sondern die fehlende Grundlage. Auch der Europäische Datenschutzausschuss (EDSA) führt in seiner Stellungnahme 28/2024 zu KI-Modellen die Rechtmässigkeit des Trainings über das berechtigte Interesse nach Art. 6 Abs. 1 lit. f DSGVO. Das Forschungsprivileg nach Art. 89 DSGVO erscheint in Opinion 28/2024 nicht — weil die Rechtsgrundlage für das Training eigenständig und ohne Rückgriff auf die Vereinbarkeitsfiktion zu beantworten ist.

«Statistik» heisst aggregiert, nicht personalisiert

Das zweite Missverständnis betrifft das Wort «Statistik». Erwägungsgrund 162 DSGVO bindet den statistischen Zweck an eine Bedingung: Das Ergebnis besteht in «aggregierten Daten», und dieses Ergebnis darf «nicht für Massnahmen oder Entscheidungen gegenüber einzelnen natürlichen Personen verwendet» werden. Die Grenze ist also nicht das Etikett, sondern die Wirkung des Modells.

Ein Modell, das Kundinnen nach Abwanderungsrisiko sortiert, Preise individuell setzt, Bewerber rangiert oder Betrugsverdacht auf eine bestimmte Person lenkt, produziert genau die Entscheidung über den Einzelnen, die der statistische Zweck ausschliesst. Dann ist die Verarbeitung personenbezogen, und das Privileg trägt nicht. Wer aus denselben Daten eine Marktauswertung zieht, deren Ergebnis niemanden mehr individualisiert, bleibt im Privileg.

Das Schweizer Recht zieht dieselbe Linie, nur offener. Art. 31 Abs. 2 lit. e DSG rechtfertigt eine Bearbeitung, die sonst die Zweckbindung von Art. 6 Abs. 3 DSG verletzte. Erlaubt ist sie nur «zu nicht personenbezogenen Zwecken, insbesondere in der Forschung, Planung und Statistik». Und der Verantwortliche muss die Daten anonymisieren, «sobald der Bearbeitungszweck dies erlaubt», und die Ergebnisse so veröffentlichen, «dass die betroffenen Personen nicht bestimmbar sind». Schon der Wortlaut «nicht personenbezogen» entscheidet den KI-Fall: Zielt das Modell auf den Einzelnen, ist der Zweck personenbezogen, und der Rechtfertigungsgrund entfällt.

«Forschung» ist breit, aber kein Etikett

Bleibt der Fluchtweg über die «wissenschaftliche Forschung». Erwägungsgrund 159 DSGVO liest den Begriff bewusst weit: Er soll auch «die technologische Entwicklung» und «die privat finanzierte Forschung» erfassen. Das klingt, als sei jedes Unternehmenslabor gedeckt.

Die EDSA-Leitlinien 1/2026 bestätigen den breiten Ansatz: Forschung kann privatwirtschaftlich und gewinnorientiert sein. Sie ziehen aber sechs Anforderungen ein — ein methodisch-systematisches Vorgehen, ethische Standards, Unabhängigkeit, Nachprüfbarkeit, ein Forschungsziel und einen Beitrag zum Wissen oder gesellschaftlichen Nutzen. Und sie betonen, der Begriff dürfe nicht über seinen gewöhnlichen Wortsinn hinaus gedehnt werden. Die KI-Entwicklung nennen die Leitlinien nirgends als gesicherten Forschungsfall.

Damit kippt die bequeme Gleichung. Produktentwicklung, die man «Forschung» nennt, weil das Wort die Zweckbindung lockert, erfüllt die sechs Kriterien selten. Wer das Privileg zieht, trägt die Last, den Forschungscharakter zu belegen: Methode, Protokoll, unabhängige oder ethische Aufsicht, ein nachprüfbares Ergebnis. Das Trainieren eines Empfehlungsmodells, dessen einziger Zweck die bessere Conversion ist, ist nichts davon.

Datenminimierung schlägt «mehr Daten ist besser»

Die letzte Garantie ist die unbequemste. Art. 89 Abs. 1 DSGVO verlangt Massnahmen zur Datenminimierung und Pseudonymisierung, soweit der Zweck sie zulässt; Art. 31 Abs. 2 lit. e DSG verlangt Anonymisierung, sobald der Zweck es erlaubt. Beide stellen eine Reihenfolge auf: zuerst anonyme, dann pseudonyme, erst zuletzt identifizierbare Daten.

Das steht quer zur Trainingslogik, nach der mehr und vollständigere Daten das bessere Modell ergeben. Die CNIL empfiehlt für das Modelltraining: Die Datenminimierung verbietet grosse Trainingsdatensätze nicht, aber die Daten sind auszuwählen und zu bereinigen, und unnötige Personendaten bleiben draussen. Die Begründungslast liegt damit beim Verantwortlichen, der für jedes Feld zeigen muss, weshalb es im Set steht.

Ein Trainingsset, das vollständige Kundenprofile «zur Sicherheit» behält, kehrt die Reihenfolge um. Es beginnt bei den identifizierbaren Daten und spart die Minimierung für später — und «später» kommt im laufenden Betrieb nie. Genau dieses Set deckt das Forschungsprivileg nicht.

Der Satz für Montag

Daraus folgt der Satz für Montag: Dokumentieren Sie vor dem nächsten Trainingslauf vier Dinge getrennt. Erstens die Rechtsgrundlage nach Art. 6 DSGVO, bei besonderen Kategorien zusätzlich Art. 9 — unabhängig von der Vereinbarkeitsfrage. Zweitens das Garantiekonzept nach Art. 89 Abs. 1: Minimierungsstufe, Pseudonymisierung, technische und organisatorische Massnahmen. Drittens den Nachweis, dass das Ergebnis aggregiert bleibt und keine Entscheidung über Einzelne stützt, oder dass das Modell anonym ist. Viertens, falls Sie «Forschung» anrufen, das Dossier zum Forschungscharakter.

Bekannt ist die Statik. Das Privileg ersetzt die Zweckbindung, nicht die Rechtsgrundlage; «Statistik» heisst aggregiert, nicht personalisiert; die Minimierung gilt auch im grossen Datensatz. Offen ist, ob eine Aufsichtsbehörde kommerzielles Modelltraining als «wissenschaftliche Forschung» im Sinn von Erwägungsgrund 159 anerkennt und wie streng sie die Schranke der Entscheidung über Einzelne auf personalisierende Modelle anwendet. Diese Lücke schliesst nicht ein Aufsatz, sondern die definitive Fassung der EDSA-Leitlinien 1/2026 nach der öffentlichen Konsultation, die noch bis zum 25. Juni 2026 läuft. Wessen Zweitnutzung an der Forschungslesart hängt, kommentiert vor diesem Datum. Für die Schweiz fehlt das Äquivalent zu diesen Leitlinien; ob der EDÖB die europäische Auslegung auf Art. 31 Abs. 2 lit. e DSG überträgt, entscheidet die erste publizierte Stellungnahme.