Die Datenschutz-Grundverordnung als Innovationstreiber maschinellen Lernens für Zwecke der allgemeinen Produkt- und Diensteverbesserung?

Dr. Nils Lölfing, Bird & Bird LLP Düsseldorf

In Sachen Innovations- und Zukunftsfähigkeit eilt der Datenschutz-Grundverordnung („DSGVO“) ein eher schlechter Ruf voraus. Für technologischen Fortschritt durch künstliche Intelligenz und maschinelles Lernen, die zunehmend sämtliche Lebensbereiche durchdringen und zu denen große Mengen an Daten verarbeitet werden müssen (‚big data‘), könne die DSGVO ein echter Bremsklotz und Wettbewerbsnachteil für europäische Unternehmen werden. Die Chance eines modernen, Innovation fördernden europäischen Datenschutzrechts sei verpasst worden. Aus Perspektive der ökonomischen Analyse des Rechts könnte man gar sagen, dass hier die falschen Anreize gesetzt wurden, um dem Recht die ihm nach neoliberaler Denkart zuerkannte Funktion der Allgemeinwohlförderung zuzuweisen, gerade weil dieser Bereich als eine der Kernherausforderungen des Datenschutzrechts in der DSGVO unerwähnt bleibt und die Risiken so dem Rechtsanwender überlasst.

Verglichen mit der alten Datenschutz-Richtlinie scheint sich an dem Spannungsfeld, welches im Hinblick auf die Verwendung großer Datenmengen für beispielsweise Zwecke maschinellen Lernens und den Grundsätzen im Datenschutzrecht in der Tat wenig geändert zu haben. Insofern dürften die Vorwürfe, hier sei die Chance eines innovativen Datenschutzrechts verpasst worden, oberflächlich betrachtet durchaus zutreffen, insb. wenn man sich die Grundsätze der Zweckbindung sowie Datenminimierung in Art. 5 Abs. 1 (b) und (c) DSGVO anschaut, die nicht so recht in den zukunftsträchtigen big data Kontext hineinpassen wollen.

Die sich dabei stellende Frage ist jedoch, ob diese oberflächliche Annahme in dieser Pauschalität tatsächlich zutrifft oder ob die DSGVO nicht doch ein paar entscheidende Änderungen erfahren hat, die sie für bestimmte Zukunftsbereiche wie die des maschinellen Lernens als einer der wichtigsten Technologien des 21. Jahrhunderts zu einem Innovationstreiber machen könnte?

1) Datenschutzrecht als regulatorische Anforderung an maschinelles Lernen

Maschinelles Lernen ist eine Methode zum Erwerb von neuem Wissen durch computergesteuerte künstliche Intelligenz anhand selbstlernender Algorithmen, die in einer Vielzahl von beispielhaftem Inputmaterial bestimmte Muster erkennen, auf Basis dessen neue Erkenntnise generiert werden. Anhand des beigebrachten Inputmaterials und das damit einhergehende Trainieren der Algorithmen können so Vorhersagen oder anderweitiger Rückschlüsse, die vom Inputmaterial abgeleitet werden, erfolgen.

Das Trainieren selbstlernernder Algorithmen erfordert demnach ein hohes Maß an Inputmaterial in Form verschiedenster Daten. Dies müssen keine personenbezogenen Daten sein, die zwangsläufig zu einer Anwendbarkeit des Datenschutzrechts führen. In vielen Bereichen des maschinellen Lernens befindet man sich gar vollkommen außerhalb der Restriktionen, die das Datenschutzrecht einem Verantwortlichen aufbürdet, z.B. im Bereich der „Smart Factory“, in der typischerweise nicht-personenbezogene Maschinendaten als Inputmaterial für die Algorithmen verwendet werden (wie etwa zur Effizienzgewinnung in der Qualitätssicherung erstellter Produkte).

Allerdings gibt es mindestens ebenso viele Bereiche, in der zwangsläufig auch personenbezogene Daten Bestandteil des maschinellen Lernens sind. Gemeint und Gegenstand vorliegender Diskussion sind dabei jedoch nicht Anwendungsfälle maschinellen Lernens, bei der die gewonnenen Erkenntnisse im Verhältnis zu einer konkreten Person verwertet werden bzw. sich auf diese beziehen. Im diesem Fall befindet man sich oftmals im Bereich des Profilings bzw. der automatisierten Enscheidung im Einzelfall nach Art. 22 DSGVO, die anderen (strengeren) Restriktionen unterliegen.

Gemeint und Gegenstand vorliegender Diskussion sind Anwendungsfälle maschinellen Lernens, die der allgemeinen Produkt- und Diensteverbesserung dienen, wie beispielsweise Diagnoseverfahren in der Medizin, Betrugsprävention bei Kreditkartentransaktionen oder die Spam-Nachrichtenerkennung, bei der die verwendeten Daten als Inputmaterial zum Trainieren der Algorithmen duch die Verknüpfung zu einer natürlichen Person notwendigerweise in der Regel personenbezogen sind. Denkt man sich die eher strikte Interpretation des EuGH im Hinblick auf die Frage, wann Daten personenbezogen sind, hinzu, sind eine Viezahl weiterer Anwendungsbeispiele gerade auch im Online-Bereich erfasst.

Damit ist Datenschutzrecht sehr häufig ein zu berücksichtigendes Kriterium bei der Frage, wie man Vorgänge maschinellen Lernens unter den gegebenen regulatorischen Anforderungen rechtmäßig ausgestalten sollte.

2) Absenken der Rechtfertigungslast für maschinelles Lernen zu allgemeinen Produkt- und Diensteverbesserungszwecken unter der DSGVO?

Unter der alten Datenschutz-Richtlinie war es einhellige Meinung unter Datenschutzbehörden, dass bei big data-Anwendungen sowohl die Verarbeitung der personenbezogenen Daten zu geänderten Zwecken als auch die Änderung des Zwecks selbst rechtfertigungsbedürftig ist. Der daraus resultierende Rechtfertigungsaufwand war hoch. Nach der DSGVO könnten diese Anforderungen erheblich erleichtert worden sein: zum einen stellt Erwägungsgrund 50 der DSGVO fest, dass nur die Zweckänderung selbst gerechtfertigt werden muss, jedoch keine andere gesonderte Rechtsgrundlage erforderlich ist als diejenige für die Erhebung der personenbezogenen Daten, d.h. die Verarbeitung zu dem gewänderten Zweck nicht zusätzlich nach den Rechtfertigungsgründen der DSGVO erlaubt sein muss (z.B. Interessenabwägung oder Einwilligung). Zum anderen gilt zusätzlich eine Privilegierung bestimmter Zweckänderungen für nach der DSGVO ausdrücklich weit auszulegende wissenschaftliche Forschungs- oder für statistische Zwecke, sodass ebenfalls keine Rechtfertigung für die Zweckänderung selbst erforderlich wäre. Träfe beides auf maschinelles Lernen zu allgemeinen Produkt- und Diensteverbesserungszwecken zu, wäre dies eine erhebliche Privilegierung gegenüber der alten Rechtslage, die sich als innovationsfördernd erweisen könnte.

a) Keine Rechtfertigung für die Verarbeitung zu den geänderten Zwecken maschinellen Lernens

Die für maschinelles Lernen als Inputmaterial verwendeten personenbezogenen Daten wurden vom Verantwortlichen regelmäßig für ursprünglich andere Zwecke als für das maschinelle Lernen erhoben und verarbeitet. Damit ist die mit dem maschinellen Lernen einhergehende zweckändernde Datennutzung unter Art. 6 Abs. 4 DSGVO grds. rechtfertigungsbedürftig (sog. Kompatibiltätstest), nach besagtem Erwägungsgrund jedoch nicht die auf die Zweckänderung folgende Verarbeitung für maschinelles Lernen (d.h. das Einspeisen der Daten in entsprechende Algorithmen).

Der besagte Erwägungsgrund 50 gibt eine klare Interpretation vor, die gleichwohl u.a. als „Redaktionsversehen“ sowie unter Verweis auf die Auslegung durch die Artikel-29-Datenschutzgruppe noch unter der Datenschutz-Richtlinie bestritten wird. Für die eine oder andere Sichtweise gibt es zahlreiche Argumente. Jedenfalls sprechen aber aus unserer Sicht gute Argumente für die Sichtweise, keine gesonderte Rechtsgrundlage zu fordern, wie dies eindeutig von Erwägungsgrund 50 als amtlicher Auslegungshilfe angeordnet wird. Abweichende Auslegungen finden ihre Grenze in dem eindeutigen Wortlaut des amtlichen Erwägungsgrundes. Als weiteres Argument ist auf die Genese der Vorschrift hinzuweisen, die im Gesetzgebungsverfahren überaus sorgfältig diskutiert wurde und ein „Redaktionsversehen“ damit als unwahrscheinlich erscheinen lässt.

b) Privilegierung maschinellen Lernens zu allgemeinen Produkt- und Diensteverbesserungszwecken als wissenschaftliche Forschungs- oder statistische Zwecke

Die Zweckänderung für maschinelles Lernen ist nicht rechtfertigungsbedürftig, wenn sie als privilegierte wissenschaftliche Forschungs- oder statistische Zwecke qualifiziert werden könnten (Art. 5 Abs. 1(b) DSGVO). Diese Privilegierungen gelten nur für allgemeine Zwecke, können aber nicht für Maßnahmen oder Entscheidungen auf individueller Ebene verwendet werden. Wir sind der Ansicht, dass gute Argumente dafür sprechen, maschinelles Lernen zu allgemeinen Produkt- und Diensteverbesserungszwecken als Forschungs- bzw. statistische Zwecke zu privilegieren, womit eine gesonderte Kompatibilitätsprüfung obsolet wird. Dies ist jedoch umstritten.

Erwägungsgrund 159 schreibt eine weite Interpretation des Begriffs „wissenschaftlicher Forschungszwecke“ vor, die auch die technologische Entwicklung sowie privat finanzierte Forschung einschließt. Dies deutet darauf hin, dass auch kommerzielle Aktivitäten wie maschinelles Lernen privilegiert sein können, solange sich dies nicht auf konkrete Individuen sondern abstrakt-generellen Erkenntnisgewinn fokussiert. Diese weite Auslegung ist zudem durch Primärrecht der EU, das über die EU-Grundrechtecharte sämtliche Tätigkeiten zur Erzielung eines Erkenntnisgewinns als Wissenschaft schützt, und dessen Austrahlungswirkung auf die DSGVO vorgegeben.

Auch eine Privilegierung als statistische Zwecke lässt sich bei maschinellem Lernen zu allgemeinen Produkt- und Diensteverbesserungszwecken gut vertreten. Statistik ist nach Erwägungsgrund 162 jeder für die Durchführung statistischer Untersuchungen und die Erstellung statistischer Ergebnisse erforderliche Vorgang der Erhebung und Verarbeitung personenbezogener Daten. Dies passt auf maschinelles Lernen zu allgemeinen Produkt- und Diensteverbesserungszwecken, weil ein abstrakter Erkenntnisgewinn durch das Einspeisen der Daten in die Algorithmen intendiert wird, was jeder Statistik ebenso inhärent ist. Speziell auch kommerzielle big data-Zwecke wurden von der Artikel-29-Datenschutzgruppe schon unter der Datenschutz-Richtlinie anerkannt.

c) Geeignete Garantien für Datensubjekte

Entscheidend wird sein, über technische und organisatorische Maßnahmen geeignete Garantien als Ausgleich für die Verarbeitung zu wissenschaftlichen Forschungs- und statistischen Zwecken zu schaffen, um die Rechte der betroffenen Personen und den Grundsatz der Datenminimierung zu wahren (Art. 89 Abs. 1 DSGVO). Für die Problematik der Datenminimierung im Bereich big data (sofern man zu dem Ergebnis gelangt, diesen Bereich zu privilegieren) gibt die DSGVO damit eine spezielle Schutzlösung vor, um ebenjene Verarbeitungszwecke überhaupt zu ermöglichen. Typischerweise kommt es hier darauf an zu prüfen, inwieweit der Zweck in dieser Reihenfolge mit (i) anonymen Daten, (ii) pseudonymen Daten oder bei Unmöglichkeit von (i) und (ii), (iii) mittels anderer Schutzmaßnahmen erreicht werden kann, wie Verschlüsselung, Geheimhaltungspflichten oder strenge Zugriffsbeschränkungen. Grds. ist hier zu prüfen, inwiefern eine Anonymisierung im konkreten Fall ermöglicht, maschinelles Lernen zu allgemeinen Produkt- und Diensteverbesserungszwecken in den Grenzen der DSGVO/BDSG rechtmäßig einzusetzen. Bei sensitiven Daten besteht sogar eine Anonymisierungspflicht (§ 27 Abs. 2 BDSG). Abseits sensitiver Daten wird es darauf ankommen, was konkret umsetzbar ist. Nach unserem Dafürhalten kann bei der Frage der Geeignetheit der Maßnahmen auch auf den allgemeinen Art. 32 DSGVO („Sicherheit der Verarbeitung“) zurückgegriffen werden, bei dem als Auswahlkriterium anerkanntermaßen auch die Implementierungskosten als ökonomische Komponente zu berücksichtigen sind. Dies bietet entsprechenden Argumentationsspielraum für Verantwortliche.
Das den von der Datenverarbeitung betroffenen Datensubjekten theoretisch zustehende Widerspruchsrecht gegen die Datenverarbeitung (Art. 21 Abs. 6 DSGVO), welches ein echter „show-stopper“ in diesem Bereich sein könnte (da Verantwortliche u.U. technisch separate Datenpools einrichten müssten, um die Widersprüche umzusetzen, was zu erheblichen Schwierigkeiten führen kann), lässt sich argumentativ mit guten Argumenten mittels des Bundesdatenschutzgesetzes („BDSG“) auf Grundlage von Öffnungsklauseln der DSGVO ausschließen (Art. 89 Abs. 2 DSGVO i.V.m. § 27 Abs. 2 BDSG).

Eine vergleichbare Regelung wie die des Art. 89 DSGVO für wissenschaftliche Forschungs- oder für statistische Zwecke gab es unter der Datenschutz-Richtlinie nicht mit gleicher Reichweite und Detailtiefe. Die detaillierte Regelung in Abs. 1, die vorgibt, welche Garantien ein Verantwortlicher einzuhalten hat, sowie die Möglichkeit Ausnahmen von den Betroffenenrechten zu schaffen, hat bei entsprechend weiter Auslegung wissenschaftlicher Forschungs- und statistischer Zwecke damit einen nicht zu übersehenden innovationsfördernden Ansatz.

3) Fazit

Die Frage der Innovations- und Zukunftsfähigkeit der DSGVO muss differenziert beantwortet werden. Die DSGVO bietet nach unserem Dafürhalten jedenfalls im Bereich von Anwendungsfällen maschinellen Lernens, das der allgemeinen Produkt- und Diensteverbesserung dient, nicht unerhebliches Innovationspotenzial und kann damit durchaus in bestimmten Bereichen Innovationsfaktor sein. Dies zeigt sich insbesondere an der weniger strengen Handhabung des Zweckbindungsgrundsatzes (keine gesonderte Rechtfertigung für nachfolgende Verarbeitung notwendig) und der Tatsache, dass mit guten Argumenten vertreten werden kann, dass maschinelles Lernen in den hier behandelten Anwendungsfällen als wissenschaftlicher Forschungs- bzw. statistischer Zweck privilegiert ist. Entscheidend für die Zulässigkeit des Vorhabens dürften insbesondere die vom Verantwortlichen getroffenen Schutzmaßnahmen sein, bei der eine mögliche Anonymisierung immer zumindest in Erwägung gezogen werden sollte (aber nur bei sensitiven Daten Pflicht ist) und ansonsten u.a. die Implementierungskosten der Maßnahmen als ökonomische Komponente Argumentationsspielraum für Verantwortliche bieten. Die weitere Entwicklung und Interpretation durch Datenschutzbehörden und Gerichte steht allerdings erst am Anfang und bleibt mit Spannung abzuwarten.