TO TOP

Schutz vor Re-Identifizierung bei der Verlinkung von Daten Protection against re-identification in the linkage of scientific data

Jan Schmutzler & Lukas Plätz
PIs: Prof. Dr. Maike Buchin und Prof. Dr. Estrid Sørensen
Das Projekt wird als Tandemprojekt in SecHuman durchgeführt: https://sechuman.ruhr-uni-bochum.de/forschungskolleg#tandem

Heutzutage werden immer größere Mengen von digitalen Daten erzeugt. Um aktuelle Datenschutzstandards – z. B. die DSGVO – einzuhalten, wird ein Teil dieser Daten typischerweise de-identifiziert zugänglich gemacht. Die wachsenden Datenmengen, die umfassenderen Dateninhalte sowie die verbesserten Methoden zur Verlinkung von Daten haben auch zu einem erhöhten Wert von Daten (Big Data) geführt. Zunehmend werden durch die Verlinkung verschiedener Datensätze neue, noch aussagekräftigere Datensätze erstellt. Häufig handelt es sich dabei dann um vertrauliche Daten. Zum Beispiel steigt bei der Verlinkung von Umfragedaten und geographisch detaillierten Raumdaten die Wahrscheinlichkeit, dass einzelne Befragte re-identifiziert werden können, auch wenn in beiden Ursprungs-Datensätzen bereits Anonymisierungsmaßnahmen zur Anwendung kamen. Bei der Verlinkung von Datensätzen entsteht somit ein Risiko der Re-Identifizierung von Individuen. In einem Paper, das für viel Debatte gesorgt hat, haben Luc Rocher und Kolleg*innen (2019) kürzlich postuliert, dass durch die Verwendung von 15 demographische Merkmale 99.98% der US-Amerikaner in jeglichem Datensatz korrekt re-identifiziert werden können. Diese Zahl von Merkmalen entsteht leicht bei der Verlinkung von Datensätzen. Rocher et al. schlussfolgern, dass es dabei unwahrscheinlich ist, dass Datensätze die Forderungen der DSGVO und ähnlicher Datenschutz-Standards nach Anonymisierung erfüllen. Dies erweist sowohl eine rechtliche wie auch eine technische Herausforderung existierender De-Identifikations und release-and-forget-Modelle.


Das Re-Identifizierungsrisiko gilt insbesondere bei der Verlinkung von Daten, das heißt, wenn verschiedene Datensätze, wie Raumdaten, Zeitreihen, sowie Internetdaten (z. B. Social Media), miteinander verknüpft werden. In diesem Projekt sollen die Methoden zur De- und Re-Identifizierung von Datensätzen untersucht werden sowie auch das Risiko der De- und Re-Identifizierung von Datensätzen bewertet werden, die aus einer Verlinkung entstanden sind. Dabei soll einerseits das Risiko der Re-Identifizierung mit statistischen Methoden ermittelt werden und andererseits sollen verschiedene Methoden und Verfahren zur De- und Re-Identifizierung sowohl mathematisch-informatisch wie auch sozialanthropologisch betrachtet und bewertet werden.


Im mathematischen-informatischen Teil des Tandems soll untersucht werden, wie sich die Verknüpfung von Daten auf die Re- und De-identifikation auswirkt, und welche Methoden hier zum Einsatz kommen können. Ebenfalls soll untersucht werden, wie die Ergebnisse der Verknüpfung Nutzenden zur Verfügung gestellt werden können. Insbesondere interessieren wir uns für die Verknüpfung von Daten, durch die eine Bewegung einer Person in Raum und Zeit herleitbar und damit ihre Identifikation möglich ist. Wir betrachten Möglichkeiten, um für solche Daten bestehende Methoden der De-Identifikation zu erweitern und damit sicherer zu machen. Dazu betrachten wir insbesondere, welche räumlichen sowie attributbezogenen Vergröberungen und Manipulationen zu verknüpfender bzw. verknüpfter Daten datenschutzrechtlich unbedenklich sind. Ebenfalls betrachten wir Konzepte zur Bereitstellung aggregierter oder synthetischer Daten. Das Ziel der De-Identifikation ist die Bereitstellung der Daten und wir untersuchen daher verschiedene Möglichkeiten und deren Wert für Nutzende der Daten.


Im sozialanthropologischen Teil des Projekts werden einerseits die Bedeutung von wissenschaftlichen Datenpraktiken sowie der Konfiguration der soziomateriellen Infrastruktur am Daten-Zugriffspunkt für den Schutz vor Re-Identifizierung untersucht. Andererseits soll beobachtet und analysiert werden, wie sozialwissenschaftliche Datenpraktiken und dadurch auch epistemologische Praktiken der Sozialwissenschaft sich transformieren durch die Risikoeinschätzungen der Re-Identifizierung sowie ihren Schutz. Durch teilnehmende Beobachtungen, Interviews und Dokumentenanalyse soll die Bedeutung von Datenpraktiken für den Schutz vor Re-Identizierung untersucht werden. Dabei stehen die Begrenzung der Datennutzung auf kontrollierte, wissenschaftliche Kreise, sogenannte „trusted communities“, im Fokus der Untersuchung, wie auch die formellen und informellen Normen, Belohnungs- und Kontrollsysteme der Wissenschaft. Darüber hinaus soll erforscht werden, wie epistemische Praktiken durch veränderte Datenpraktiken beeinflusst werden, z. B. ob Änderungen in Fragestellungen und Themen sowie auch in der Kategorisierung und Theoretisierung von untersuchten Phänomenen beobachtet werden können.