Umfrage zum Datenschutz in Schweizer Unternehmen

Unsere Befragung von Unternehmen in der Deutschschweiz zu ihrer Datenschutzpraxis wurde kürzlich veröffentlicht und kann hier bezogen werden. Ein Auszug aus der Medienmitteilung:

«Die von der ZHAW durchgeführte Studie «Datenschutz in Schweizer Unternehmen 2018» zeigt deutlich, dass ein Grossteil der befragten Unternehmen Datenschutz eine hohe Bedeutung beimisst. Die Erhebung zeigt aber auch, dass für den Datenschutz in Schweizer KMU kaum Ressourcen zur Verfügung gestellt werden. «Datenschutz ist oft nicht budgetiert. In 70 Prozent der befragten Unternehmen fehlt es darüber hinaus an Datenschutzbeauftragten», so fasst Nico Ebert, ZHAW-Forscher und Mitautor der Studie, die Ergebnisse zusammen. Zudem gebe es kaum formalisierte Abläufe und Schulungen im Zusammenhang mit Datenschutz, was zeige, dass der Datenschutz in Schweizer Unternehmen noch nicht systematisch umgesetzt werde. Dies trotz der derzeitigen Relevanz des Themas aufgrund der neuen EU-Datenschutzgrundverordnung (DSGVO) sowie der damit verbundenen bevorstehenden Revision und Verschärfung des Schweizer Datenschutzgesetzes.»

 

 

 

Wie funktioniert Session-Replay?

Beim Session-Replay zeichnet der Webseiten-Betreiber die Besuche («Sitzungen») ausgewählter Benutzer auf. Aufgenommen werden Maus-Bewegungen, Klicks und ggf. Texteingaben. Webseiten-Betreiber nutzen Session-Replay-Tools, um ihre Webseite zu optimieren (z.B. die Benutzbarkeit).

Beim US-Session-Replay-Tool Hotjar muss die Aufnahme zunächst aktiviert werden. Besucht ein Benutzer dann die entsprechende Webseite, werden durch das eingebundene Hotjar-Javascript die Benutzereingaben aufgezeichnet und an die Hotjar-Server im Amazon-Rechenzentrum in Dublin geschickt. Der Datentransfer ist nur verschlüsselt, sofern der Webseiten-Betreiber für seine Seite HTTPS nutzt. Der Betreiber erhält dann einen Überblick über die aufgezeichneten Sitzungen und kann Sitzungen wiedergeben («Play»)

sessionsAuswahl der wiederzugebenden Benutzersitzungen

Per Standardeinstellung werden lediglich Mausbewegungen, Klicks und Scrolling an die Hotjar-Server übermittelt. Texteingaben (E-Mails, Name, etc.) werden maskiert (***) und nicht übertragen – dies muss durch den Betreiber explizit aktiviert werden. Das Video zeigt die Aufnahme einer Sitzung auf einer Testwebseite. Falls ein Benutzer nicht getrackt werden möchte, muss er die Browser-Einstellung «Do Not Track» setzen («Opt out»). Die Firma Hotjar Ltd. erwähnt explizit, dass die Nutzung seines Tools gemäss DSGVO in der Datenschutzerklärung erwähnt werden muss. Aktuell sei der Dienst noch nicht DSGVO-konform (Stand: 01.05.18).


Wiedergabe einer Sitzung

Aus technischer, nicht-juristischer Datenschutzsicht ergeben sich durch die Einbindung der Session-Replay-Tools eine Reihe von Risiken:

  • Die Benutzereingaben werden mit dem Webseiten-Betreiber und mit einer Drittpartei, dem Tool-Anbieter, geteilt. Je nach Webseite können die Daten sensitiv sein: der US-Supermarkt verkauft Medikamente online, fragt dazu den Gesundheitszustand des Benutzers und teilte diese Daten mit dem Session-Replay-Anbieter Fullstory. Die Datenübermittlung zum Tool-Anbieter ist nicht verschlüsselt, wenn der Webseiten-Betreiber lediglich http nutzt (was zunehmend selten der Fall ist). Ausserdem muss die Drittpartei die Sicherheit der Daten gewährleisten.
  • Der Benutzer wird zwar zunächst nur über eine ID identifiziert, allerdings können bei vielen Anbietern durch die entsprechende Konfiguration Texteingaben aufgezeichnet werden und so der Bezug zu Attributen wie E-Mail-Adresse oder Name hergestellt werden. Einige Tools versuchen die Übertragung bestimmter Felder (z.B. Kreditkarten-Nummer) zu verbieten, jedoch funktioniert dies oftmals unzureichend. Bei manchen Anbietern werden dann Passwörter oder Kreditkartendaten aufgezeichnet.
  • Falls der Benutzer beim Webseiten-Betreiber ein Benutzerkonto (mit Name, E-Mail, etc.) besitzt und dies aufruft, ist die unmittelbare Zuordnung zwischen aufgezeichneten Benutzereingaben und der Person möglich.

Google Analytics passt sich der EU-DSGVO an

Google Analytics ist ein weltweit verbreiteter Tracking-Dienst (Studie Abschnitt 5.1.). Aktuell informiert Google nun die Kunden über die geplanten Massnahmen zur Sicherstellung der Konformität mit der Datenschutzgrundverordnung der EU (EU-DSGVO).

Neu können Webseiten-Betreiber bestimmen, wessen Tracking-Daten wie lange gespeichert werden sollen («Data Retention Controls»). Auf Tracking-Daten werden ab dem 25. Mai die durch den Betreiber festgelegten Einstellungen angewandt. Zum Beispiel werden Tracking-Daten nach einer definierten Löschfrist automatisch durch Google gelöscht und nur noch in Form von aggregierten Statistiken gespeichert.

Ebenfalls soll neu das «Recht auf Vergessenwerden» (Art. 17 DGSVO) des getrackten Benutzers umgesetzt werden können und Webseiten-Betreiber erhalten dafür spezielle Funktionen (“User Deletion API“). Die Daten von einzelnen getrackten Besuchern sollen anhand verschiedener Tracking-Identifikatoren (z.B. aus dem Google Cookie) gelöscht werden können. Ein Beispiel für einen Tracking-Identifikator eines Benutzers ist 35009a79-1a05-49d7-b876-2b884d0f825b.

Für die getrackten Besucher und Webseiten-Betreiber ergeben sich bei der praktischen Umsetzung des Rechts auf Vergessenwerden jedoch zwei offensichtliche Fragen:

  • Zunächst muss der Benutzer überhaupt wissen, dass sie oder er getrackt wird. Dies kann allenfalls über die Datenschutzerklärung der Webseite, die Analyse der Webseite (z.B. der Cookies), einen Tracker-Blocker oder das EU-Cookie-Banner in Erfahrung gebracht werden.
  • Daran schliesst sich die zweite Frage an: wie bringt der Benutzer seinen individuellen Tracking-Identifikator in Erfahrung? Dieser wird gegenüber dem Webseiten-Betreiber benötigt, um den Benutzer zu identifizieren und dessen Tracking-Daten zu löschen. Praktisch muss der Benutzer z.B. zunächst seinen Cookie analysieren und den Tracker-Identifikator identifizieren, um schliesslich mit diesem gegenüber dem Webseiten-Betreiber die Löschanfrage überhaupt stellen zu können.

Da dies für viele Benutzer schwierig sein dürfte, wäre zusätzliche technische Unterstützung für die Benutzer wünschenswert (z.B. über einen Opt-Out-Link in der Datenschutzerklärung).

De-Anonymisierung von Nutzern mit Tracker-Daten und Social Media

Die besuchten Seiten eines Nutzers werden auf Webseiten durch diverse Tracker erfasst. Wenn die Tracker über verschiedene Websites sehr verbreitet sind (z.B. Facebook, Google, AppNexus, Comscore) oder verschiedene Tracker Daten austauschen, entsteht so für die Anbieter ein Profil der besuchten Websites eines Nutzers. Dieses Tracker-Profil enthält auch Zeit und Adresse der besuchten Webseiten, wie sie in der eigenen Browser-Historie zu finden sind. Das Tracker-Profil enthält jedoch nicht den Klarnamen des Nutzers, sondern lediglich eine eindeutige, vom Tracker zugewiesene Nummer (ein Pseudonym wie z.B. «4711»). Der Anbieter weiss also nicht, welche Person «genau» die Seiten besucht, sondern nur, dass es immer die «gleiche» Person ist.

Kürzlich haben Forscher demonstriert, wie Nutzer auf Basis ihres Tracker-Profils «de-anonymisiert» werden können, d.h. vom Tracker-Profil auf das Social Media-Profil und damit höchstwahrscheinlich auf die «wahre Identität» der Person geschlossen werden kann.

Social-Media-Nutzern werden in ihrem Feed eine Vielzahl von Webadressen angezeigt (z.B. durch die Empfehlung von Freunden). Der Feed eines Nutzers und damit die angezeigten Webseiten sind nahezu einzigartig. Gleichzeitig ist die Wahrscheinlichkeit sehr hoch, dass ein Nutzer einige Webseiten in seinem Feed anklickt und besucht. Folglich gehen viele der vorhandenen Webseiten in der eigenen Browser-Historie auf Aktivitäten im eigenen Social Media-Profil zurück. Wenn nun die Browser-Historie eines bestimmten Nutzers bekannt ist (was für manche Tracker-Anbieter gilt), kann durch den Abgleich mit sehr vielen Social Media-Profilen versucht werden auf das Social Media-Profil desjenigen Nutzers zu schliessen. Damit wäre die Social Media-Identität des Nutzers bekannt und damit ggf. der Klarname des Nutzers, wenn er im Profil hinterlegt ist.

In einem Experiment haben knapp 400 Twitter-Nutzer ihre Browser-Historie mit den Forschern geteilt. Diese haben dann die Webadressen in den Browser-Historien mit den Feeds (und enthaltenen Webadressen) von Tausenden von Twitter-Nutzern abgeglichen. Letztlich konnten 72% der Nutzer «de-anonymisiert» werden, d.h. aufgrund des einzigartigen Webseiten-Fussabdrucks war der eindeutige Rückschluss auf das korrekte Twitter-Profil möglich. Je aktiver ein Nutzer war und entsprechend mehr Links in der Historie vorhanden waren, desto besser konnte der Nutzer de-anonymisiert werden.

Weiterführende Informationen:

 

Webtracking auf Schweizer Websites (Fingerprinting und Session Replay)

In den letzten Jahren wurden die Verfahren zum Tracking von Besuchern auf Websites ausgefeilter. Als Alternative zu Cookies können individuelle Fingerabdrücke des Browsers («Fingerprinting») genommen werden, die – anders als Cookies – durch den Besucher nicht gelöscht werden können. Ferner sind Betreiber in der Lage den Besuch inkl. Texteingaben und Mausbewegungen einer Website ohne Kenntnis des Benutzers aufzuzeichnen («Session Replay») oder je nach Anbieter live zu beobachten. Fälschlicherweise eingegebene Passwörter oder Kreditkartendaten können theoretisch ohne explizite Kenntnis des Nutzers zum Betreiber gelangen.

Ergebnisse aus der Untersuchung von ausgewählten Schweizer Websites

Eine nicht-abschliessende Untersuchung von 374 populären Schweizer Websites im März 2018 ergab, dass mindestens 24% der Websites moderne Fingerprinting-Verfahren nutzen (darunter Digitec, NZZ, Swiss und Zalando). Knapp acht Prozent der Websites nutzen Session-Replay-Verfahren (darunter Doodle, Jobs.ch, Migros-Magazin, Moneyhouse, Siroop). Die vollständigen Ergebnisse hier.

SwissBlockierter Canvas Finterprinting-Versuch beim Besuch von Swiss.com

Vorgehen und Ergebnisse

Zunächst wurden populäre Websites der Schweiz ermittelt. Dazu wurde die Alexa Top 500 Schweiz sowie der Net-Metrix Report konsolidiert (beides Stand 2.3.18) und Seiten ohne direkten Schweizer Bezug herausgefiltert (z.B. amazon.com, google.com). Mobile Websites und Apps wurden nicht betrachtet. Insgesamt ergaben sich als Untersuchungsgegenstand 374 relevante Schweizer Websites.

Anschliessend wurden die Websites mittels Open WPM automatisiert untersucht (zustandslos). Dabei wurden die Websites mittels Firefox 52 besucht und u.a. Script-Aufrufe aufgezeichnet. Die aufgezeichneten Daten wurden manuell auf Fingerprinting und Session-Replay untersucht.

Bei der Analyse des Fingerprintings standen Canvas Fingerprinting (gefunden auf 49 Websites), Canvas-Font Fingerprinting (3 Websites) und WebRTC Fingerprinting (2 Websites) sowie die Suche nach populären Fingerprinting Scripts (z.B. Valve, Dakt) im Mittelpunkt (Scripts gefunden auf 90 Websites). Andere verbreitete Fingerprinting-Verfahren (z.B. HTTP-Header, IP, Plugins) und spezielle Verfahren (z.B. Batterie-Eigenschaften) wurden genauso wenig untersucht wie Tracking durch clientseitig-gepeicherte Trackingcodes (z.B. Cookies) oder Webbeacons.

Die Suche nach Session-Replay-Scripts beschränkte sich auf 14 populäre Anbieter. Die auf 28 Websites gefundenen Scripts stammen von Hotjar (23 Websites), Yandex Metrika (2), Clicktale (1) Smartlook (1), Mouseflow (1) und Luckyorange (1).

Hintergrund Fingerprinting

Beim Fingerprinting wird auf Basis von verschiedenen Browsermerkmalen (z.B. IP, Bildschirmauflösung, vorhandene Schriftarten, installierte Plugins) ein nahezu einzigartiger Fingerabdruck des Browsers erstellt und als Identifikator beim Betreiber gespeichert und zum Tracking benutzt. Da sich die Browsermerkmale und damit der Fingerabdruck selten ändern, kann ein Nutzer beim erneuten Besuch einer Website oder über verschiedene verbundene Websites (z.B. NZZ Netzwerk, Tamedia) wieder identifiziert werden.

Beim Canvas Fingerprinting wird eine für den Nutzer unsichtbare Grafik erzeugt. Da diese in jedem Browser minimal anders erzeugt wird, kann sie als individueller Fingerabdruck des Browsers genutzt werden («toDataUrl»). In der Abbildung oben ist die Grafik des Standardscripts von “Valve” zu sehen, die auf Swiss.com zum Fingerprinting erzeugt wurde.

Im Gegensatz dazu werden beim HTML Canvas-Font Fingerprinting verschiedene, unsichtbare Texte erzeugt. Da auch diese von Browser zu Browser minimal unterschiedlich dargestellt werden, kann auf Basis des Textbreite ein individueller Fingerabdruck erzeugt werden («measureText»).

Schliesslich wird beim WebRTC Fingerprinting ein Interface zum genutzt Fingerprinting (z.B. auf Basis verschiedener Netzwerkadressen), das eigentlich zur Kommunikation zwischen Nutzern gedacht ist.

Hintergrund Session Replay

Beim Session Replay zeichnet eine JavaScript kontinuierlich die Benutzereingaben im Browser auf. Dazu gehören Mausbewegungen und Formulareingaben. Selbst wenn der Benutzer ein Formular nicht ausdrücklich abschickt, können Eingaben «mitgeschnitten» werden und ja nach Scriptanbieter auch live beobachtet werden. Betreiber nutzen Session Replay zur Verbesserung der Benutzbarkeit ihrer Websites. Allerdings können auch ohne explizite Kenntnis der Benutzer sensitive Daten an den Betreiber gelangen. Session Replay wird häufig mit Fingerprinting kombiniert, um den Nutzer beim erneuten Besuch der Website wieder zu identifizieren (z.B. Hotjar)

Weiterführende Informationen:

 

“Weniger Daten” als Privacy-by-Design-Strategie

Die Minimierung der erforderlichen Personendaten ist die offensichtlichste Strategie zur Umsetzung von Privacy-by-Design und explizit in der EU-DSGVO formuliert (s. Art. 5). Wenn keine oder wenige Daten mit Personenbezug in einem Service verarbeitet werden, reduziert sich logischerweise das Risiko für Datenschutzbedrohungen (z.B. Diebstahl der Daten). Aufwendige Schutzmassnahmen entfallen, wenn es keine schützenswerten Daten gibt.

Naheliegend wird die Strategie «Datenminimierung» dadurch umgesetzt, dass weniger Daten gesammelt werden («Select before you collect»). Dies bedeutet, dass – anders als heute oftmals üblich – nicht zunächst breit Personendaten gesammelt werden und später entschieden wird, wie und ob diese genutzt werden können. Stattdessen werden die Daten nur in dem Umfang gesammelt, wie sie für einen Verarbeitungszweck auch tatsächlich erforderlich sind. Dies setzt natürlich voraus, dass der Zweck überhaupt hinreichend im Vorfeld bekannt ist. Während der Zweck der Datennutzung z.B. für die Verarbeitung von Bestellungen im Online-Shop noch klar definiert werden kann, ist dies bei Big Data-Analysen deutlich schwieriger. Bei Letzteren geht es ja gerade darum explorativ noch nicht bekannte Muster in den Daten zu entdecken und für neue, unbekannte Verfahren zu nutzen. Typische Beispiele aus Datenschutzerklärungen sind Begriffe wie «Marketing-Analysen» oder «Verbesserung des Nutzererlebnisses».

Die Verwendung von Pseudonymen und die Anonymisierung sind weitere Beispiele zur Umsetzung der Datenminimierung. Wenn die Person statt Name und Anschrift ein Pseudonym zur Registrierung auf einer Website nutzt oder wenn identifizierbare Merkmale im Nachhinein durch ein Pseudonym ersetzt werden, erhöht dies das Datenschutz-Niveau. Die EU-DSGVO nennt die Pseudonymisierung explizit als Beispiel für eine technische Schutzmassnahme (s. Art. 25). Ein soziales Netzwerk könnte z.B. statt der Anmeldung mit dem Klarnamen auch lediglich ein Pseudonym zur Anmeldung einfordern ohne den Zweck «Kommunikation» zwangsläufig einzuschränken (bei Facebook wird dies durch die Nutzungsbedingungen untersagt). Weiter führt die Anonymisierung. Hierbei werden z.B. Identifikatoren bzw. Eigenschaften der Daten, die zur Identifikation führen, gelöscht. «Statistische Auswertungen» können dann immer noch umsetzbar sein. Von Datenminimierung kann im Fall von Pseudonymisierung bzw. Anonymisierung jedoch nur gesprochen werden, wenn nicht die Zuordnung zwischen Identifikator und Pseudonym bzw. die Eingangsdaten vor der Anonymisierung trotzdem gespeichert werden.

Die genannten Umsetzungswege sind nur einige Beispiele für die Strategie «Datenminimierung». Weitere Strategien sind z.B. das Löschen von Daten, wenn diese nicht mehr genutzt werden, die Begrenzung der Verteilung von Daten über verschiedene Systeme bzw. Abteilungen oder der «Zero-Knowledge Proof».  Egal, wie die Datenminimierung umgesetzt wird: in jedem Fall muss der genaue Zweck der Verarbeitung im Vorfeld klar oder festgelegt werden, damit die Datenminierung bereits im Entwurf von Systemen stattfinden kann.

Weiterführende Literatur: Hoepmann (2014) und Gürses et al. (2011) 

Verzeichnis der Verarbeitungstätigkeiten nach DSGVO

Während für viele deutsche Unternehmen schon länger als Verfahrensverzeichnis bekannt, stellt das Verzeichnis der Verarbeitungstätigkeiten nach Artikel 30 DSGVO für viele Schweizer Unternehmen ein Novum dar. Sind sie von der DSGVO betroffen, müssen auch die Unternehmen in der Schweiz aller «Prozesse» führen, in denen personenbezogene Daten verarbeitet werden. Einen Überblick zu Aufbau, Inhalten und weiterführender Literatur habe ich in einem Vortrag im Rahmen eines Fachkurses des KMU Digital Summit zusammengefasst.

Verzeichnis der Verarbeitungstätigkeiten

Das Verzeichnis der Verarbeitungstätigkeiten bildet das Herzstück der Dokumentation im Rahmen der GDPR. Es gibt zunächst Auskunft darüber, wo im Unternehmen überhaupt personenbez. Daten vorhanden sind und wer für diese verantwortlich ist. Es bildet somit einen Baustein einer generellen «Data Governance» und bildet den Ausgangspunkt für das Risikomanagement, die Auskunft gegenüber Datensubjekten und Behörden und die Umsetzung von Massnahmen zum Schutz der Daten.

Interessant wird vor allem die Frage sein, wie gewährleistet werden kann, dass das Verzeichnis mit der Realität im Unternehmen übereinstimmt. In einer deutschen Studie aus dem Jahr 2015 gaben viele der Befragten zum damaligen Verfahrensverzeichnis an, dass ein grosse Zahl der Verfahren nicht erfasst würde.