Big Data könnte Schweizer Statistiksysteme verbessern
In den letzten Jahren wurde eine riesige Menge digitaler Daten gesammelt, gespeichert und geteilt – aus Quellen wie sozialen Medien, Geolokalisierungssystemen und Luftbildern von Drohnen und Satelliten –, was Forschenden viele neue Möglichkeiten bietet, Informationen zu untersuchen und unsere Welt zu entschlüsseln. In der Schweiz hat das Bundesamt für Statistik (BFS) ein Interesse an der Big-Data-Revolution und den Möglichkeiten, die sie bietet, um prädiktive Statistiken zum Nutzen der Gesellschaft zu erstellen.
Konventionelle Methoden wie Volkszählungen und Umfragen sind nach wie vor Massstab für die Erstellung sozioökonomischer Indikatoren auf kommunaler, kantonaler und nationaler Ebene. Aber diese Methoden können nun mit sekundären, meist bereits vorhandenen Daten aus Quellen wie Handy-Abonnements und Kreditkarten ergänzt werden. In der Dateninnovationsstrategie 2017 des BFS heisst es: «Ziel der Dateninnovation ist es, die Qualität, den Umfang und die Kosteneffizienz der statistischen Produkte zu erhöhen und den Beantwortungsaufwand für Haushalte und Unternehmen zu reduzieren.»
Anonymisierte Daten
Vor diesem Hintergrund hat ein Team von Wissenschaftlerinnen des Laboratory on Human-Environment Relations in Urban Systems (HERUS) der EPFL eine bahnbrechende Studie über neuartige Verwendungsmöglichkeiten für die Daten von Versicherungsunternehmen durchgeführt. Das führende Partnerunternehmen des Labors, Die Mobiliar, stellte anonymisierte Daten von hunderttausenden Versicherungsnehmenden zur Verfügung. Zu diesen Daten gehörten Faktoren wie Alter, Wohn-Postleitzahl, Auto- und Hausbesitz sowie der Beschäftigungsstatus.
«Wir wollten sehen, ob wir mit diesen Daten bestimmte sozioökonomische Indikatoren vorhersagen können – solche, die uns ein besseres Bild von der Qualität der städtischen Gebiete der Schweiz geben könnten. Ein grosser Vorteil der Daten, die die Versicherungen besitzen – vorausgesetzt, sie sind bereit, sie zu teilen – ist, dass sie billig zu verwenden sind, da sie bereits existieren und jährliche Erhebungen ohne zusätzliche Kosten durchgeführt werden können», sagt Emanuele Massaro, einer der Hauptautoren der Studie, die in PLOS ONE am 3. März veröffentlicht wurde.
Mithilfe von Data-Mining-Techniken extrahierte das Forschungsteam die relevanten Informationen und aggregierte sie, um die 170 bevölkerungsreichsten Schweizer Städte abzudecken. Insgesamt erhielten sie fast 600 000 Profile, die jeweils durch einen eindeutigen Code identifiziert wurden. «Der Datensatz von Die Mobiliar ist sehr vollständig. Er enthält eine breite Palette von Informationen, die es uns ermöglichten, mehr als 30 Variablen zu berücksichtigen, die wir vor allem dazu nutzten, die Variablen auszuwählen, die am besten zu allen sozioökonomischen Indikatoren passen», sagt Lorenzo Donadio, Masterstudent in Umweltwissenschaften und -technik an der EPFL und Erstautor der Studie.
Ein räumliches Regressionsmodell
Die Wissenschaftlerinnen und Wissenschaftler entwickelten ein räumliches Regressionsmodell, um zwölf Variablen in sechs Kategorien genau vorherzusagen: Bevölkerung, Verkehr, Arbeit, Raum und Region, Wohnen und Wirtschaft. «Natürlich können unsere Vorhersagen keine offiziellen Volkszählungen ersetzen, aber sie können als jährliche Wegweiser dienen. Wir wollten auch zeigen, dass die Datensätze der Versicherer viele gesellschaftlich relevante Informationen enthalten – über das hinaus, was sie für Marketing und Marktforschung nutzen – und dass die Versicherer eine engere Zusammenarbeit mit den Forschenden in Betracht ziehen sollten», sagt Massaro.
Das statistische Modell des Teams wurde ausschliesslich für Forschungszwecke entwickelt und hat als solches keine praktische Anwendung. Es könnte als Orientierungshilfe für politische Entscheidungstragende dienen, aber es werden noch regelmässige Erhebungsdaten benötigt. Den Daten von Die Mobiliar fehlen zwar bestimmte Informationen, etwa für junge Menschen unter 18 Jahren, sie sind aber dennoch repräsentativ für einen grossen Teil der Bevölkerung: «Unser Modell könnte von städtischen Entscheidungstragenden und staatlichen Statistikämtern genutzt werden, die diese Art von Informationen in ihre Modernisierungsbemühungen einbeziehen könnten. Die Datensätze der Versicherer sind sehr granular, weil sie sehr spezifische Informationen über ihre Kundinnen und Kunden enthalten», sagt Massaro.