Die Geschichte von Big Data

Datensammeln ist nichts Neues. Aber durch digitale Anwendungen ist es viel einfacher geworden. Wenn alle Daten verknüpft und Individuen zugeordnet werden, kann es für die Privatsphäre eng werden.

Foto:

railwayfx / stock.adobe.com

Das Wichtigste in Kürze:

Die Menschheit produziert so viele Daten wie noch nie.
Moderne Technologien können diese Daten auswerten.
Big Data bringt Chancen, aber auch Risiken mit.

Der Mensch als Datensammler

Der Mensch ist ein Datensammler. Wenn man den aktuellen Zahlen glauben möchte, vielleicht sogar so etwas wie ein Datenmessie. Expertinnen und Experten gehen davon aus, dass sich die Menge der weltweit produzierten Daten alle zwei Jahre verdoppelt.Prognosen sagen voraus, dass wir bis 2027 ein weltweites Datenvolumen von gut 284 Zettabytes anhäufen.Ein Zettabyte sind 1.000 Exabyte. Ein Exabyte steht für eine Trillion (1018) Bytes oder eine Milliarde Gigabyte oder eine Million Terabyte. Also unvorstellbar viele Bytes. Wenn Sie 145 Zettabytes auf Blue-Ray speichern könnten, hätten Sie jedenfalls einen Blu-Ray-Disc-Stapel, der so groß ist, dass er 23 Mal bis zum Mond reichen würde.

Und noch ein Vergleich: Laut einer wissenschaftlichen Einschätzung bräuchte man gerade mal 5 Exabyte, um alle Wörter zu speichern, die die Menschheit je gesprochen hat.

Massenweise Wissen auf Papier

Auch wenn das Thema "Datenexplosion" ein Phänomen des 20. und 21. Jahrhunderts ist – die Tendenz zum Datensammeln hat der Mensch schon länger. Volkszählungen, botanische und zoologische Klassifikationen, Kataloge, Datenbanken – all das gab es schon lange, bevor der Computer und das Internet die Welt veränderten.

Bevor wir Informationen digital speichern konnten, war Papier ein viel verwendeter Datenspeicher. Der Bestand der legendären Bibliothek von Alexandria, zum Beispiel, wird zur Zeit von Ptolemaios (284-222 v. Chr.) auf 400.000 bis 700.000 Werke geschätzt. Die russische Staatsbibliothek in Moskau verzeichnet heute einen Bestand mit über 43 Millionen Publikationen.

Der Hang, Informationen zu sammeln, zu strukturieren und auszuwerten, der scheint uns also mitgegeben. Mit Beginn der 2000er Jahre nimmt das Ganze dann aber neue Dimensionen an.

Der Begriff "Big Data" selbst geht wohl auf den Programmierer John Mashey zurück. Er prägte ihn angeblich Mitte der 1990er Jahre beim Mittagessen in der Kantine eines großen Computerherstellers. John Mashey ahnte schon früh, was sich später bewahrheiten würde. Er beschrieb, dass Computer bald an die Grenze ihrer Rechenleistung stoßen würden, weil die Daten, die wir produzieren, immer mehr werden.

Das ist Big Data

Wenn in den Medien von "Big Data" die Rede ist, sind oft verschiedene Dinge gemeint.

Technologie-Ebene: Zum einen kann "Big Data" für die technischen Tools stehen, die entwickelt und genutzt werden, um die Unmengen an Daten zu verarbeiten. Dabei durchforsten zum Beispiel spezielle Algorithmen riesige Datenkomplexe, decken Muster auf und erkennen Zusammenhänge. Diesen Vorgang nennt man auch "Data Mining" (deutsch "Datenförderung").

Datenebene: Meistens sprechen Menschen von "Big Data", wenn sie die immer größer werdenden Datenansammlungen meinen, die wir als Menschheit produzieren. Der Informatiker Doug Laney formulierte Anfang der 2000er seine Definition von Big Data, die heute oft als Grundlage dient. Es handelt sich um das so genannte 3-V-Modell. Demnach hat Big Data vor allen Dingen drei Eigenschaften:

Volume (Masse)
Viele Menschen auf dieser Welt produzieren und tauschen jeden Tag große Mengen an Daten aus. Datenmengen in diesem Umfang lassen sich erst durch den Einsatz moderner Technologien wie Hadoop bewältigen.
Velocity (Geschwindigkeit)
Die Geschwindigkeit, mit der die Datenmengen verarbeitet werden, ist so schnell wie nie. Oftmals werden die Daten in Echtzeit verarbeitet und übermittelt.
Variety (Vielfalt)
Durch unterschiedliche Endgeräte und verschiedene Programme und Apps entstehen sehr viele unterschiedliche Datenformate wie Ton-, Audio, Video- oder Zahlenformate.

Chancen von Big Data

Die Unmengen an Daten, die wir in rasender Schnelle produzieren, bringen Vor- und Nachteile mit. Auf der positiven Seite erlauben sie, dass wir Zusammenhänge erkennen, die wir ohne Datenberg und passenden Algorithmus nie gesehen hätten. So können Algorithmen heute schon einen sich anbahnenden Herzinfarkt erkennen, lange bevor ein Arzt wissen kann, dass er kommt. Das ist möglich, weil der Algorithmus zuvor viele, viele Patientendaten ausgewertet hat und Muster erkennt, die dem menschlichen Auge verborgen bleiben. Mehr zum Einsatz von Algorithmen in der Medizin erfahren Sie im Artikel Dr. Algo – Algorithmen in der Medizin.

Risiken von Big Data

Aber schon heute ist klar: Die Daten, die wir produzieren, werden nicht nur ausgelesen, um Krankheiten zu heilen und die Welt zu retten. Große Unternehmen haben großes Interesse an den Datensätzen. Denn sie enthalten Gold. Datengold, um genau zu sein. Wenn werbetreibende Unternehmen Ihre Bewegungen im Internet über Jahre verfolgen, sehen, was Sie auf verschiedenen Webseiten treiben, alle Daten auswerten, ein umfassendes Kundenprofil anlegen und Ihnen dann passende Werbung anzeigen, dann wird es eng für Ihre Privatsphäre. Und das ist kein Szenario aus der Zukunft, sondern gängige Praxis.

Die Datenschutz-Grundverordnung (DSGVO) hat viel zum Positiven verändert. Das seit 2018 geltende Gesetz verlangt, dass Anbieter Ihre Zustimmung einholen müssen, bevor sie deine Bewegungen mit Hilfe von Cookies aufzeichnen. Außerdem können Sie Ihre gesammelten Daten bei jedem Unternehmen und jeder Behörde jederzeit einsehen und gegebenenfalls löschen oder korrigieren lassen.

Wo sind die ethischen Grenzen?

Einigen Experten wie Viktor Mayer-Schönberger vom Internet Institute der Universität Oxford geht die DSGVO nicht weit genug. Seine Befürchtung: Die DSGVO schützt uns eher theoretisch als praktisch, da wir im Alltag nicht die Zeit haben, um auf jeder Webseite ein informiertes Häkchen zu setzen. Daten über uns werden gesammelt und ausgewertet, das ist Fakt. Gesellschaftlich betrachtet ist die Frage, ob wir das Datensammeln erlauben möchten, also eher zweitrangig. Entscheidender ist, so Mayer-Schöneberger, die Diskussion, die fragt: Welche Vorhersagen aus den gesammelten Daten wollen wir erlauben? Und welche nicht?

Algorithmen, die die Freiheit rauben

Ein Beispiel: In den USA wird in über der Hälfte der Bundesstaaten ein Algorithmus eingesetzt, um zu entscheiden, ob eine Person auf Kaution freikommt. Der Algorithmus errechnet die Wahrscheinlichkeit, ob jemand in den kommenden Monaten in ein Kapitalverbrechen verwickelt sein wird. Und entscheidet dann, ob jemand inhaftiert bleibt oder nicht. Faktisch bedeutet das: Einer Person wird ihre Freiheit genommen, weil ein Computer berechnet, dass es möglich sein könnte, dass er oder sie ein Verbrechen begeht. Und nicht, weil ein Verbrechen geschehen ist. Dass dieses System ethisch fragwürdig und fehleranfällig ist, zeigt unter anderem der Fall eines 33-jährigen Afroamerikaners. Eine Gesichtserkennungssoftware identifizierte ihn fälschlicherweise als tatverdächtig. Ein Algorithmus verhinderte seine Freilassung auf Kaution.

Politische Diskussion notwendig

Zunehmend werden Entscheidungen über Verbraucher durch Algorithmische Systeme (ADM) und Künstliche Intelligenz (KI) getroffen oder vorbereitet, so etwa auch bei Scoring-Verfahren im Finanzbereich. Verbraucherentscheidungen werden immer öfter durch KI-basierte Empfehlungssysteme und Sprachassistenten wie Alexa oder andere Dienste beeinflusst. Ob Amazon, Zalando oder andere Händler Ihnen die passenden Bücher und Schuhe empfehlen, hat nur geringfüge Auswirkungen auf Ihr Leben. Anders sieht es aus, wenn ein Algorithmus berechnet, dass Sie eine Lebensversicherung nicht bekommen, vielleicht weil die Auswertung Ihrer Gesundheitsdaten nichts Gutes verspricht.

Menschen misstrauen Algorithmen und KI-Anwendungen oft zu Recht: Aufgrund ihrer Intransparenz ist selbst für Expert:innen kaum nachzuvollziehen, ob die Systeme Fehlentscheidungen treffen oder gegen Gesetze verstoßen, etwa hinsichtlich des Diskriminierungsverbots oder der Beeinflussung und Irreführung von Verbrauchern.

Deshalb sind die Verbraucherzentralen überzeugt, dass die gesellschaftliche und politische Diskussion zum Thema Algorithmenkontrolle längst überfällig ist. Als Gesellschaft müssen wir entscheiden, welche Vorhersagen aus der Analyse von großen Datenmengen wünschenswert sind. Und der Gesetzgeber muss festlegen, wie die Nutzung von Algorithmen bei der Auswertung von sensiblen Daten kontrolliert werden kann. Mehr dazu erfahren Sie im Artikel Sensible Daten – das sollten Sie wissen.