Big Data in der Webanalyse

Tobias Aubele

Dr. Tobias Aubele ist Professor für E-Commerce an der Hochschule für angewandte Wissenschaften Würzburg-Schweinfurt und Berater für Webcontrolling (u. a. „Deutschlands bester Conversion Optimierer 2018“ sowie „CRO Practitioner of the year 2020“). Er lehrt das Themenumfeld Conversion-Optimierung, Usability und Webanalytics im Studiengang E-Commerce. Zuvor war er viele Jahre in einem internationalen Multi-Channel-Unternehmen in diversen Führungspositionen tätig, zuletzt als Bereichsleiter E-Commerce.

Mehr von diesem Autor Artikel als PDF laden

Die Aussage „Gott würfelt nicht“, welche Albert Einstein zugeschrieben wird, ist sicher gewagt, dennoch zeigt sie, welche mächtigen Möglichkeiten der Statistik seit jeher zugeschrieben werden. Aufgrund einer kontinuierlichen Entwicklung der technischen und statistischen Möglichkeiten erschließen sich durch Big Data für die Webanalyse ungeahnte Einblicke in die Kunden bzw. potenziellen Kunden. Sei es die Optimierung von Marketingausgaben, die Prognose von Zahlungsstörungen oder das frühzeitige Erkennen und Bewerten von einschneidenden Veränderungen: Big Data kann hierfür eine ausgezeichnete Quelle sein.

Webanalyse ist seit Jahren die Basis aller E-Commerce-Aktivitäten und ihr Detaillierungsgrad bietet einen großen Vorteil gegenüber der traditionellen Werbung via Katalog oder Zeitungsanzeige. Mittels technischer Systeme lassen sich Online-Marketing-Maßnahmen sehr granular messen. Jede Mausbewegung, jeder Klick bzw. jedes ausgespielte Banner (View) kann aufgezeichnet werden und liefert dadurch eine umfassende Erfolgsbetrachtung sowie die Basis für zukünftige Entscheidungen. Dennoch wird in vielen Unternehmen nur ein Bruchteil der zur Verfügung stehenden Daten genutzt und schwache Signale, welche in den Daten versteckt sind, bleiben unerkannt.

Analysten erzeugen aus Daten Erklärungen

Die besondere Macht von Daten wird deutlich, wenn nicht nur über die Vergangenheit berichtet wird, sondern im Idealfall Erklärungen möglich sind und Prognosen erstellt werden können. Analysten haben in den Unternehmen die Möglichkeit, aus Tausenden von Interaktionen wie bspw. Einkäufen Profile abzuleiten und anschließend sehr passende, personalisierte Angebote zu unterbreiten. So wusste der Analyst eines Einzelhändlers noch vor dem Vater, dass dessen Tochter schwanger war. Basierend auf einer Veränderung ihres Einkaufverhaltens (v. a. unparfümierte Seife, viele Wattebällchen) konnte ihre Schwangerschaftswoche relativ genau prognostiziert werden. Sie bekam anschließend automatisch über den Algorithmus passende Gutscheine für Babyprodukte zugesendet. Der Vater beschwerte sich beim Händler über die sehr unpassende Werbung. Zu Unrecht, wie sich für ihn später herausstellte. Tipp: Weitere interessante Einblicke zur Vorhersage von Kundenverhalten siehe einfach.st/nyt3.

Wie jede Technologie unterliegt die Webanalyse ebenfalls einem Wandel bzw. einer Reifung (siehe Abb. 1). Infolge der Vielfältigkeit verfügbarer Datenquellen sowie des technischen Fortschritts hat sich in den letzten Jahren die Webanalyse massiv verändert. Diese Entwicklung soll im weiteren Verlauf kurz beleuchtet werden. Anschließend wird auf die erweiterten Möglichkeiten durch Big Data eingegangen.

Reifegrad der Webanalyse

Die E-Commerce-Welt wird immer komplexer. Neue Online-Marketing-Möglichkeiten erblicken in immer kürzeren Zyklen das Licht der Welt. Damit wird die Chance, das Geld ohne umfassende Datenanalyse „richtig“ zu investieren, statistisch gesehen immer geringer. Kommen durch Multi-Channel-Organisation noch Kataloge und Filialen ins Spiel, wird es für den Händler interessant: In welchen Kanal investiere ich welchen Anteil meines Budgets? Wo erreiche ich meine Zielgruppe am besten? Welchen prozentualen Anteil meiner Zielgruppe erreiche ich derzeit über welchen Kanal? Und anschließend die finale Frage im E-Commerce: Welcher Anteil des Budgets entfällt auf die Teilfunktionen CRO, SEA, SEO, RTB etc.? Es stellt sich die Frage, ob in all dieser Komplexität das eingesetzte Business-Intelligence- oder Webanalyse-Tool die einzige Quelle der Wahrheit ist bzw. sein kann. Eher nicht, da das Bild des Kunden nur klarer wird, wenn er aus verschiedenen Blickwinkeln betrachtet wird. Google Analytics zeigt nur, welche Seiten aufgerufen wurden, jedoch nicht, was der Kunde gern aufgerufen hätte und was er in Zukunft voraussichtlich erwartet.

Multiplicity – Datenvielfalt als Schlüssel der Erkenntnis

Die (Daten-)Vielfalt – Multiplicity – ist nach Avinash Kaushik, Autor der Pflichtlektüre Web Analytics 2.0, das Zauberwort. Dieser Ansatz steht inhaltlich als krasser Gegensatz zum klassischen Data-Warehouse, bei dem versucht wird, alles zentral in einer Datenbank zu speichern. Für E-Commerce-Verantwortliche sind insbesondere unstrukturierte Daten anderer Quellen (Facebook, Twitter, Blogs, Bewertungen) von besonderer Bedeutung, da sie in großem Maße qualitative Aussagen zum Unternehmen bzw. zur eigenen Person treffen bzw. offenbaren. In den klassichen ERP-Systemen sind hierfür meist keine Eingabefelder vorgesehen ;-)

Nach Kaushik ist das Ziel klar: Im Idealfall wollen erfolgreiche Webseitenbetreiber zwei Fragen an den Besucher positiv beantwortet haben und ihn damit zufriedenstellen bzw. zum Kunden konvertieren:

1. Warum bist du hier?
2. Warst du in der Lage, dein Anliegen/deinen Wunsch zu erfüllen? Wenn nein, warum nicht?

That´s it! Wenn das gelingt, hat die Webseite die Aufgabe zu 100 % erfüllt Um dies tun zu können, müssen die Händler die Kunden verstehen: Sie müssen mit ihnen statt zu ihnen sprechen. Dieser Unterschied beeinflusst den Erfolg maßgeblich. Hier bedarf es der Analyse, der qualitativen Befragung und des Testens. Darüberhinaus sind „leider“ die Mitbewerber permanent zu berücksichtigen, da sie selbst mit proaktiv an Optimierungen arbeiten. Um erfolgreich zu sein, bedarf es damit der Analyse/Berücksichtigung vieler Daten aus möglichst vielen unterschiedlichen Quellen.

Die Elemente und Denkweise der Webanalyse 2.0

Waren es zu Beginn die Klicks, die für die Webanalysten als alleiniger Indikator galten, sind es heute Erkenntnisse aus sowohl quantitativen als auch qualitativen Daten. In einem kontinuierlichen Prozess versuchen die Unternehmen, so viel wie möglich von der Zielgruppe, den Menschen, zu erfahren und ihre Aktivitäten auf deren Bedürfnisse auszurichten. Mittels klassischer Tracking-Tools wie Google Analytics, der Berücksichtigung vorhandener Kundendaten aus dem ERP bzw. Data-Warehouse sowie Befragungen und Webseiten-Tests wird versucht, tiefe Einblicke in den (potenziellen) Kunden zu bekommen. Idealerweise stehen dem Unternehmen Personas bzw. Erkenntnisse aus dem Neuromarketing als hilfreiche Hypothesengeneratoren für Test zur Verfügung. Tools wie bspw. Sistrix und Searchmetrics bieten eine hervorragende Datengrundlage, die Entwicklung des Marktes/der Mitbewerber und damit den eigenen relativen Standort zu bestimmen. Kaushik spricht hier von Webanalye 2.0, der datengetriebenen, kontinuierlichen Weiterentwicklung der Unternehmensaktivitäten, bei der die Kunden den Ton angeben (siehe Abb. 2). Unternehmen, die den Sprung in die Denkweise von Webanalyse 2.0 noch nicht gewagt haben, verschenken mit großer Wahrscheinlichkeit ein enormes Potenzial.

Abb. 2: Web Analytics 2.0 (Bildquelle: www.kaushik.net)

Predictive Analytics – der Blick in die Zukunft

Die Vergangenheit kann gut durch die deskriptive Webanalyse dargestellt werden. Die Webanalyse 2.0 eröffnet durch die bessere Kenntnis der Zielgruppe und des Marktes Indizien, was auch in Zukunft bedeutsam wird. Schwierigkeiten bereitet immer der möglichst exakte Blick in die Zukunft. Im E-Commerce stellen sich hierzu bspw. Fragen nach der Kaufwahrscheinlichkeit neuer Artikel, der Zahlungswahrscheinlichkeit des Kunden, der möglichen Abwanderungsgefahr zum Mitbewerber. Neben der Zuverlässigkeit der Prognose werden diese Fragen im Idealfall in sehr schneller Zeit beantwortet. Wenn der Kunde am Telefon ist, sollte das System in Realtime Empfehlungen bzw. Angebote unterbreiten, um bspw. den Wechsel zum Mitbewerber zu verhindern oder ein Up-selling zu ermöglichen. Um Erfolg zu haben, ist Relevanz in kurzer Zeit gefragt.

Für statistisch valide Vorhersagen zukünftiger Entwicklungen werden meist Algorithmen/Methoden aus dem Bereich des Data-Minings eingesetzt. Klassische Beispiele sind Regressionen, Entscheidungsbäume oder neuronale Netze. Gemeinsam ist diesen Methoden, dass die Maschine mittels historischer Daten versucht, ein Muster zu erkennen, welches bspw. einen Käufer vom Nichtkäufer unterscheidet/diskriminiert. Diese Muster münden in ein Modell. Das Modell bekommt in Trainingsdaten Informationen zu Kunden und jeweils die Information, ob der Kauf stattfand oder nicht. Die Maschine lernt selbstständig und entwickelt schlussendlich das Modell sukzessive weiter.

Neuronale Netze als Möglichkeit der Prognostizierung

Unternehmen setzen neuronale Netze bspw. zur Absatzprognose je Artikel, Adressselektion für Print-Anstöße oder Personaleinsatzplanung im Call-Center bzw. in der Filiale ein. Neuronale Netze bilden die Funktionsweise des menschlichen Gehirns nach und suchen nach Verbindungen, die für einen Kauf/Nichtkauf sprechen. Hierbei wird das System mit einer Vielzahl historischer Daten (Variablen) gespeist. Über ein Training ergibt sich eine modelltechnisch optimale Topologie, d. h. eine Struktur des Netzwerkes mit einer oder mehreren verdeckten Schichten und den jeweiligen Gewichten der Einflussvariablen (siehe Abb. 3). Wendet man anschließend neue, unbekannte Daten an, kann eine statistische Zielprognose über Kauf/Nichtkauf abgegeben werden.

Abb. 3: Schematischer Aufbau eines neuronalen Netzes

Tipp

Die kostenlosen Open-Source-Softwares R (http://www.r-project.org/) oder RapidMiner (http://rapid-i.com/) können interessante Alternativen zu kostenpflichtigen statistischen Programmen wie SPSS sein.
Des Weiteren stellt die berühmte Universität von Stanford ein kostenloses umfassendes E-Book „Mining of massive Datasets“ zur Verfügung (http://einfach.st/ilab5).

Was ist Big Data und welche Möglichkeiten ergeben sich daraus?

Wie bereits angesprochen, entwickelt sich die Webanalyse kontinuierlich weiter und bekommt durch Big Data kompetente Unterstützung, insbesondere für den Bereich der Prognosen. Leider nutzen nur wenige Firmen intensiv die Möglichkeiten von Big Data. Doch was bedeutet Big Data, das derzeit euphorisch als „das neue Öl“ (Clive Humby) bezeichnet wird? „Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it …” (Dan Ariely).

Big Data ist dadurch gekennzeichnet, dass es sich um sehr große Datenmengen handelt, die aus vielen Quellen in strukturierter und unstrukturierter Weise vorliegen und schnell erhoben bzw. verarbeitet werden. Der Begriff ist damit relativ gemeint, da es keine definierte Größe an Tera- oder Petabyte gibt, ab wann von Big Data gesprochen wird. Gekennzeichnet ist Big Data durch die 3 V – Volume, Variety und Velocity. Die Herausforderung ist dabei nicht die Speicherung der Vielzahl von Daten, welche in den letzten Jahren deutlich kostengünstiger möglich wurde, sondern Methoden zu finden, welche schwache Signale aus der Vielzahl an Daten extrahieren. Bestehende Daten werden darüber hinaus sukzessive erweitert (bspw. Wetter, Kaufkraft, Social Media). Dieser Prozess sollte dabei möglichst in Echtzeit stattfinden.

Kontinuierliche Erweiterung der Datenbasis, insbesondere durch unstrukturierte Daten

Unternehmen haben in Ihren ERP bzw. Shopdatenbanken meist sehr strukturierte Daten vorliegen, auf die in den Analysen zurückgegriffen wird. Strukturierte Daten folgen einem definierten Format, wohingegen unstrukturierte Informationen inhaltlich nicht klassifiziert sind. Dies bedeutet, dass zusätzlich zur eigenen Webseite einem Unternehmen sehr viele Informationen vorliegen (bspw. aus Social Media, Kundenbriefen, Befragungen, statistischen Ämtern, Public Data), deren Inhalt bislang nicht in der klassischen Analyse berücksichtigt wurde. Es muss im ersten Schritt die technische Grundlage bei den Unternehmen geschaffen werden, damit auch sehr große Mengen von unstrukturierten Daten sinnvoll verarbeitet werden können. Gleichzeitig müssen umfassende Berechnungen zeitkritisch durchführbar sein, was im Normalfall durch eine parallele Verarbeitung und Virtualisierung der technischen Infrastruktur gewährleistet wird. Im Hinblick auf (Web-)Analyse hat sich die Technologie in den letzten Jahren massiv geändert. Folgende Entwicklungen begünstigen den derzeitigen Fortschritt mittels Big Data:

1. Cloud Computing und günstig werdende Hardware. Unternehmen können eine flexible Infrastruktur kostengünstig mit hoher Ausfallsicherheit nutzen und dabei nahezu beliebig skalieren. Amazon und Google bieten hier umfassende Services an.
2. Nicht-relationale Datenbanken. Diese Datenbanken folgen nicht der klassischen Tabellen und Schlüssel-Logik und verarbeiten damit die Daten schneller und skalieren besser. Beispiele sind MongoDB und CouchDB (jeweils Open Source) sowie HBase.
3. Hadoop. Hadoop ist ein Open-Source-Framework (http://hadoop.apache.org/), welches große Datenmengen (strukturiert und unstrukturiert) über verteilte Cluster mittels des MapReduce-Algorithmus berechnen kann. Server können durch Redundanzen flexibel hinzugefügt bzw. entfernt werden.
4. Open Source. Es gibt sowohl für Datenbanken/Systeme als auch für Analysezwecke den Trend zur „kostenlosen“ Software, die von einer riesigen Anzahl von Entwicklern, der Community, permanent erweitert und verbessert wird.

Welche Vorteile bietet Big Data für die (Web-)Analyse

1. Schnelle Verarbeitung mit Rohdaten/beliebigen Segmenten
Ad-hoc-Auswertungen und spezielle Fragestellungen gehören zur täglichen Arbeit von Webanalysen. Um sinnvolle Aussagen (über die Zukunft) treffen zu können, sollten zum einen viele Datenquellen und zum anderen immer die jeweilige Nutzungssituation des Besuchers berücksichtigt werden (bspw. mobil, wiederkehrend). Segmente bzw. Filter führen zu sehr performanceintensiven Auswertungen bzw. mit der großen Anzahl an Daten kommen viele Analysesysteme nicht zurande und berechnen entweder über Stichproben bzw. mit extrem langen Verarbeitungszeiten. Aufgrund der technologischen und algorithmischen Weiterentwicklungen kann durch Big Data auf alle Daten zurückgegriffen werden, was zu tieferen Einblicken führt. Gleichzeitig erhält man breitere Einsicht, da neue Datenquellen in Betracht gezogen werden können.

2. Generierung von Wissen durch inhaltliche Textanalyse/Muster
Ein großer Teil der gespeicherten Daten liegt unstrukturiert in textueller Form vor (Social-Media-Daten, Kundenbewertungen, Briefe etc.). Mittels Algorithmen können die relevanten Informationen extrahiert und inhaltlich bewertet werden. Den Unternehmen steht damit eine Vielzahl zusätzlicher Informationsquellen zur Verfügung, die bislang noch nicht bzw. ungenügend in die Analysen einflossen. Insbesondere die Daten und die Verarbeitungsgeschwindigkeit von Social Media („Wer spricht wie über mich?“) sind für ein Unternehmen von großer Bedeutung.

3. Frühwarnsystem
Durch die Vielzahl zur Verfügung stehender Daten können schwache Signale aus den Daten besser abgeleitet bzw. überhaupt entdeckt werden. Teilweise sind Veränderungen erst sichtbar, wenn sie über a) einen langen Zeitraum und b) aus verschiedenen Perspektiven betrachtet werden. Durch die Möglichkeit, auf eine weite Zeitstrecke in Kombination mit Visualisierungstechniken von Big Data zurückzugreifen, werden positive und negative Entwicklungen sichtbar, die mit der herkömmlichen Technologie nicht erkannt würden.

4. Optimierung Predictive Analytics hin zu Prescriptive Analytics
Data-Mining und Predictive Analytics sollten in keiner Toolbox von (Web-)Analysten fehlen. Die Kombination mit Big Data bietet die Möglichkeit, noch bessere Ergebnisse zu erlangen, da deutlich mehr Daten im Modell eingesetzt werden können. Darüber hinaus können diverse analytische Modelle und Berechnungen kombiniert werden, was zu einer weiteren Steigerung der Qualität der Vorhersage führt. Der nächste große Schritt der Analyse, Prescriptive Analytics, wird maßgeblich durch Big Data eröffnet. Es geht hierbei nicht mehr nur darum, die Zukunft vorherzusagen, sondern die Ergebnisse der Vorhersage und deren Auswirkungen zu beurteilen. Im Idealfall stehen als Ergebnis der Vorhersage/Simulation mehrere Möglichkeiten zur Verfügung, die es inhaltlich zu bewerten gilt. Prescriptive Analytics liefert damit Antworten auf die Frage: Was ist die beste Lösung? Was wäre die beste Wahl unter den möglichen? Welche Vorteile und Risiken sind jeweils damit verbunden?

Umsetzung

Big Data und die erweiterten Möglichkeiten der Analyse können mittels einer Vielzahl von Open-Source-Systemen/-Software betrieben werden. Ein effizienter und effektiver Einsatz setzt umfassendes technisches und statistisches Wissen voraus. Das bedeutet, jedes Unternehmen muss für sich entscheiden, ob, wann und wie es sich mit den Möglichkeiten von Big Data beschäftigt. Neben unzähligen Quellen im Netz bieten diverse Anbieter die Möglichkeit, bei der individuellen Big-Data-Implementierung bzw. Strategiefindung zu beraten.

Tipp

Der BITKOM-Arbeitskreis Big Data bietet als Ausgangspunkt einen kostenlosen Leitfaden mit Praxisbeispielen auf 82 Seiten an (http://einfach.st/bitkom3).

An dieser Stelle ein kurzer Hinweis zum Datenschutz: Nicht jede Datenquelle, die verarbeitet werden kann, darf nach deutschem Recht verarbeitet werden. Eine rechtliche Prüfung, welche Daten erhoben und wie sie verarbeitet werden sollen, ist damit unerlässlich.

War for Talents – der Data Scientist

Mit Big Data können Unternehmen sehr viel Geld einsparen bzw. verdienen, am Ende bzw. am Anfang sind es jedoch immer Menschen, die die Intelligenz in die Systeme einbringen bzw. umsetzen. Big Data bzw. moderne (Web-)Analyse benötigt Menschen, die einen bunten Strauß an Fähigkeiten mitbringen.

"Sexiest Job oft the 21st century?"

Das sind sowohl technische, betriebswirtschaftliche als auch mathematische Facetten, die ein idealer „Data Scientist“ zeigen sollte, in dem lt. Harvard Business Review „sexiest job of the 21st century“. Diese Spezialisten werden in der Zukunft sicher sehr gesucht und daher besteht dringender Handlungsbedarf in den Unternehmen, diese Menschen zielgerichtet zu suchen und zu entwickeln. Kaushik forderte bereits 2006 die 10/90-Regel. Für jeweils 10 €, die die eingesetzte Analysetechnik kostet, sollten zusätzlich 90 € in „intelligente Ressourcen/Analysten“ investiert werden. Im Zeitalter von Big Data und Predictive Analytics mag dies zwar veraltet klingen, da viele Entscheidungen durch maschinelles Lernen vorbereitet werden. Schlussendlich sind es immer die Menschen, die Algorithmen aufstellen, modifizieren und die Analysen bewerten.

Fazit

Durch die neuen Technologien besteht die Möglichkeit, umfassend Daten aller Art relativ kostengünstig und schnell zu generieren, auszuwerten und für die Unternehmensentwicklung einzusetzen. Chancen und Risiken können frühzeitig erkannt werden und damit kann ein enormer Wettbewerbsvorteil generiert werden. Die Kombination des Wissens und der Fähigkeiten der IT, des Analysebereiches und der Vertriebswelt kann Zusammenhänge offenbaren, was das Unternehmen nachhaltig positiv beeinflusst. Schafft es das Unternehmen, nicht nur die Zukunft abzusehen, sondern kundenindividuelle Strategien der Kundenüberzeugung zu schaffen (predictive persuasion), sieht es positiven Zeiten entgegen. Dass dies keine Fiktion ist, hat Obama in seinem Wahlkampf gezeigt, der maßgeblich durch Big Data beeinflusst wurde. Hier wurde nichts dem Zufall überlassen.

In diesem Sinne: Überlassen auch Sie nichts dem Zufall. Befassen Sie sich mit der Zukunft. Jetzt.

Name	Zweck	Ablauf	Typ	Anbieter
CookieConsent	Speichert Ihre Einwilligung zur Verwendung von Cookies.	1 Jahr	HTML	Website
fe_typo_user	Ordnet Ihren Browser einer Session auf dem Server zu. Dies beeinflusst nur die Inhalte, die Sie sehen und wird von uns nicht ausgewertet oder weiterverarbeitet.	Session	HTTP	Website

Name	Zweck	Ablauf	Typ	Anbieter
_gcl_au	Wird von Google AdSense zum Experimentieren mit Werbungseffizienz auf Webseiten verwendet.	3 Monate	HTML	Google
AMP_TOKEN	Enthält einen Token, der verwendet werden kann, um eine Client-ID vom AMP-Client-ID-Dienst abzurufen.	1 Jahr	HTML	Google
_dc_gtm_--property-id--	Wird von DoubleClick (Google Tag Manager) verwendet, um die Besucher nach Alter, Geschlecht oder Interessen zu identifizieren.	2 Jahre	HTML	Google