Statistik und Web Analytics: Wann brauche ich was?

Was macht Statistik eigentlich?

Das Wort Statistik kann viele Bedeutungen haben. Eine dieser Bedeutungen – und zwar jene, auf die ich mich hier beziehe, ist das Schließen von einer Stichprobe auf eine dahinterliegende Grundgesamtheit. Genau genommen wird diese Art von Statistik „Inferenzstatistik“ genannt. Am Beginn einer jeden Untersuchung, wissenschaftlich oder nicht, steht ein Erkenntnisinteresse. Es gibt Einheiten, über die ich etwas wissen möchte, wie zum Beispiel die Besucher einer Website. Die Idee bei der Statistik ist es, sich anstelle aller Einheiten nur einige wenige stellvertretend anzusehen. Untersucht werden also nur einige Einheiten einer klar definierten Stichprobe. All das geschieht mit dem Ziel, zumindest mit einer gewissen Genauigkeit Aussagen über die Grundgesamtheit treffen zu können, ohne die Kosten einer Totalerhebung der Grundgesamtheit tragen zu müssen.

Ganz wichtige Konzepte hierbei sind die Stichprobenvarianz, die Schwankungsbreite und die statistische Signifikanz. Was bedeuten sie?

Stichprobenvarianz

Wenn wir uns ein Merkmal, zum Beispiel die Sitzungsdauer, ansehen, dann ist die natürlich bei jedem Besucher einer Website anders. Man kann zwar eine durchschnittliche Sitzungsdauer berechnen, aber keiner der Besucher wird genau den Durchschnitt erfüllen. Manche werden längere, andere kürzere Sitzungen haben. Das Phänomen, das nicht alle so sind wie der Durchschnitt, nennen Statistiker gerne Varianz. Alle anderen sagen dazu auch Streuung. Und nicht nur die Einheiten der Grundgesamtheit streuen – nein, natürlich auch die Einheiten der Stichprobe und zwar rund um den sogenannten Stichprobenmittelwert.

Schwankungsbreite

Weil unsere Beobachtungen also streuen, sind Aussagen zu denen wir dank einer Stichprobe kommen auch mit einer Unsicherheit behaftet. Wir könnten beim Auswählen der Stichprobe schließlich auch Pech haben und zufälligerweise nur solche Besucher erwischen, die besonders kurz auf unserer Website waren. Dann würde der Stichprobenmittelwert auf eine kurze Sitzungsdauer hinweisen. Allerdings ist es schon recht unwahrscheinlich, nur solche mit kurzer Sitzungsdauer bei der Stichprobenziehung auszuwählen. Je extremer die Ergebnisse, desto unwahrscheinlicher ist es, dass die Stichprobe nur aus solchen extremen Beobachtungen besteht. Deshalb wird bei statistischen Kennzahlen auch immer die Schwankungsbreite mit angegeben. Diese gibt uns einen Bereich an, in dem mit der üblichen 95-prozentigen statistischen Sicherheit der tatsächliche Durchschnitt der Grundgesamtheit liegen dürfte.

Wenn ich also eine Stichprobe ziehe, um die durchschnittliche Besuchszeit auf meiner Website herauszufinden, könnte ich beispielsweise feststellen, dass die durchschnittliche Sitzungsdauer auf meiner Website bei 12 Minuten +/- 2 Minuten Schwankungsbreite liegt. Mit dieser Erkenntnis kann ich dann sagen, dass die durchschnittliche Sitzungsdauer bei allen Websitebesuchern mit 95 prozentiger statistischer Sicherheit zwischen 10 und 14 Minuten beträgt.

Statistische Signifikanz

Soweit so gut. Oftmals interessieren uns aber eher Unterschiede zwischen Gruppen, zum Beispiel ob meine Zielgruppe der 18-34 Jährigen länger auf meiner Website bleibt als die älteren Besucher oder nicht. Wenn wir hier auf Basis von Stichproben arbeiten, dann kommt wieder die Statistik ins Spiel. Beim Gruppenvergleich passiert im Wesentlichen nichts anderes als das Berechnen des Stichprobenmittelwerts und seiner Schwankungsbreite – in dem Fall separat für jede der zu vergleichenden Gruppen. Wenn sich die Intervalle aus Mittelwert und Schwankungsbreite nicht überschneiden, dann kann man die Aussage treffen, dass der Unterschied aller Wahrscheinlichkeit nach nicht nur in der Stichprobe, sondern auch in der Grundgesamtheit zu finden sein wird.

Es sollte eigentlich schon klar geworden sein, aber zur Sicherheit nochmal: Es ist durchaus möglich, dass ein Unterschied nicht in der Stichprobe auftritt, aber schon in der Grundgesamtheit zu finden ist. Das ist wieder das bekannte Pech beim Ziehen der Stichprobe. Wenn wir Pech haben, dann Ziehen wir bei der jungen Zielgruppe und bei der alten Zielgruppe immer solche, die nur kurz auf der Website waren. Dann käme in der Stichprobe kein Unterschied heraus, obwohl er in der Grundgesamtheit besteht. Das Gleiche gibt es freilich auch umgekehrt: in der Stichprobe tritt ein Unterschied auf, der in der Grundgesamtheit gar nicht existiert. Das ist wieder ein Pech. Aber die statistische Signifikanz hilft uns festzustellen wie wahrscheinlich es ist, dass wir Pech haben, oder nicht.

Und genau das versteht man unter statistischer Signifikanz – nur in eine Zahl (den p-Wert) gegossen. Je kleiner der p-Wert ist, desto sicherer kann man sein, dass der Unterschied nicht nur in der Stichprobe besteht.

Wann brauchen wir Statistik und wann nicht?

Die Antwort auf die Frage, wann wir Statistik bei Web Analytics einsetzen können, ist eigentlich ganz einfach: Das hängt nämlich davon ab, ob die Daten, die es zu analysieren gilt, eine Stichprobe aus einer größeren Grundgesamtheit sind oder die Grundgesamtheit an sich. Das Problem allerdings ist, dass man das oft gar nicht so einfach sagen kann. Es hängt auch sehr stark von der Fragestellung ab.

Es gibt vier typische Fragestellungen:

Aussagen über einen bestimmten Zeitraum

Bei Aussagen über einen bestimmten Zeitraum möchte ich wissen, wie stark ein Merkmal in dem Zeitraum aufgetreten ist. Z.B. wie viele Besucher hatte meine Website in den letzten 30 Tagen. Hierfür brauche ich üblicherweise keine Statistik. Vielmehr wird man sich den gesamten Zeitraum ansehen und das Resultat als solches akzeptieren. Keine Schwankungsbreiten, keine Signifikanzen. Theoretisch wäre es möglich, diese Aussage auch auf Basis einer Stichprobe zu treffen. Also zuerst wählt man nach dem Zufallsprinzip einige Tage aus, dann wird über diese ausgewählten Tage der Mittelwert berechnet und schließlich die Schwankungsbreite bestimmt. Wie gesagt, technisch möglich, aber es gibt keinen Grund so vorzugehen, denn jedes Analysetool kann die Zahlen der letzten 30 Tage quasi auf Knopfdruck bereitstellen.

Vergleich zweier Zeiträume

Hier wird es nicht wesentlich spannender. Wenn ich wissen möchte, ob meine Website im letzten Monat noch stärker gewachsen ist als im Vormonat, dann operiere ich wieder mit der Grundgesamtheit. Ich berechne die Summe aller Besucher im letzten Monat und auch die Summe aller Besucher im Monat davor. Es wird also keine Stichprobe gezogen und es gibt bei dieser Fragestellung auch keine Schwankungsbreiten und keine Signifikanzen. Unterschiede, die beobachtet werden, sind tatsächliche Unterschiede. Ob ihre Größe praktische Bedeutung hat oder nicht, kann von der Statistik so nicht beurteilt werden.

Vergleich vieler Zeiträume

Spannender wird es, wenn wir mehrere Zeiträume vergleichen wollen. Nehmen wir an, ich betreibe eine international erfolgreiche Website und möchte wissen, ob sich die Nutzungszahlen untertags sehr von denen in der Nacht unterschieden. Hier kann ich wieder anhand der Grundgesamtheit gänzlich ohne Statistik die tägliche Differenz der Tages- und der Nachtbesucher berechnen und dann vergleichen. Wenn ich diese Frage ohne Stichprobe beantworte, dann gilt dasselbe wie oben: keine Stichprobe, keine Statistik.

Ich könnte aber auch eine repräsentative Zufallsstichprobe ziehen und nur für einige Tage die Anzahl der Tages- und Nachtbesucher ermitteln. Dann hilft mir ein statistischer Test, um festzustellen, ob die gefundenen Unterschiede so groß sind, dass ich davon ausgehen kann, dass sie auch in der Grundgesamtheit auftreten (und nicht nur in der Stichprobe). Hier gibt es also eine Stichprobenvarianz (nämlich die jeweilige Streuung unter den Tages- und unter den Nachtbenutzerzahlen), eine Schwankungsbreite (nämlich jener Bereich in dem aller Wahrscheinlichkeit nach die jeweilige Anzahl an Besuchern in der Grundgesamtheit liegen dürfte). Und es gibt auch eine statistische Signifikanz, nämlich jene Sicherheit mit der ich sagen kann, dass der Unterschied, der in der Stichprobe auftrat, auch in der Grundgesamtheit vorkommt.

Vergleich zweier Varianten

Aus statistischer Perspektive am spannendsten ist sicherlich das Experiment, also der Vergleich zweier oder mehrerer Varianten untereinander. Führt z.B. ein Banner zu mehr Umsatz (Conversions mal Wert der Conversion) als ein anderer? Hier haben wir nun das erste Mal einen Fall, bei dem es einfacher ist, diese Frage anhand einer Stichprobe zu beantworten.

Nehmen wir an, ich lasse das Experiment 2.000 Impressions lang laufen: Banner A wird 1.000 Unique Clients gezeigt, und Banner B 1.000 anderen Unique Clients. Danach stelle ich fest, welchen Banner ein Besucher gesehen hat, ob es bei seinem Visit zu einer Conversion kam und schließlich, welchen Wert diese Conversion hatte. Hier können nun für die Banner A-Besucher und die Banner B-Besucher jeweilige Stichprobenmittelwerte, Stichprobenvarianzen und Schwankungsbreiten berechnet werden. Abschließend kann ich mit einem statistischen Test feststellen, ob sich der Umsatz durch Banner A statistisch signifikant vom Umsatz von Banner B unterscheidet. Und nur wenn hier ein statistisch signifikantes Ergebnis vorliegt, kann ich diesen Unterschied auch auf die Grundgesamtheit umlegen. Nur dann kann ich davon ausgehen, dass ein Mehr an Conversions bei den Banner-B-Besuchern der Stichprobe auch in der Grundgesamtheit so zu finden wäre.

Zusammenfassung

Wir haben also gesehen, dass die Anwendung von Statistik in Web Analytics sehr stark von der Fragestellung abhängt. Oftmals kann zur Beantwortung der gesamte Datenbestand herangezogen werden. Dann sind keine statistischen Methoden notwendig. Nur wenn mit Stichproben gearbeitet wird, kommt die Statistik zum Einsatz um festzustellen, ob Erkenntnisse aus der Stichprobe auch auf die Grundgesamtheit übertragen werden können.

Die beschriebenen Vorgehensweisen beziehen sich alle auf die Beschreibung der Vergangenheit. Um Prognosen zu erstellen, also etwa, wie viele Besucher werde ich

in zwei Monaten auf meiner Website haben, kommt statt des klassischen Statistikwerkzeugs jenes der Ökonometrie zum Einsatz.

Und dort gelten eigene Regeln und Vorstellungen. Aber davon ein andermal mehr.

Christoph Waldhauserist Data Scientist bei HEROLD Business Data. Er beschäftigt sich mit der Modellierung von Kundenverhalten und geographischen Gegebenheiten.

Mehr dazu unter: Herold Dialog und Daten