Wann ist Ihr Testergebnis signifikant? Die Statistik hinter dem A/B Test

„Traue keiner Statistik, die du nicht selbst gefälscht hast“ hat Winston Churchill höchstwahrscheinlich nie gesagt. Sehr wohl hört man diesen Satz aber oft im Alltag, wenn die Gültigkeit von statistischen Ergebnissen angezweifelt wird. Und in der Tat: es schadet nie, wenn man weiß, wie ein solches Ergebnis zustande gekommen ist, ganz besonders, wenn man selbst A/B Tests zur Conversion-Optimierung durchführt.

In den unendlichen Weiten des Internets gibt es zahlreiche Onlinerechner, die bestimmen, ob der Unterschied zwischen den Conversionrates zweier Testvarianten signifikant ist. Auch mit unserem Signifikanz-Rechner sehen Sie auf einen Blick, welches Ergebnis signifikant ist und welcher Uplift oder Downlift zufällig entstanden sein könnte.

Wir wollen uns hier jedoch einmal ansehen, wie diese Rechner funktionieren. In diesem Sinne: „Traue keiner Statistik, die du nicht selbst gerechnet hast!“

Schritt 1: Beobachtete und erwartete Werte

Die meisten Signifikanz-Rechner benutzen für ihre Berechnung den Chi²-Test (sprich: ki-Quadrat). Wie dieser funktioniert und wie man ihn rechnet, soll hier an einem fiktiven Beispiel gezeigt werden:

	Besucher	Conversions	Conversionrate
Variante A	9.998	1.001	10,01%
Variante B	10.001	1.087	10,87%

Die Conversionrates ergeben sich, wenn man die beobachteten Conversions einer Variante durch die Gesamtanzahl der Besucher einer Variante dividiert und mit 100% multipliziert. Für Variante A ergibt dies eine Conversionrate von 10,01% und für Variante B 10,87%. Das Maß, um wieviel Variante B besser abschneidet als Variante A, nennt man den Uplift. Dieser berechnet sich folgendermaßen:

Variante B hat also eine um eine 8,55% höhere Conversionrate als Variante A. Dies bedeutet aber nun nicht automatisch, dass Variante B besser ist, als Variante A. Die unterschiedlichen Conversionrates können auch zufällig entstanden sein. Man bezeichnet diese zufällige Abweichung als „statistisches Rauschen“.

Wirft man zum Beispiel einen Würfel 600 Mal, so kann man erwarten, dass die Sechs 100 Mal fällt. Tatsächlich ist die Wahrscheinlichkeit sehr hoch, dass wir einen davon abweichenden Wert beobachten. Vielleicht wird 110 Mal die Sechs gewürfelt, vielleicht nur 92 Mal. Erst wenn wir unendlich viele Würfelwürfe durchführen, können wir sicher sein, dass genau ein Sechstel aller Würfe die 6 zeigt.

Da aber unendlich viele Beobachtungen praktisch nicht machbar sind, müssen wir akzeptieren, dass der beobachtete Wert vom tatsächlichen Wert abweichen kann. Um nun beurteilen zu können, ob Variante B tatsächlich besser performt als Variante A, müssen wir herausfinden, mit welcher Wahrscheinlichkeit der Unterschied durch statistisches Rauschen entstanden ist.

Dazu wird eine Kreuztabelle erstellt, die die beobachteten Werte der konvertierten und der nicht konvertierten Besucher enthält:

	Besucher	Conversions	Keine Conversions	Conversionrate
Variante A	9.998	1.001	8.997	10,01%
Variante B	10.002	1.087	8.915	10,87%

Im nächsten Schritt stellt man diesen beobachteten Werten jene Werte gegenüber, die man erwarten würde, gäbe es keinen Unterschied zwischen den beiden Varianten. Die erwarteten Werte ergeben sich aus der gemeinsamen Conversionrate beider Varianten:

Mit dieser gemeinsamen Conversionrate werden nun die Besucherzahlen jeder Variante multipliziert. Damit erhalten wir die erwarteten Conversions einer Variante:

Die erwarteten Nicht-Conversions werden ganz einfach ermittelt, indem man die erwarteten Conversions von den Besucherzahlen der beiden Varianten abzieht:

Diese Werte tragen wir nun in unsere Kreuztabelle ein:

	Besucher	Conversions		Keine Conversions		CR
		beobachtet	erwartet	beobachtet	erwartet
Variante A	9.998	1.001	1.044	8.997	8.954	10,01%
Variante B	10.002	1.087	1.044	8.915	8.958	10,87%

Schritt 2: Abweichungswerte berechnen

Nun berechnen wir für jeden beobachteten Wert die Abweichung vom erwarteten Wert. Dies geschieht mit der Formel:

Durch das Quadrieren der Abweichung erreichen wir, dass es egal ist, ob der beobachtete Wert unter oder über dem erwarteten Wert liegt und vermeiden, dass positive und negative Abweichungen einander aufheben oder abschwächen. Außerdem werden größere Abweichungen stärker berücksichtigt als kleine Abweichungen.

Mit der Division durch den erwarteten Wert akzeptieren wir bei höheren erwarteten Werten auch eine etwas größere Abweichung als bei niedrigen erwarteten Werten.

Analog gehen wir für die Conversions der Variante B vor und die Werte der Nicht-Conversions. Alle vier Werte addieren wir nun und erhalten den Prüfwert für den Chi²-Test:

Schritt 3: Auf Signifikanz überprüfen

Allgemein gilt, je höher dieser Wert ist, umso höher ist auch die Wahrscheinlichkeit, dass sich die beiden Varianten tatsächlich unterscheiden. Eine hundertprozentige Aussage darüber lässt sich nicht treffen, daher muss ein Konfidenzwert gewählt werden. Dieser gibt an, mit welcher Wahrscheinlichkeit die beiden Varianten unterschiedlich sind. Für diesen Konfidenzwert schlägt man nun in einer Chi²-Verteilungstabelle nach, wie hoch der Prüfwert mindestens sein muss, damit ein Unterschied zwischen den beiden Varianten mindestens so hoch ist, wie der Konfidenzwert. Beliebte Konfidenzwerte und die dazugehörigen Mindestprüfwerte sind:

Konfidenz	Mindestprüfwert	Anmerkung
90%	2,71	tendenziell
95%	3,84	signifikant
99%	6,63	sehr signifikant
99,9%	10,83	höchst signifikant

Wir entscheiden uns für eine Konfidenz von 95%, dafür benötigen wir einen Prüfwert von mindestens 3,84. Mit 3,955 überspringen wir diesen Mindestwert, daher können wir mit 95%iger Wahrscheinlichkeit behaupten:

Variante A und B unterscheiden sich signifikant voneinander. Der gemessene Uplift hat seinen Ursprung also tatsächlich in einer höheren Conversionrate und ist nicht nur durch statistisches Rauschen verursacht.

Was wir jedoch nicht sicher sagen können, ist dass der Uplift auch tatsächlich +8,55% beträgt. Dies ist der wahrscheinlichste Wert, den der Uplift einnehmen kann, aber auch dieser unterliegt dem statistischen Rauschen. Aber mit großer Wahrscheinlichkeit liegt er in der Nähe dieses Wertes.

Das alles ist Ihnen zu kompliziert? Dann verwenden Sie einfach den

e-dialog Signifikanz-Rechner >

Sie sind sich nicht sicher, was sie nun mit dem errechneten Ergebnis anfangen sollen? Oder sie wissen nicht, was sie überhaupt testen sollen? Wir helfen Ihnen gerne weiter! Schreiben Sie uns via kontakt@e-dialog.group

Wann ist Ihr Testergebnis signifikant? Die Statistik hinter dem A/B Test

Management Summary

Schritt 1: Beobachtete und erwartete Werte

Schritt 2: Abweichungswerte berechnen

Schritt 3: Auf Signifikanz überprüfen

Sie sind sich nicht sicher, was sie nun mit dem errechneten Ergebnis anfangen sollen? Oder sie wissen nicht, was sie überhaupt testen sollen? Wir helfen Ihnen gerne weiter! Schreiben Sie uns via kontakt@e-dialog.group

Weitere Themen

Google Optimize Sunset – Was soll ich jetzt tun?

Dynamic Video Ads mit Google Web Designer

Dynamic Ads in DV360 oder Studio? – Ein Vergleich

Lead Nurturing – 7 Möglichkeiten, um Ihre Kundendaten anzureichern

Usability in E-Commerce Stores – mehr User zum Kaufabschluss bringen

User Test: Was er kann und warum er so spannende Insights liefert

Partner-Intro: 4 Fragen an AB Tasty

New Year, New Data: Digital Marketing Trends 2020

Audience Management – Den Datenschatz Ihres Unternehmens zur Personalisierung nutzen

Google Marketing Platform (GMP): alle Neuerungen & Vorteile für Marketer

Google Analytics 360 und Salesforce – das neue Traumpaar

3 Google Analytics Zielgruppen für Personalisierung & Remarketing

Business Breakfast: Testing & Personalisierung mit Google Optimize 360

Google Optimize Update Herbst 2017

A/B Testing Ideen: 3 datengetriebene Wege für gute Testhypothesen

Optimize free: Was taugt Googles kostenloses Tool für Website Testing und Personalisierung?

Google Optimize 360 » Das Testing-Tool mit dem Mehr an Insights

Dem User über die Schulter schauen » VWO Behavior Analysis

Opt-In Prozess » Single oder Double Opt-In beim Newsletter

Conversion Optimierung » Wann hilft mir was?

Sequentielle Tests » Hintereinander in die Fehlentscheidung

A/B Test » fundierte Entscheidungsgrundlage statt Ratespiel

Machen Sie mit Landingpage Optimierung mehr User zu Kunden

Remote Usability Test: die schnelle und kostengünstige Conversion-Optimierung-Analysemethode

Ihr Sitespeed ist im Keller? Identifizieren Sie die 10 häufigsten Ursachen in weniger als einer Minute

Conversion Optimierungs-Testidee » Vertrauensverstärker im Online-Shop

Conversion-Optimierung als Konkurrenzvorsprung nutzen

Conversion Optimierungstool: Der Visual Website Optimizer und seine neuen Features

Conversion Optimierung on- und offline: Alter Wein in neuen Schläuchen?

7 Conversion-Tipps für Ihre Danke-Seite

Steigern Sie die Aussagekraft Ihrer Google Analytics Sitespeed Reports