von Christof Heimhilcher
In diesem Blogbeitrag wollen wir Ihnen zeigen, wie Sie in drei Schritten die Signifikanz berechnen. Es ist immer gut zu wissen, wie ein solches Ergebnis zustande kommt und was dahinter steckt.Deshalb schauen wir uns an, wie diese Rechner funktionieren.
Website Optimierung ist ein wichtiger Baustein für den Erfolg Ihres Digital Marketing. Wir zeigen Ihnen datengetriebene Ansätze zur Steigerung von Umsatz, Conversions und UX.
Mehr Erfahren„Traue keiner Statistik, die du nicht selbst gefälscht hast“ hat Winston Churchill höchstwahrscheinlich nie gesagt. Sehr wohl hört man diesen Satz aber oft im Alltag, wenn die Gültigkeit von statistischen Ergebnissen angezweifelt wird. Und in der Tat: es schadet nie, wenn man weiß, wie ein solches Ergebnis zustande gekommen ist, ganz besonders, wenn man selbst A/B Tests zur Conversion-Optimierung durchführt.
In den unendlichen Weiten des Internets gibt es zahlreiche Onlinerechner, die bestimmen, ob der Unterschied zwischen den Conversionrates zweier Testvarianten signifikant ist. Auch mit unserem Signifikanz-Rechner sehen Sie auf einen Blick, welches Ergebnis signifikant ist und welcher Uplift oder Downlift zufällig entstanden sein könnte.
Wir wollen uns hier jedoch einmal ansehen, wie diese Rechner funktionieren. In diesem Sinne: „Traue keiner Statistik, die du nicht selbst gerechnet hast!“
Die meisten Signifikanz-Rechner benutzen für ihre Berechnung den Chi2-Test (sprich: ki-Quadrat). Wie dieser funktioniert und wie man ihn rechnet, soll hier an einem fiktiven Beispiel gezeigt werden:
Besucher | Conversions | Conversionrate | |
---|---|---|---|
Variante A | 9.998 | 1.001 | 10,01% |
Variante B | 10.001 | 1.087 | 10,87% |
Die Conversionrates ergeben sich, wenn man die beobachteten Conversions einer Variante durch die Gesamtanzahl der Besucher einer Variante dividiert und mit 100% multipliziert. Für Variante A ergibt dies eine Conversionrate von 10,01% und für Variante B 10,87%. Das Maß, um wieviel Variante B besser abschneidet als Variante A, nennt man den Uplift. Dieser berechnet sich folgendermaßen:
Variante B hat also eine um eine 8,55% höhere Conversionrate als Variante A. Dies bedeutet aber nun nicht automatisch, dass Variante B besser ist, als Variante A. Die unterschiedlichen Conversionrates können auch zufällig entstanden sein. Man bezeichnet diese zufällige Abweichung als „statistisches Rauschen“.
Wirft man zum Beispiel einen Würfel 600 Mal, so kann man erwarten, dass die Sechs 100 Mal fällt. Tatsächlich ist die Wahrscheinlichkeit sehr hoch, dass wir einen davon abweichenden Wert beobachten. Vielleicht wird 110 Mal die Sechs gewürfelt, vielleicht nur 92 Mal. Erst wenn wir unendlich viele Würfelwürfe durchführen, können wir sicher sein, dass genau ein Sechstel aller Würfe die 6 zeigt.
Da aber unendlich viele Beobachtungen praktisch nicht machbar sind, müssen wir akzeptieren, dass der beobachtete Wert vom tatsächlichen Wert abweichen kann. Um nun beurteilen zu können, ob Variante B tatsächlich besser performt als Variante A, müssen wir herausfinden, mit welcher Wahrscheinlichkeit der Unterschied durch statistisches Rauschen entstanden ist.
Dazu wird eine Kreuztabelle erstellt, die die beobachteten Werte der konvertierten und der nicht konvertierten Besucher enthält:
Besucher | Conversions | Keine Conversions | Conversionrate | |
---|---|---|---|---|
Variante A | 9.998 | 1.001 | 8.997 | 10,01% |
Variante B | 10.002 | 1.087 | 8.915 | 10,87% |
Im nächsten Schritt stellt man diesen beobachteten Werten jene Werte gegenüber, die man erwarten würde, gäbe es keinen Unterschied zwischen den beiden Varianten. Die erwarteten Werte ergeben sich aus der gemeinsamen Conversionrate beider Varianten:
Mit dieser gemeinsamen Conversionrate werden nun die Besucherzahlen jeder Variante multipliziert. Damit erhalten wir die erwarteten Conversions einer Variante:
Die erwarteten Nicht-Conversions werden ganz einfach ermittelt, indem man die erwarteten Conversions von den Besucherzahlen der beiden Varianten abzieht:
Diese Werte tragen wir nun in unsere Kreuztabelle ein:
Besucher | Conversions | Keine Conversions | CR | |||
---|---|---|---|---|---|---|
beobachtet | erwartet | beobachtet | erwartet | |||
Variante A | 9.998 | 1.001 | 1.044 | 8.997 | 8.954 | 10,01% |
Variante B | 10.002 | 1.087 | 1.044 | 8.915 | 8.958 | 10,87% |
Nun berechnen wir für jeden beobachteten Wert die Abweichung vom erwarteten Wert. Dies geschieht mit der Formel:
Durch das Quadrieren der Abweichung erreichen wir, dass es egal ist, ob der beobachtete Wert unter oder über dem erwarteten Wert liegt und vermeiden, dass positive und negative Abweichungen einander aufheben oder abschwächen. Außerdem werden größere Abweichungen stärker berücksichtigt als kleine Abweichungen.
Mit der Division durch den erwarteten Wert akzeptieren wir bei höheren erwarteten Werten auch eine etwas größere Abweichung als bei niedrigen erwarteten Werten.
Analog gehen wir für die Conversions der Variante B vor und die Werte der Nicht-Conversions. Alle vier Werte addieren wir nun und erhalten den Prüfwert für den Chi2-Test:
Allgemein gilt, je höher dieser Wert ist, umso höher ist auch die Wahrscheinlichkeit, dass sich die beiden Varianten tatsächlich unterscheiden. Eine hundertprozentige Aussage darüber lässt sich nicht treffen, daher muss ein Konfidenzwert gewählt werden. Dieser gibt an, mit welcher Wahrscheinlichkeit die beiden Varianten unterschiedlich sind. Für diesen Konfidenzwert schlägt man nun in einer Chi2-Verteilungstabelle nach, wie hoch der Prüfwert mindestens sein muss, damit ein Unterschied zwischen den beiden Varianten mindestens so hoch ist, wie der Konfidenzwert. Beliebte Konfidenzwerte und die dazugehörigen Mindestprüfwerte sind:
Konfidenz | Mindestprüfwert | Anmerkung |
---|---|---|
90% | 2,71 | tendenziell |
95% | 3,84 | signifikant |
99% | 6,63 | sehr signifikant |
99,9% | 10,83 | höchst signifikant |
Wir entscheiden uns für eine Konfidenz von 95%, dafür benötigen wir einen Prüfwert von mindestens 3,84. Mit 3,955 überspringen wir diesen Mindestwert, daher können wir mit 95%iger Wahrscheinlichkeit behaupten:
Variante A und B unterscheiden sich signifikant voneinander. Der gemessene Uplift hat seinen Ursprung also tatsächlich in einer höheren Conversionrate und ist nicht nur durch statistisches Rauschen verursacht.
Was wir jedoch nicht sicher sagen können, ist dass der Uplift auch tatsächlich +8,55% beträgt. Dies ist der wahrscheinlichste Wert, den der Uplift einnehmen kann, aber auch dieser unterliegt dem statistischen Rauschen. Aber mit großer Wahrscheinlichkeit liegt er in der Nähe dieses Wertes.
Wir freuen uns auf Ihre Anfrage und beraten Sie gerne unverbindlich! Füllen Sie dazu einfach das Kontaktformular aus oder rufen uns direkt an.
Jetzt kontaktierenNewsletter
Holen Sie sich unsere Online Marketing-Insights und Trends direkt in Ihr Postfach!