Digitale Unternehmen setzen zunehmend auf Experimente, um datenbasierte Entscheidungen zu treffen und ihre KPIs zu verbessern. Bevor jedoch neue Ideen getestet werden, ist es wichtig, das Konzept der statistischen Signifikanz zu verstehen. In einem Hypothesentest hat ein Ergebnis Statistische Signifikanz, wenn die Möglichkeit, dass das Ergebnis zufällig zustande gekommen ist, ausgeschlossen werden kann und es stattdessen auf einen tatsächlich vorhandenen Effekt hinweist. Bei einem signifikanten Ergebnis kann man mit hoher Sicherheit davon ausgehen, dass der Effekt real ist und nicht einfach Glück (oder Pech) bei der Stichprobenauswahl war.
Selbst beim Annehmen oder Ablehnen einer Hypothese kann man sich nie zu 100 % sicher sein. Es wird jedoch ein bestimmtes Signifikanzniveau (Konfidenzniveau) festgelegt, mit dem man mit einer gewissen Sicherheit richtig liegen möchte.
In einem statistischen Rahmen wird ein Ergebnis als signifikant eingestuft, wenn der p-Wert (Wahrscheinlichkeit, keinen Effekt zu beobachten) unter dem zuvor festgelegten Signifikanzniveau liegt. In der Praxis gilt ein Signifikanzniveau α von 0,05 (5 %) als branchenüblicher Standard. Statistische Signifikanz gibt einem ein gewisses Maß an Sicherheit, dass der beobachtete Effekt real ist und nicht auf Zufall basiert.
Wie wird die statistische Signifikanz bei Tests verwendet?
A/B-Tests oder MVT-Tests beinhalten einen kontrollierten Vergleich der Performance von Varianten in Bezug auf eine bestimmte Kennzahl wie Conversion Rate, durchschnittlicher Umsatz usw. Bevor Sie geschäftskritische Entscheidungen treffen, wie z.B. den Einsatz der Variante mit dem höheren Kennzahlwert, müssen Sie sicherstellen, dass die Ergebnisse statistisch signifikant sind.
In der Statistik gibt es zwei Bereiche, Frequentist und Bayesian, die konkurrierende Ansätze für Hypothesentests bieten. Der Frequentistische Ansatz geht davon aus, dass eine Metrik der Wahl einen einzigen Wert hat, während der Bayesianische Ansatz sie als eine Verteilung möglicher Werte beschreibt, denen ein bestimmter Grad an Überzeugung zugeordnet ist.
In der frequenzorientierten Statistik wird beim Testen gegen die Nullhypothese (kein Effekt ist unter den Variationen vorhanden) die Wahrscheinlichkeit geschätzt, ein Ergebnis zu erhalten, das mindestens so extrem ist wie das beobachtete. Diese Statistik wird im Bereich der Frequentistik als p-Wert bezeichnet und liefert das Maß für die Evidenz gegen die Nullhypothese. Je kleiner der Wert ist, desto stärker ist die Evidenz gegen die Nullhypothese. Wenn dieser p-Wert nach der Erhebung der erforderlichen Stichprobengröße im Experiment unter das festgelegte Signifikanzniveau fällt, wird das beobachtete Ergebnis für statistisch signifikant erklärt.
So berechnet VWO die statistische Signifikanz
VWO ist eine der führenden Experimentierplattformen, die sich an die Bayes’sche Statistik halten. Zwei Statistiken, die VWO für jede Variante eines Tests berechnet, sind die Wahrscheinlichkeit, der Beste zu sein (PBB) und der potenzielle Verlust (PL).
- PBB steht für die Wahrscheinlichkeit, dass eine Variante jede andere Variante übertrifft. Der Schwellenwert für das Signifikanzniveau für PBB ist 95%(1-ɑ)
- PL steht für den durchschnittlichen Verlust, den man beim Einsatz der Variante wahrscheinlich erleiden wird, wenn sie im Vergleich zu anderen Varianten schlechter abschneidet. Das Signifikanzniveau für die Entscheidung in PL wird als Threshold of Caring(TOC) bezeichnet. Die TOC ist eine kritische Größe, da sie den Verlust darstellt, den sich ein Unternehmen leisten kann, wenn die empfohlene Variante nach der Einführung schlechter abschneidet. Sie wird wie folgt geschätzt: Metrischer Wert für die Basislinie * Modus der Gewissheit* 10%.
Wenn PTBA und PL ihre jeweiligen Signifikanzniveaus überschreiten, empfiehlt die VWO die Variante als bessere Alternative für Ihr Unternehmen und erklärt das Ergebnis für statistisch signifikant. Die Verwendung der PL-Metrik mit PBB stellt sicher, dass selbst wenn ein Test ein falsch positives Ergebnis liefert, die Gesamtauswirkungen des Fehlers für das Unternehmen tolerierbar sind. Testen Sie den kostenlosen VWO-Rechner für statistische Signifikanz oder fordern Sie eine Demo mit unseren Produktexperten an, um das VWO-Reporting im Detail zu verstehen.
Fallstricke der statistischen Signifikanz
Nach der Beobachtung einer ausreichenden Anzahl von Daten ist es wichtig, die statistische Signifikanz sicherzustellen, bevor Sie irgendwelche Erkenntnisse aus den Daten ziehen, um Typ-1- und Typ-2-Fehler zu überprüfen. Wenn es jedoch Probleme bei der Durchführung des Experiments gibt und die Annahmen des Tests verletzt werden, ist die statistische Signifikanzprüfung keine robuste Methode und könnte zu einer erhöhten Fehlerquote führen. Einige Probleme, die bei der Durchführung eines Experiments auftreten können, abgesehen von der Ableitung von Erkenntnissen aus unzureichenden Stichprobendaten, sind:
- Ungenauigkeiten bei der Datenerfassung
- Die statistische Signifikanz berücksichtigt nicht die Robustheit des Datenerhebungsprozesses und kann in einem solchen Fall sinnlose Erkenntnisse liefern.
- Probleme mit der Randomisierung
- Wenn die Randomisierung der Population für ein Experiment nicht zufällig, sondern verzerrt ist, können nicht vorhandene Effekte als signifikant erscheinen.
- Erfassungsfehler
- Eine falsche Kennzeichnung der Besucher kann zu mehreren doppelten Datenpunkten von einem einzigen Besucher führen. Das verzerrt die gesammelten Daten und kann Effekte mehr oder weniger ausgeprägt erscheinen lassen, als sie sind.
Diese Fehler können die Erkenntnisse, die man aus einem statistisch signifikanten Ergebnis zieht, erheblich beeinflussen. Man muss sowohl Stichproben- als auch Nicht-Stichprobenfehler verfolgen, bevor man eine kritische Entscheidung trifft. Statistische Signifikanz allein ist kein robustes Kriterium für die Entscheidungsfindung und sollte durch Korrekturen für Nicht-Stichprobenfehler ergänzt werden.
Einige geschäftliche Bedenken zur statistischen Signifikanz
Wenn Unternehmen sich mit statistischer Signifikanz befassen, ergeben sich einige Fragen:
- Welches Signifikanzniveau (α) soll gewählt werden?
In der Fachliteratur wird häufig α = 0,05 verwendet. Es gibt jedoch keinen mathematisch zwingenden Grund dafür – vielmehr gilt: Wenn man sich seltener irren will, kann man α senken. Das verlängert jedoch die Dauer des Tests. - Welche statistische Methode ist geeignet?
Auch innerhalb der Bayesschen oder frequentistischen Statistik gibt es viele Methoden. Die richtige hängt vom Datentyp, Stichprobenumfang und der Fragestellung ab. Die Wahl sollte schon bei der Testplanung erfolgen. - Wie werden die Ergebnisse im Business-Kontext genutzt?:
Statistische Signifikanz sagt nur, dass ein Effekt mathematisch vorhanden ist – selbst ein Unterschied von 0,00001 % kann signifikant, aber völlig irrelevant fürs Geschäft sein. Umgekehrt können auch nicht signifikante Ergebnisse nützliche Hinweise liefern.
Deshalb ist es sinnvoll, zunächst zu definieren, was geschäftlich relevant ist, und die Testergebnisse strategisch klug zu interpretieren.