Was ist Peeking?
Das vorzeitige Einsehen der Ergebnisse in modernen A/B-Testumgebungen bietet die Möglichkeit, schnell mit minimalen Daten signifikante Unterschiede zu erkennen. Diese Praxis, Experimente durch kontinuierliches Monitoring des Dashboards vorzeitig zu beenden, kann jedoch zu verzerrten Schlussfolgerungen führen. Ein solcher Ansatz kann unbeabsichtigt Ergebnisse begünstigen, die aufgrund zufälliger Schwankungen und nicht aufgrund echter Effekte signifikant erscheinen.
Peeking kann zu einem Fehler vom Typ 1 führen, was zu einem falsch positiven Ergebnis führt. Dies bedeutet, dass fälschlicherweise angenommen wird, dass Ihre Hypothesenprüfung erfolgreich war, obwohl dies tatsächlich nicht der Fall ist.
Beispiel für Peeking
Angenommen, Sie testen zwei verschiedene Versionen der Startseite Ihrer Website, um herauszufinden, welche zu mehr Käufen führt. Nach nur wenigen Tagen bemerken Sie, dass Variante 1 der Startseite deutlich besser abschneidet als Variante 2. Begeistert von diesen ersten Ergebnissen beschließen Sie, den Test zu beenden und Variante 1 auf der gesamten Website zu implementieren.
Sie erkennen jedoch nicht, dass der anfängliche Erfolg von Variante 1 nur eine vorübergehende Schwankung oder ein Zufall gewesen sein könnte. Durch Peeking erkennen Sie wahrscheinlich einen Unterschied, obwohl gar kein Unterschied besteht (falsch positives Ergebnis). Indem Sie den Test zu früh beenden und Entscheidungen auf der Grundlage unvollständiger Daten treffen, riskieren Sie, eine Änderung umzusetzen, die für das Unternehmen langfristig möglicherweise nicht vorteilhaft ist.
Das Peeking-Problem bei A/B-Tests führt zu voreiligen Entscheidungen auf der Grundlage früher Ergebnisse, die aufgrund überhöhter Uplift-Werte aus kleineren Stichproben verzerrt sein können. Dies beeinträchtigt die statistische Signifikanz und kann zu falschen Schlussfolgerungen führen.
Wann ist Peeking erlaubt?
Peeking kann aufgrund begrenzter Stichprobengrößen zu falsch positiven Ergebnissen und überhöhten Uplifts führen (auch als „Winner’s Curse“ bezeichnet).
Daher müssen Experimentatoren je nach ihrem Ansatz zum Umgang mit Peeking zwischen Tests mit festem Horizont und sequenziellen Tests wählen.
Bei traditionellen Tests mit festem Horizont, bei denen Experimente über einen vorab festgelegten Zeitraum durchgeführt werden, wird vom Peeking vor Abschluss des Tests generell abgeraten. Der Grund dafür ist, dass das Abwarten bis zum Ende der Testdauer ausreichende Daten für zuverlässige Schlussfolgerungen gewährleistet, zur Aufrechterhaltung der statistischen Validität beiträgt, Verzerrungen reduziert und das Risiko von Typ-1-Fehlern minimiert.
In modernen Unternehmen haben sich jedoch sequenzielle Testmethoden durchgesetzt, die adaptivere Experimente und zeitnahe Feature-Einführungen ermöglichen. Bei sequenziellen Tests werden die Daten kontinuierlich überwacht, und Entscheidungen über das Beenden des Tests oder das Vornehmen von Anpassungen können während des Tests getroffen werden. Dieser Ansatz lässt in gewissem Umfang Einblicke zu, solange diese vorsichtig erfolgen, um voreilige Schlussfolgerungen auf der Grundlage unvollständiger Daten zu vermeiden.
VWO hat die Peeking-Korrektur implementiert, um sicherzustellen, dass sequenzielle Tests in seinem überarbeiteten Berichtssystem genau und zuverlässig sind. Mithilfe der Peeking-Korrektur passt VWO statistische Berechnungen an, um die Gültigkeit auch dann aufrechtzuerhalten, wenn Tests mehrfach überwacht werden. Diese Funktion trägt dazu bei, die Integrität Ihrer Ergebnisse zu wahren, sodass Sie fundierte Entscheidungen treffen können, ohne das Risiko verzerrter Daten einzugehen.
Wenn Sie sowohl Flexibilität bei der Überprüfung von Testergebnissen als auch hohe Genauigkeit suchen, probieren Sie VWO aus — es bietet robuste und zuverlässige Berichtsfunktionen.










