Peeking | VWO

Was ist Peeking?

Das vorzeitige Einsehen der Ergebnisse in modernen A/B-Testumgebungen bietet die Möglichkeit, schnell mit minimalen Daten signifikante Unterschiede zu erkennen. Diese Praxis, Experimente durch kontinuierliches Monitoring des Dashboards vorzeitig zu beenden, kann jedoch zu verzerrten Schlussfolgerungen führen. Ein solcher Ansatz kann unbeabsichtigt Ergebnisse begünstigen, die aufgrund zufälliger Schwankungen und nicht aufgrund echter Effekte signifikant erscheinen.

Peeking kann zu einem Fehler vom Typ 1 führen, was zu einem falsch positiven Ergebnis führt. Dies bedeutet, dass fälschlicherweise angenommen wird, dass Ihre Hypothesenprüfung erfolgreich war, obwohl dies tatsächlich nicht der Fall ist.

Beispiel für Peeking

Angenommen, Sie testen zwei verschiedene Versionen der Startseite Ihrer Website, um herauszufinden, welche zu mehr Käufen führt. Nach nur wenigen Tagen bemerken Sie, dass Variante 1 der Startseite deutlich besser abschneidet als Variante 2. Begeistert von diesen ersten Ergebnissen beschließen Sie, den Test zu beenden und Variante 1 auf der gesamten Website zu implementieren.

Sie erkennen jedoch nicht, dass der anfängliche Erfolg von Variante 1 nur eine vorübergehende Schwankung oder ein Zufall gewesen sein könnte. Durch Peeking erkennen Sie wahrscheinlich einen Unterschied, obwohl gar kein Unterschied besteht (falsch positives Ergebnis). Indem Sie den Test zu früh beenden und Entscheidungen auf der Grundlage unvollständiger Daten treffen, riskieren Sie, eine Änderung umzusetzen, die für das Unternehmen langfristig möglicherweise nicht vorteilhaft ist.

Das Peeking-Problem bei A/B-Tests führt zu voreiligen Entscheidungen auf der Grundlage früher Ergebnisse, die aufgrund überhöhter Uplift-Werte aus kleineren Stichproben verzerrt sein können. Dies beeinträchtigt die statistische Signifikanz und kann zu falschen Schlussfolgerungen führen.

Wann ist Peeking erlaubt?

Peeking kann aufgrund begrenzter Stichprobengrößen zu falsch positiven Ergebnissen und überhöhten Uplifts führen (auch als „Winner’s Curse“ bezeichnet).

Daher müssen Experimentatoren je nach ihrem Ansatz zum Umgang mit Peeking zwischen Tests mit festem Horizont und sequenziellen Tests wählen.

Bei traditionellen Tests mit festem Horizont, bei denen Experimente über einen vorab festgelegten Zeitraum durchgeführt werden, wird vom Peeking vor Abschluss des Tests generell abgeraten. Der Grund dafür ist, dass das Abwarten bis zum Ende der Testdauer ausreichende Daten für zuverlässige Schlussfolgerungen gewährleistet, zur Aufrechterhaltung der statistischen Validität beiträgt, Verzerrungen reduziert und das Risiko von Typ-1-Fehlern minimiert.

In modernen Unternehmen haben sich jedoch sequenzielle Testmethoden durchgesetzt, die adaptivere Experimente und zeitnahe Feature-Einführungen ermöglichen. Bei sequenziellen Tests werden die Daten kontinuierlich überwacht, und Entscheidungen über das Beenden des Tests oder das Vornehmen von Anpassungen können während des Tests getroffen werden. Dieser Ansatz lässt in gewissem Umfang Einblicke zu, solange diese vorsichtig erfolgen, um voreilige Schlussfolgerungen auf der Grundlage unvollständiger Daten zu vermeiden.

VWO hat die Peeking-Korrektur implementiert, um sicherzustellen, dass sequenzielle Tests in seinem überarbeiteten Berichtssystem genau und zuverlässig sind. Mithilfe der Peeking-Korrektur passt VWO statistische Berechnungen an, um die Gültigkeit auch dann aufrechtzuerhalten, wenn Tests mehrfach überwacht werden. Diese Funktion trägt dazu bei, die Integrität Ihrer Ergebnisse zu wahren, sodass Sie fundierte Entscheidungen treffen können, ohne das Risiko verzerrter Daten einzugehen.

Wenn Sie sowohl Flexibilität bei der Überprüfung von Testergebnissen als auch hohe Genauigkeit suchen, probieren Sie VWO aus — es bietet robuste und zuverlässige Berichtsfunktionen.

Weitere Begriffe aus dem Glossary

Personalisierung

Der Begriff Personalisierung bezieht sich auf eine Vielzahl von Algorithmen und Strategien, die Online-Unternehmen einsetzen, um das Erlebnis auf ihren Websites für verschiedene Zielgruppen zu individualisieren.

Server-Side Testing

Beim Server-Side Testing wird die Variation der Website auf Serverebene gerendert, bevor sie an den Browser des Users gesendet wird.

Statistische Signifikanz

Bei einem Hypothesentest wird ein Ergebnis für statistisch signifikant erklärt, wenn man ausschließen kann, dass das Ergebnis zufällig zustande gekommen ist, und es stattdessen auf einen tatsächlich vorhandenen Effekt zurückgeführt werden kann.

Suchmaschinenmarketing

Suchmaschinenmarketing ist der Einsatz von bezahlter Werbung, um sicherzustellen, dass die von Ihrem Unternehmen angebotenen Produkte und Dienstleistungen in den Ergebnisseiten der Suchmaschinen (SERPs) sichtbar sind.

Testing in Production

Testing in Production ist ein Standardverfahren im modernen Softwareentwicklungszyklus, um die Veröffentlichung hochwertiger Produkte zu gewährleisten und die Userfreundlichkeit zu verbessern. Mit dieser Methode können Marketingexperten Tests durchführen, um die Reaktionen der User auf neue Funktionen zu verstehen, während Produktmanager diese Daten zur Verbesserung der Produkterfahrung nutzen können.

Type 1 Error

Wenn bei einem A/B-Test beide Varianten ähnlich sind und sich nicht unterschiedlich auf die getestete Metrik auswirken, kann ein Fehler auftreten, bei dem die Nullhypothese nach Abschluss des Tests verworfen wird. Wenn in einem solchen Fall festgestellt wird, dass es einen statistischen Unterschied zwischen den Varianten gibt, handelt es sich um einen Fehler vom Typ I.

Type 2 Error

Wenn während des Hypothesentests die konkurrierenden Variationen sich unterschiedlich auf die Metrik des Experiments auswirken, der Test aber die Nullhypothese (die keine Wirkung darstellt) nicht zurückweist, dann spricht man von einem Typ-II-Fehler oder einem Falsch-Negativ.

User Journey Map

Eine User Journey Map ist eine visuelle Darstellung der Schritte und Erfahrungen, die ein User bei der Interaktion mit einem Produkt oder einer Dienstleistung durchläuft.

Liefern Sie großartige Erlebnisse. Wachsen Sie schneller - ab heute.

Features (+125 mehr)

Features (+120 mehr)

Was ist Peeking?

Beispiel für Peeking

Wann ist Peeking erlaubt?

Mehr Ressourcen

Weitere Begriffe aus dem Glossary

Personalisierung

Server-Side Testing

Statistische Signifikanz

Suchmaschinenmarketing

Testing in Production

Type 1 Error

Type 2 Error

User Journey Map

Liefern Sie großartige Erlebnisse. Wachsen Sie schneller - ab heute.

See VWO in action now.

Obwohl unsere Demo, die gesamte VWO-Plattform umfasst, geben Sie uns bitte einige Details, damit wir die Demo für Sie personalisieren können.

Select the capabilities that you would like us to emphasise on during the demo.

Welche dieser Optionen trifft auf Sie zu?

Bitte teilen Sie mit uns die Use-Cases, Ziele oder Bedürfnisse, die Sie zu lösen versuchen.

Bitte geben Sie die URL Ihrer Website oder App ein.