Das kontrollierte Experiment mit Vorversuchsdaten (CUPED) ist eine Technik zur Verringerung der Varianz, die bei A/B-Tests eingesetzt wird.
CUPED wurde in den frühen 2010er Jahren von Microsofts Data Science Team entwickelt, um den Bedarf an effizienteren A/B-Tests auf Plattformen wie Bing und Microsoft Office zu decken. Seit ihrer Einführung hat sich diese Technik in den A/B-Testing- und Optimierungs-Communities durchgesetzt, da sie die Streuung reduziert.
Wie funktioniert CUPED?
Lassen Sie uns versuchen, die Funktionsweise von CUPED anhand eines Beispiels zu verstehen. Nehmen wir an, Sie betreiben ein Online-Geschäft und möchten einen neuen Bezahlvorgang testen. Sie richten einen A/B-Test ein, bei dem die Hälfte Ihrer Besucher den neuen Bezahlvorgang (Gruppe B) und die andere Hälfte den aktuellen (Gruppe A) sieht. Das Ziel ist es, herauszufinden, ob der neue Bezahlvorgang zu mehr abgeschlossenen Käufen führt.
Bevor Sie den Test starten, verfügen Sie bereits über umfangreiche Daten zum Verhalten Ihrer Besucher. Sie wissen zum Beispiel, wie viele Käufe jeder Besucher im Monat vor dem Test getätigt hat. Hier kommt CUPED ins Spiel. Für jeden Besucher sowohl in Gruppe A als auch in Gruppe B sammelt CUPED Daten über sein Kaufverhalten im Vormonat. Während der Test läuft, werden die Einkäufe gezählt, die jede Gruppe während des Testzeitraums tätigt. Anstatt jedoch nur die rohen Zahlen zu vergleichen, passt CUPED diese Zahlen auf der Grundlage eines Anstiegs oder Rückgangs der Zahlen im Vergleich zum letzten Monat in der Kontrollgruppe und der Variationsgruppe an.
Ohne CUPED könnten Sie, wenn Gruppe A (aktuelle Kasse) im Durchschnitt 10 Käufe und Gruppe B (neue Kasse) im Durchschnitt 12 Käufe nach dem Test tätigt, zu dem Schluss kommen, dass die neue Kasse etwas besser ist. Aber mit CUPED können Sie diese Zahlen anhand der Daten vor dem Test anpassen. Vielleicht haben die Besucher von Gruppe A vor dem Test durchschnittlich 4 Käufe getätigt und die Besucher von Gruppe B durchschnittlich 2 Käufe. Wenn Sie die Daten aus der Zeit vor dem Test berücksichtigen, stellen Sie vielleicht fest, dass die Verbesserung in Gruppe B sogar noch deutlicher ausfällt.
CUPED hilft Ihnen also, Ihre A/B-Tests genauer und zuverlässiger zu machen, indem es das berücksichtigt, was Sie bereits über Ihre Besucher wissen.
Vorteile von CUPED
Hier sind die Vorteile von CUPED, mit denen Sie Ihre A/B-Tests genauer und zuverlässiger machen können:
- CUPED nutzt Daten aus der Zeit vor dem Test, um natürliche Schwankungen im Verhalten Ihrer Besucher zu berücksichtigen. Das heißt, wenn es einen echten Unterschied zwischen Ihren Testgruppen gibt, ist dieser mit CUPED leichter zu erkennen. Wenn zum Beispiel Ihr neuer Bezahlvorgang tatsächlich besser ist, können Sie mit CUPED diese Verbesserung deutlicher erkennen.
- Um statistische Signifikanz zu erreichen, ist eine große Anzahl von Besuchern erforderlich. Mit CUPED können Sie jedoch auch mit weniger Besuchern aussagekräftige Ergebnisse erzielen, da das „Rauschen“ durch natürliche Schwankungen reduziert wird. Das macht Ihre Tests effizienter und weniger ressourcenintensiv.
Einschränkungen bei der Verwendung von CUPED
Obwohl CUPED erhebliche Vorteile bietet, ist es wichtig, seine Grenzen zu kennen. Hier sind zwei wichtige Punkte, die Sie im Auge behalten sollten:
- CUPED stützt sich auf Daten aus der Zeit vor dem Experiment, um die Varianz zu verringern und die Genauigkeit Ihrer Testergebnisse zu verbessern. Das bedeutet, dass es nur mit Besuchern verwendet werden kann, die schon einmal auf Ihrer Website waren. Wenn Sie viele neue Besucher haben, ist CUPED nicht faktisch nutzbar, da Sie keine Daten aus der Vergangenheit nutzen können.
- Es ist nicht effektiv für binäre Metriken wie Conversion Rates, da es auf kontinuierliche Daten (wie die Anzahl der Käufe) angewiesen ist, um Unterschiede vor dem Experiment auszugleichen. Das macht es weniger geeignet für Szenarien, in denen Sie einfache Ja/Nein-Ergebnisse messen.
Fazit
Zusammenfassend lässt sich sagen, dass CUPED eine kraftvolle Technik ist, die Daten aus der Zeit vor dem Experiment nutzt, um die Genauigkeit und Effizienz von A/B-Tests zu verbessern. Sie hilft, die Varianz zu kontrollieren und ermöglicht es Ihnen, mit weniger Teilnehmern aussagekräftige Schlussfolgerungen zu ziehen. Beachten Sie jedoch, dass CUPED nur faktisch mit früheren Besuchern funktioniert und nicht für binäre Metriken geeignet ist.