Multi-Armed Bandit (MAB) – Reibungsloses A/B-Testen
Die meisten Leser dieses Blogs dürften mit A/B-Tests vertraut sein. Zur Erinnerung: A/B-Tests sind Experimente, bei denen einem zufälligen Besucher Ihres digitalen Angebots eine andere Version als das Original (auch „Kontrolle“ genannt) gezeigt wird, um eine optimale Version zu finden, die die Konversionen maximiert.
Vielleicht ist es zum Beispiel die rote Schaltfläche, die die Klicks maximiert hat, oder vielleicht ist es die blaue Schaltfläche. Wer weiß? Nun, Ihr A/B-Test wird es wissen. Systematisch durchgeführte A/B-Tests mit effektiven A/B-Testing-Tools können zu einer erheblichen Verbesserung der Konversionsrate führen, wie die Tinkoff Bank in Moskau mit einer Steigerung von 36 % feststellen konnte.
Bei diesem Bestreben, die Konversionen zu maximieren, sind jedoch Kosten unvermeidlich – während die A/B-Tests laufen, wird ein beträchtlicher Teil des Traffics auf eine unterlegene Variante umgeleitet, was sich direkt auf die Geschäftskennzahlen (wie Verkäufe oder Konversionen) auswirkt.
Man sagt, dass bei einem A/B-Test die Kosten für die Steigerung der Konversionen die Konversionen an sich sind. Wir sagen, ‚touche‘.
Nehmen wir das Beispiel von Jim, einem UX-Analysten, der mit einer Mobilfunkmarke zusammenarbeitet, die nächste Woche ihr neuestes und großartigstes Mobiltelefon auf den Markt bringen wird. Um die Nachfrage anzukurbeln und die Verkäufe in die Höhe zu treiben, beschließt Jim, 3 Tage lang Flash-Sales auf der mobilen App des Unternehmens durchzuführen.
Allerdings gibt es einen Haken: Jim weiß, dass die In-App-Navigation der Marke schlecht ist (er hat eine Umfrage unter aktiven Nutzern durchgeführt, um zu diesem Ergebnis zu kommen) und dass die Besucher Schwierigkeiten haben, das Produkt zu finden.
Um die Navigation zu verbessern, beschließt er, ein Experiment durchzuführen, bei dem er eine Variante mit einer intuitiveren Navigation erstellt, die die Nutzer direkt in den Flash-Sale-Trichter führt, um zu testen, ob diese Version die Probleme bei der Entdeckung des neuen Handys lösen würde. Kurz gesagt, Jim versucht, einen entscheidenden KPI zu verbessern – den Prozentsatz der Sitzungen, in denen die Nutzer das neue Handy entdecken konnten.
Er sieht sich die eingehenden Daten des Experiments an und stellt fest, dass die Änderungen an der In-App-Navigation einen starken Aufschwung zeigen. Jim ist jedoch ganz aus dem Häuschen – er möchte die ersten Ergebnisse mit der Geschäftsleitung teilen und sie ebenso begeistern. Gerade als er mit einer Kopie der ersten Trends in die Kabine des CMO stürmen will, um sie davon zu überzeugen, mehr Datenverkehr auf die neue Navigation zu lenken, wird er durch die Bemerkung eines Datenwissenschaftlers aufgehalten.
„Jim, diese Trends sind großartig, aber sind sie statistisch belastbar? Wo ist die Signifikanz?“
„Aber wir haben keine Zeit, darauf zu warten! Der Verkauf endet in 3 Tagen!“ Jim stöhnt.
Wer hat Recht? Jim, der die Aufgabe hat, innerhalb von 3 Tagen das Bestmögliche zu erreichen, oder der Datenwissenschaftler, der die statistische Aussagekraft in Frage stellt? Nun, beide haben recht, und hier ist der Grund dafür.
Erinnern Sie sich noch an den Spruch, dass die Kosten für die Steigerung der Konversionen die Konversionen sind? Jims Situation rechtfertigt einen Ansatz, der die Kosten für die Durchführung eines A/B-Tests minimiert. Der Verlust von Konversionen aufgrund der schlecht funktionierenden Variante wird als Bayes’sches Bedauern bezeichnet.
Die Minimierung des Bedauerns ist besonders wichtig in zeitkritischen Situationen oder in Fällen, in denen die Kosten für schlechte Variationen so hoch sind, dass Unternehmen zögern, A/B-Tests durchzuführen.
Da Jim sich auf ein Drei-Tages-Fenster verlässt, um die Verkäufe zu maximieren, kann er nicht auf die statistische Signifikanz warten und dadurch Konversionen verlieren, was manchmal Wochen (oder Monate, bei Websites mit geringem Traffic) dauert. Wenn er auf die statistische Signifikanz wartet, kann er die Ergebnisse nicht mehr nutzen, da das 3-Tage-Fenster dann vorbei ist.
Hätte Jim nur die Multi-Arm-Bandit Algorithmen zur Verfügung, wäre dieses Problem nicht aufgetreten. Hier ist der Grund.
Was ist ein Multi-Arm-Bandit Test?
MAB ist eine Art von A/B-Testing, bei dem maschinelles Lernen eingesetzt wird, um aus den während des Tests gesammelten Daten zu lernen und die Besucherzuteilung dynamisch zu Gunsten der leistungsfähigeren Varianten zu erhöhen. Das bedeutet, dass Varianten, die nicht gut sind, im Laufe der Zeit immer weniger Besucher erhalten.
Das Kernkonzept von MAB ist die ‚dynamische Verkehrszuweisung‘ – eine statistisch robuste Methode, um kontinuierlich zu ermitteln, inwieweit eine Version anderen überlegen ist, und den Großteil des Datenverkehrs dynamisch und in Echtzeit an die siegreiche Variante weiterzuleiten.
Im Gegensatz zu A/B-Tests maximiert MAB die Gesamtzahl der Konversionen im Verlauf des Tests. Der Nachteil ist, dass die statistische Sicherheit in den Hintergrund tritt, da der Schwerpunkt auf den Konversionen und der Ermittlung der genauen Konversionsraten (aller Varianten, einschließlich der schlechtesten) liegt.
Was ist das Problem des Multi-Arm-Bandits?
MAB ist nach einem Gedankenexperiment benannt, bei dem ein Spieler zwischen mehreren Spielautomaten mit unterschiedlichen Auszahlungen wählen muss. Die Aufgabe des Spielers besteht darin, den Geldbetrag, den er mit nach Hause nimmt, zu maximieren. Stellen Sie sich einen Moment lang vor, Sie wären der Spieler. Wie würden Sie Ihren Gewinn maximieren?
Da Sie mehrere Spielautomaten zur Auswahl haben, können Sie entweder die Auszahlungsmöglichkeiten ermitteln, indem Sie alle Automaten ausprobieren und so viele Daten sammeln, bis Sie sicher wissen, welcher Automat der beste ist.
Auf diese Weise erfahren Sie zwar das genaue Auszahlungsverhältnis aller Spielautomaten, aber Sie hätten dabei eine Menge Geld für Automaten mit niedrigen Auszahlungen verschwendet. Das ist es, was bei einem A/B-Test passieren kann. Die Alternative ist, sich schneller auf einige wenige Spielautomaten zu konzentrieren, die Gewinne kontinuierlich auszuwerten und Ihre Investitionen an diesen Spielautomaten zu maximieren, um höhere Gewinne zu erzielen. Dies geschieht beim Ansatz des Multi-Arm-Bandits.
Mehrarmiger Bandit bei der Arbeit
Bildquelle: towards data science
Exploration und Ausbeutung
Um den MAB besser zu verstehen, gibt es zwei Säulen, die diesen Algorithmus antreiben – „Exploration“ und „Exploitation“. Die meisten klassischen A/B-Tests befinden sich von vornherein im „Erkundungs“-Modus – schließlich ist die Ermittlung statistisch signifikanter Ergebnisse der Grund für ihre Existenz, daher die ständige Erkundung.
Bei einem A/B-Test liegt der Schwerpunkt auf der Ermittlung der genauen Konversionsrate von Varianten. MAB fügt dem A/B-Test eine weitere Variante hinzu – die Ausnutzung. Aufgrund der Absicht von MAB, Konversionen und Gewinn zu maximieren, laufen Ausbeutung und Erkundung parallel, ähnlich wie bei einem Zug. Stellen Sie sich vor, dass der Algorithmus mit einer Rate von vielen Besuchern pro Sekunde erkundet, zu ständig wechselnden Gewinn-Basislinien gelangt und kontinuierlich den Großteil Ihres Traffics dynamisch der Variante zuweist, die in diesem Moment eine höhere Gewinnchance hat (Ausbeutung).
Es mag sich so anhören, als ob MAB Heuristiken verwendet, um mehr Datenverkehr auf leistungsfähigere Varianten zu verteilen. Unter der Haube ist die Implementierung von MAB bei VWO jedoch statistisch robust. VWO verwendet ein mathematisches Modell, um die geschätzten Konversionsraten der Variationen kontinuierlich zu aktualisieren und weist den Traffic direkt proportional zu diesen Schätzungen zu.
Je besser die Schätzung der leistungsstärksten Variante ausfällt, desto höher ist der prozentuale Anteil dieser Variante am Traffic. Wenn Sie sich für die Mathematik des MAB-Algorithmus von VWO interessieren, sollten Sie mehr über das Konzept des Thompson Sampling lesen oder eine Demo von unseren Optimierungsspezialisten anfordern, um mehr über die Funktionsweise zu erfahren.
Während des Testzyklus balanciert der Algorithmus zwischen Explorations- und Exploitationsphasen. Da die leistungsstarken Versionen mehr Konversionen erzielen, wird der Traffic-Split immer breiter und erreicht einen Punkt, an dem die große Mehrheit der Nutzer die leistungsstärkere Variante erhält. MAB ermöglicht es Jim aus unserem obigen Beispiel, nach und nach die beste Version seiner mobilen App einzuführen, ohne darauf warten zu müssen, dass seine Tests statistische Signifikanz erreichen.
Exploration vs. Exploitation bei A/B-Tests und Bandit-Auswahl
Warum A/B-Tests besser sind als MAB
Wenn Sie die Vor- und Nachteile von Multi-Arm-Bandit- und A/B-Tests abwägen, sollten Sie sich darüber im Klaren sein, dass beide Tests aufgrund ihrer unterschiedlichen Schwerpunkte unterschiedliche Anwendungsfälle lösen. Ein A/B-Test wird durchgeführt, um Daten mit der entsprechenden statistischen Sicherheit zu sammeln. Ein Unternehmen verwendet dann die gesammelten Daten, interpretiert sie in einem größeren Zusammenhang und trifft dann eine Entscheidung.
Im Gegensatz dazu maximieren Multi-Armed-Bandit-Algorithmen eine bestimmte Metrik (im VWO-Kontext sind das Umsätze eines bestimmten Typs). Es gibt keine Zwischenstufe der Interpretation und Analyse, da der MAB-Algorithmus den Traffic automatisch anpasst. Das bedeutet, dass A/B-Tests perfekt für Fälle geeignet sind, in denen:
- Das Ziel ist es, Daten zu sammeln, um eine wichtige Geschäftsentscheidung zu treffen. Wenn Sie z.B. über die Positionierung eines Produkts entscheiden, sind Daten über das Engagement bei verschiedenen Positionierungen in einem A/B-Test ein wichtiger Datenpunkt (aber nicht der einzige).
- Das Ziel ist es, die Auswirkungen aller Variationen mit statistischer Sicherheit zu ermitteln. Ein Beispiel: Wenn Sie sich die Mühe gemacht haben, ein neues Produkt zu entwickeln, möchten Sie nicht nur die Verkaufszahlen optimieren, sondern auch Informationen über die Leistung des Produkts sammeln, damit Sie beim nächsten Mal die gewonnenen Erkenntnisse in die Entwicklung eines besseren Produkts einfließen lassen können.
CityCliq konnte nach der Durchführung von A/B-Tests für die Produktpositionierung einen Anstieg der CTR um 90 % verzeichnen. Die Daten aus dieser Testreihe sind eine gute Grundlage für zukünftige Tests.
Vorteile des Multi-Arm-Bandit-Tests
Im Gegensatz dazu ist MAB perfekt für Fälle geeignet, in denen:
- Die effiziente Zuteilung von Ressourcen zu den vielversprechendsten Varianten ist von entscheidender Bedeutung, vor allem wenn die Ressourcen begrenzt sind. Dies trägt dazu bei, die Opportunitätskosten zu reduzieren, die mit der Umleitung des Verkehrs auf eine suboptimale Variante verbunden sind.
- Es besteht keine Notwendigkeit, die Ergebnisse/Leistung der Varianten zu interpretieren, und alles, was Sie interessiert, ist die Maximierung der Konversion. Ein Beispiel: Wenn Sie ein Farbschema testen, wollen Sie nur dasjenige anbieten, das die Konversionsrate maximiert.
- Das Zeitfenster für die Optimierung ist kurz und die Zeit reicht nicht aus, um statistisch signifikante Ergebnisse zu erzielen. Zum Beispiel: Optimierung der Preisgestaltung für ein zeitlich begrenztes Angebot.
Zusammenfassend kann man sagen, dass sowohl A/B als auch MAB ihre Stärken und Schwächen haben – die Dynamik zwischen beiden ist komplementär und nicht konkurrierend.
Anwendungsfälle für Multi-Arm-Bandit-Tests
Im Folgenden finden Sie einige häufig vorkommende Szenarien aus der Praxis, in denen sich MAB gegenüber A/B-Tests als eindeutig überlegen erwiesen hat:
1. Die Opportunitätskosten für verlorene Konversionen sind zu hoch
Stellen Sie sich vor, Sie verkaufen Diamanten (oder ein Auto) online. Jede entgangene Konversion ist für Sie wahrscheinlich Tausende von Dollar an entgangenen Chancen wert. In diesem Fall ist der Fokus von MAB auf die Maximierung von Konversionen die perfekte Lösung für Ihre Website-Optimierung.
2. Optimierung der Klickraten für Nachrichtenagenturen, die über zeitkritische Ereignisse berichten
Einprägsame Schlagzeilen zu entwerfen war ursprünglich die Aufgabe eines Redakteurs, aber das ist eindeutig überholt – fragen Sie unsere Freunde bei der Washington Post. Die kurze Haltbarkeit von Nachrichten bedeutet, dass eine schnelle Optimierung unerlässlich ist. Sie optimieren und testen Schlagzeilen, Foto-Miniaturansichten, Video-Miniaturansichten, empfohlene Nachrichtenartikel und beliebte Artikel, um innerhalb eines kurzen Zeitfensters ein Maximum an Klicks zu erzielen.
3. Kontinuierliche Optimierung
Optimierer haben die Möglichkeit, mehrere Elemente zu den Variationen hinzuzufügen oder zu entfernen und alle gleichzeitig zu testen. Bei einem herkömmlichen A/B-Test gibt es wenig Spielraum, um mehrere Änderungen vorzunehmen, sobald das Experiment live geht, denn die Daten sind unantastbar.
4. Optimierung der Einnahmen bei geringem Verkehr
Wenn der Traffic nicht ausreicht, kann es bei A/B-Tests sehr lange dauern, bis eine statistische Signifikanz erreicht wird. In solchen Fällen kann es für ein Unternehmen besser sein, einen MAB-Test durchzuführen, da er die potenziell beste Version viel früher erkennen und einen größeren Teil des Traffics auf sie lenken kann.
Die Grenzen von MAB verstehen: Wo A/B-Tests eindeutig die bessere Wahl sind:
1. Wenn Sie eine statistische Signifikanz anstreben
Trotz all ihrer Stärken sind Multi-Arm-Bandit Experimente nicht die beste Wahl, wenn Sie einen statistisch belastbaren Gewinner ermitteln möchten. A/B-Tests sind immer noch der schnellste Weg zu statistischer Signifikanz, auch wenn Sie dabei einige Konversionen verlieren könnten.
2. Optimieren für mehrere Metriken
Ausgereifte Experimentierteams verfolgen mehr als 4 Ziele pro Experiment, da Erfahrungen aus primären und sekundären Zielen zusammengesetzt sind. MAB-Experimente eignen sich zwar hervorragend zur Optimierung für eine Schlüsselkennzahl, aber nicht für mehrere Ziele, da sie bei der Zuweisung des eingehenden Datenverkehrs nur das primäre Ziel berücksichtigen.
3. Analyse nach dem Experiment
Die meisten CROs möchten die während eines Experiments gesammelten Daten auswerten, um zu prüfen, wie verschiedene Segmente auf die Änderungen an ihren Web-Eigenschaften reagiert haben. Diese Analyse ist bei A/B-Tests möglich, bei MAB jedoch möglicherweise nicht, da für unterdurchschnittliche Variationen möglicherweise nicht genügend Daten zur Verfügung stehen.
4. Einbeziehung der Lehren aus allen Varianten (auch den schlechten) in weitere Geschäftsentscheidungen
Im Laufe des Tests weist MAB der leistungsstärksten Variante den meisten Verkehr zu. Das bedeutet, dass die Varianten mit schlechter Leistung nicht genug Traffic erhalten, um statistische Sicherheit zu erreichen. Während Sie also die Konversionsrate für die leistungsstärkste Variante mit Sicherheit kennen, ist eine ähnliche Sicherheit für die leistungsschwachen Varianten nicht gegeben. Wenn dieses Wissen für eine geschäftliche Entscheidung wichtig ist (vielleicht wollen Sie wissen, wie schlecht die verlierende Variante im Vergleich zur besten ist), ist ein A/B-Test der richtige Weg.
Wie man Multi-Arm-Bandit-Tests implementiert
Die Durchführung eines MAB-Tests ist ähnlich wie die Durchführung eines A/B-Tests, mit nur wenigen Unterschieden. Beginnen Sie mit einer Untersuchung, um das Problem zu identifizieren, das die Reibung in der Besucherreise verursacht. Stellen Sie eine Hypothese auf, mit der Sie Ihr Ziel erreichen können, und die auf das vorliegende Problem abgestimmt ist. Zum Beispiel kann das Ziel, die Anzahl der eingegebenen Formulare zu erhöhen, das Problem der niedrigen Konversionsraten auf Ihrer Website lösen.
Beachten Sie bei der Einrichtung des Tests, dass die Stichprobengröße, die bei A/B-Tests normalerweise keine große Rolle spielt, bei MAB-Tests entscheidend ist. Führen Sie MAB-Tests idealerweise auf Seiten mit hohem Besucheraufkommen durch. Bei geringem Datenverkehr kann sich die Zeit bis zum Erreichen der statistischen Signifikanz verlängern, da MAB den Datenverkehr dynamisch auf der Grundlage der Variationsleistung durch den Kompromiss zwischen Exploration und Exploitation zuweist.
Daher werden mehr Zeit und Daten benötigt, damit sich MAB effektiv anpassen kann. Andererseits sorgt ein höheres Verkehrsaufkommen für eine bessere Aufteilung zwischen den Varianten und damit für zuverlässigere Testergebnisse.
Verwenden Sie unseren Rechner für die Dauer von A/B-Tests, um den erforderlichen Traffic und die Dauer für Ihren MAB-Test zu ermitteln. Berücksichtigen Sie Faktoren wie das aktuelle Besucheraufkommen auf Ihrer Website, die Anzahl der Varianten (einschließlich der Kontrolle) und die gewünschte statistische Signifikanz.
Fazit
Wenn Sie neu in der Welt der Conversion- und Erlebnisoptimierung sind und noch keine Tests durchführen, sollten Sie jetzt damit beginnen. Laut Bain & Co wachsen Unternehmen, die die Kundenerfahrung kontinuierlich verbessern, 4 bis 8 % schneller als ihre Konkurrenten.
Sehen Sie sich dieses Video an, wenn Sie den Unterschied zwischen A/B-Tests und MAB besser verstehen möchten.
Sowohl A/B-Tests als auch MAB sind effektive Optimierungsmethoden. MAB ist eine großartige Alternative für Optimierer, die unter Zeitdruck stehen und mit statistischer Signifikanz im Austausch für mehr Konversionen in einem kurzen Zeitfenster teilnehmen können. Wenden Sie sich an sales@vwo.com, wenn Sie MAB kennenlernen möchten oder fordern Sie eine Demo von unseren MAB-Experten an.
Multi-Armed Bandits (MAB) sind in bestimmten Optimierungsszenarien hilfreich. In einem Multi-Armed-Bandit-Experiment sorgt die dynamische Zuweisung des Datenverkehrs an die leistungsstärksten Varianten für eine effiziente Ressourcennutzung und reduziert die Opportunitätskosten, indem immer weniger Datenverkehr an die leistungsschwächeren Varianten gesendet wird. Dies führt zu schnellerem Lernen, da sich der Algorithmus in Echtzeit anpasst, die Conversion-Raten maximiert und eine kontinuierliche Optimierung ermöglicht.
Multiarmed Bandit (MAB) Testing ist ein Optimierungsverfahren, bei dem der Datenverkehr dynamisch den leistungsstärksten Varianten zugewiesen wird, um ein bestimmtes Ziel zu erreichen. MAB-Tests passen die Zuweisungen in Echtzeit auf der Grundlage der laufenden Testleistung an, was sie in Szenarien mit hohem Verkehrsaufkommen besonders effektiv macht.
Bevor Sie über Multi-Armed-Bandit- und A/B-Testing debattieren und entscheiden, welches Testverfahren Sie anwenden sollten, müssen Sie den Unterschied zwischen beiden kennen. Beim A/B-Testing wird der Datenverkehr bis zum Abschluss des Experiments nach einem festen Schema gleichmäßig auf die Varianten verteilt. Bei einem Multi-Armed-Bandit-Test hingegen wird der Traffic dynamisch auf die leistungsstärksten Varianten in einem laufenden Test verteilt und immer weniger auf die leistungsschwächsten Varianten. Mit mehrarmigen Bandit-Tests können Sie schnell zu einer Optimierung gelangen, während A/B-Tests unter Umständen längere Zeiträume benötigen, um statistische Signifikanz zu erreichen. Die Wahl zwischen den beiden Varianten hängt von Ihren Testzielen ab.