A/B-Tests von Texten mit GPT-3.5 Turbo für Experimente mit AI

Von der anfänglichen Unterstützung des Menschen bei überflüssigen und manuellen Aufgaben bis hin zur Bewältigung kreativer Aufgaben wie dem Erstellen von Kunstwerken oder dem Komponieren von Musik hat sich die KI in nie dagewesener Weise entwickelt und verändert. Eine dieser kreativen Aufgaben, die Bots erstaunlich gut beherrschen, ist das Schreiben von Texten! Ja, GPT-3.5 Turbo (Generative Pre-trained Transformer 3) ist eine KI, die mit Hilfe eines neuronalen Netzes nahezu fehlerfreien Text produzieren kann, der dem jeweiligen Kontext entspricht. GPT-3.5 Turbo wurde von OpenAI, einem in San Francisco ansässigen Forschungslabor, entwickelt und ist ein leistungsstarker Sprachgenerator der dritten Generation, der mithilfe von maschinellem Lernen Text vorhersagen und produzieren kann, fast wie ein Mensch.

Kostenlos herunterladen: A/B-Testing Leitfaden

Wenn Sie mehr über GPT-3.5 Turbo erfahren möchten, finden Sie im Folgenden weitere Informationen dazu:

Generativ: Das Modell soll Text generieren, indem es ein Wort nach dem anderen in einem bestimmten Satz prognostiziert.

Pre-trained: Zeigt an, dass eine große Menge an Daten in das System eingespeist wurde, um es zu trainieren.

Transformer: Bezeichnet den vom KI-Modell verwendeten Algorithmus, der auf die Verarbeitung natürlicher Sprache spezialisiert ist, d. h. darauf, wie Wörter in einer Sprache verwendet werden und was sie bedeuten.

Sobald GPT-3.5 Turbo mit einer Eingabeaufforderung gefüttert wird, erzeugt es Textströme, indem es die Möglichkeit vorhersagt, dass ein Satz in dieser Welt existiert. Derzeit befindet sich die Funktion in der Betaphase und wird nur einer ausgewählten Gruppe (einschließlich VWO) über eine über die Cloud zugängliche API angeboten.

Seien wir ehrlich – das Verfassen von Texten ist keine leichte Aufgabe. Das robuste und flexible Sprachmodell von GPT-3.5 Turbo kann einen kurzen Text in großem Umfang erstellen. Wenn Sie dazu noch die Möglichkeit haben, Textversionen zu testen, können Sie das Beste aus beiden Welten bekommen. Außerdem drehen sich einige der am häufigsten durchgeführten Tests um das Kopieren von Webseiten. Daher war die Integration der GPT-3.5 Turbo API von Open AI mit VWO Testing für uns die natürlichste und logischste Sache, die wir tun konnten.

Mit unserer neuen Funktion können Sie mithilfe von KI generierte Texte für Ihre Website erstellen und diese ohne Hilfe der IT-Abteilung einsetzen. Sie können die KI-generierten Texte auch mit den von Menschen geschriebenen Originaltexten auf Ihrer Website vergleichen. Im nächsten Abschnitt erfahren Sie, wie bekannte Marken die praktischen Auswirkungen unserer neuen Funktion durch einen freundschaftlichen Wettbewerb zwischen von Menschen geschriebenen und KI-generierten Texten entdeckt haben.

VWOs Wettbewerb Mensch vs. KI

Im August diesen Jahres veranstaltete VWO einen freundschaftlichen Wettbewerb zwischen Texten, die von menschlichen Textern geschrieben wurden, und solchen, die von unserer neuen Funktion auf der Grundlage der GPT-3.5 Turbo API von OpenAI erstellt wurden. Wir luden Teilnehmer aus der ganzen Welt ein und testeten KI-generierte Texte gegen von Menschen geschriebene Texte für ihre Webseiten mit ausreichendem Traffic über VWO oder andere Testplattformen, die sie verwendeten.

Mehr als 450 Marken erhielten im Rahmen dieses Wettbewerbs Zugang zu der KI-Funktion für die Erstellung von Texten. Unter den 18 Teilnehmern, die in die engere Wahl kamen, waren Booking.com, Clark Germany GmbH und Schneiders, um nur einige zu nennen. Die KI-Funktion war in der Lage, Texte in verschiedenen Sprachen wie Spanisch, Deutsch, Portugiesisch usw. zu erstellen. Die Teilnehmer waren mit der Genauigkeit der Ausgabe in diesen Sprachen sehr zufrieden.

Alle Teilnehmer mussten ihre Tests so anlegen, dass die ursprüngliche Website-Kopie als Kontrolle und die von der KI generierte(n) Kopie(n) als Variation diente(n).

Ergebnisse des Wettbewerbs

Unter den 18 Tests, die von den bestätigten Teilnehmern durchgeführt wurden, gewann bei 1 Test eine bestehende (oder neue) von Menschen geschriebene Kopie, bei 3 Tests gewann eine KI-Kopie, bei 3 Tests gab es ein Unentschieden, bei 2 Tests stehen die Ergebnisse noch aus und 9 Tests waren nicht eindeutig.

Werfen wir einen Blick auf einige der Tests, bei denen die KI-generierte Kopie gewonnen hat:

Schneiders [Ein E-Commerce-Shop für Pferdebekleidung & Reitausrüstung]

Das Team testete den Text des obersten Banners, indem es mit dem KI-gestützten Sprachgenerator eine Variation der Originalseite erstellte. Hier sehen Sie einen Blick auf die Kontrolle und die Variation aus dem Test:

Human Written Copy In Ab Test On Schneiders — *Kontrolle [von Menschen geschriebene Kopie]*

Gpt 3 Ai Written Copy In Ab Test On Schneiders — *Variation [KI-generierte Kopie*]

Nachdem statistisch signifikante Ergebnisse erzielt worden waren, wurde die Variante des A/B-Tests zum Sieger erklärt, da sie zu einem Anstieg der Bannerklicks um 7,06 % führte.

Clark Germany GmbH [Eine Versicherungsagentur mit Sitz in Frankfurt]

Es wurden 3 Variationen der Seitenüberschrift unter Verwendung der KI-Kopie erstellt und mit der Kontrollseite verglichen. Der Test wurde 48 Tage lang durchgeführt. Im Folgenden sind die Kontrolle und die Variationen des Tests dargestellt:

Human Written Copy In Ab Test On Clark Germany — *Kontrolle [Von Menschen geschriebene Kopie]*

*English translation: Manage Your Insurance Digitally*

Gpt 3 Ai Written Copy In Ab Test On Clark Germany — *Variante 1 [AI-Kopie]*

*English Translation: Manage Your Insurance Digitally*

Variation 2 Of The Gpt 3 Ai Written Copy In Ab Test On Clark Germany — *Variante 2 [AI-Kopie]*

*English Translation: Keep Track Of Your Insurances*

Variation 3 Of The Gpt 3 Ai Written Copy In Ab Test On Clark Germany — *Variante 3 [AI-Kopie]*
*English Translation: Clark Is Your Digital Insurance Manager*

Sobald der Test abgeschlossen war (statistische Signifikanz > 90%), schnitten alle 3 Varianten besser ab als die Kontrollgruppe. Variante 2 führte zu einem maximalen Anstieg der CTA-Klicks (15,77%), während Variante 1 und 3 einen Anstieg von 9,13% bzw. 7,13% erzielten.

Hier ist der Test, der die menschliche Kopie zum Sieger erklärte:

Booking.com [Ein globales Reiseunternehmen]

Das Team von Booking.com testete den CTA auf ihren Hotelbuchungsseiten. 2 von Menschen geschriebene Kopien wurden mit einer von einer KI generierten verglichen. Nachfolgend sind die erstellten Varianten aufgeführt:

Human Written Copy In Ab Test On Booking Com — *Variante 1 [von Menschen geschriebenes Exemplar Nr. 1*]

Gpt 3 Ai Written Copy In Ab Test On Booking Com — *Variante 2 [von Menschen geschriebenes Exemplar Nr. 2]*

Variation Of The Gpt 3 Ai Written Copy In Ab Test On Booking Com — *Variante 3 [KI-generiertes Exemplar]*

Der menschliche Text Nr. 1 gewann den Test, da er die CTA-Conversion Rate um 1,7% steigerte.Hier ist ein Test, der zu einem Gleichstand zwischen Mensch und KI führte:

Springworks [Ein SaaS-Unternehmen mit Sitz in Indien]

Das Team von Springworks testete die Überschrift ihrer Landing Page, indem es eine Variation mit dem von der KI generierten Text erstellte und diese mit dem Original (Kontrolle) verglich. Ziel war es, die Klicks auf die CTA „Add Trivia“ zu erhöhen. Der Test wurde 8 Tage lang durchgeführt. Hier ein Blick auf die Kontrolle und die Variation:

Human Written Copy In Ab Test On Springworks — *Kontrolle [Von Menschen geschriebene Kopie]*

Gpt 3 Ai Written Copy In Ab Test On Springworks — *Variation [AI-Kopie]*

Da der Unterschied in der Erhöhung der CTA-Klicks zwischen der Kontrolle und der Variation weniger als 5% betrug und die Testergebnisse statistisch nicht signifikant waren, wurde der Test als unentschieden gewertet.

Kostenlos herunterladen: A/B-Testing Leitfaden

Lassen Sie uns nun in die Einzelheiten der Zusammenarbeit zwischen VWO Testing und GPT-3.5 Turbo eintauchen.

VWO Testing und GPT-3.5 Turbo

Wir haben die GPT-3.5 Turbo API von Open AI in unseren Visual Editor integriert, so dass Sie jedes Mal, wenn Sie sich für einen Test oder eine Änderung entscheiden, Kopiervorschläge generieren können, aus denen Sie Variationen erstellen können. Das bedeutet, dass Sie weniger Zeit für das Brainstorming über Varianten und Alternativen aufwenden müssen, da Ihnen eine Bibliothek mit KI-generierten Ideen zur Verfügung steht.

Unabhängig davon, ob Sie Überschriften, CTA-Texte, Produktbeschreibungen oder andere Texte auf Ihrer Website optimieren möchten, Sie können schnell Alternativen generieren und diese entweder direkt einsetzen oder im Vergleich zu Ihrem Originaltext testen, beides ohne die Hilfe von Entwicklern. So oder so, durch die Automatisierung dieses Aspekts des Experimentierens können Sie Ihr CRO-Programm effizienter und flexibler gestalten.

Wenn Sie den Visual Editor von VWO öffnen und auf einen beliebigen Textabschnitt klicken, finden Sie im Dropdown-Menü die Option „Varianten vorschlagen“. Wenn Sie darauf klicken, wird eine Reihe von KI-gesteuerten Textvorschlägen (basierend auf dem vorhandenen Text) angezeigt, aus denen Sie wählen können.

Klingt zu schön, um wahr zu sein? Registrieren Sie sich für eine kostenlose Testversion von VWO und überzeugen Sie sich selbst von dem Feature GPT-3.5 Turbo.

Was bringt die Zukunft für GPT-3.5 Turbo, automatisierte Texte und Testings?

Experten sind sich uneins über den Wirkungsbereich von GPT-3.5 Turbo und das Ausmaß, in dem Menschen das Modell zur Automatisierung von Texten nutzen können. Während einige der Ansicht sind, dass das Modell darauf trainiert werden kann, menschliche Texte zu imitieren und zu ersetzen, argumentieren andere, dass es ihm an der Fähigkeit mangelt, zusammenhängende Sätze zu konstruieren, Argumente oder Logik konstruktiv zu verwenden oder eine Erzählung aufzubauen – etwas, das nur von einem menschlichen Texter erwartet werden könne.

Es ist schwer, alles, was passieren könnte, vorherzusehen. Wir glauben nicht, dass wir alles richtig machen können, schon gar nicht im Voraus. Dennoch ist es besser, jetzt mit dieser Art von Technologie zu spielen, solange sie noch kontrolliert werden kann, und Lektionen zu lernen, die wir anwenden können, wenn die KI immer leistungsfähiger wird.
Greg Brockman, Mitgründer & CTO, OpenAI

Ob automatisiertes Texten in Zukunft die Norm sein wird, werden wir erst herausfinden, wenn wir das volle Potenzial von GPT-3.5 Turbo weiter ausgeschöpft haben. Was wir jedoch schon jetzt mit Sicherheit wissen, ist die Tatsache, dass diese Innovation revolutionär sein wird, wenn es um das Experimentieren mit Texten geht.

Mit Ihrem neuen KI-Partner können Sie den Zeitaufwand für manuelle Arbeit sowie Iterationen mit einem Textautoren reduzieren. Durch die sekundenschnelle Generierung von KI-Texten auf Abruf und schnelle Korrekturen in Echtzeit auf Ihrer Website können Sie Short-Form-Inhalte in großem Umfang erstellen und so einen großen Schritt in Richtung einer höheren Testgeschwindigkeit und der Weiterentwicklung Ihres CRO-Programms machen.

Die Leistungsfähigkeit von GPT-3.5 Turbo bei der textgesteuerten Optimierung ist immens, und bisher haben wir nur die Spitze des Eisbergs gestreift. Dennoch ist eine gewisse Zurückhaltung angebracht, denn wir können das Tool nicht mit der Intelligenz menschlicher Copywriter gleichsetzen – zumindest noch nicht. Der eigentliche Wert liegt, zumindest im Moment, in der Möglichkeit, Textvarianten effektiv zu testen und gleichzeitig das Hin und Her mit Textern und Entwicklern zu reduzieren. Das Beste daran ist, dass wir die Stärken von GPT-3.5 Turbo weiterhin nutzen können, um mit Plattformen wie VWO bessere und schnellere Experimente durchzuführen.

Categories:

A/B Testing

Lea Marks

Mehrsprachige Content-Autorin und Geschichtenerzählerin mit einer gewissen Vorliebe für die Geschichten, die Menschen zusammenbringen, egal wie weit sie auf einer Landkarte voneinander entfernt sind. Seitdem ich sprechen kann, habe ich dies in Spanisch, Deutsch, Englisch und Katalanisch getan und habe deshalb ein starkes Interesse an Linguistik und kreativem Übersetzen entwickelt. Wenn ich nicht gerade schreibe oder etwas übersetzte, lese ich, reise und bin gelegentlich als Schauspielerin unterwegs.