VWO Logo VWO Logo

Was der DACH-Markt beim Thema CRO immer noch falsch versteht | Antonia Grzelak

Release On: 15/05/2026 Duration: 50 minutes
Explore for Free Request Demo
Antonia Grzelak
Speaker Antonia Grzelak Manager of Growth & Innovation, FUNKE Works
Maximilian Fronn
Host Maximilian Fronn Manger Customer Success & DACH Lead, VWO
Back to Podcasts

About this episode

Ein gescheiterter Test ist kein Rückschlag. Er gehört zu den wertvollsten Dingen, die ein Team hervorbringen kann.

Antonia Grzelak, Manager of Growth and Innovation bei FUNKE Works, spricht genau darüber im VWO-Podcast. 

FUNKE Works, das Mutterunternehmen von Azubiyo und Absolventa, ist Deutschlands führende digitale Ausbildungs- und Karriereplattform.

Im Gespräch mit Host Maximilian Fronn, Customer Success Manager und DACH-Lead bei VWO, erzählt Antonia, wie sie Experimentation über die Jahre von einer Marketing-Disziplin zu einem unternehmensweiten Wachstumstreiber gemacht hat.

In dieser Folge spricht Antonia über:

  • Wie sie Funnel-Engpässe erkennt, bevor sie sich in den Zahlen zeigen
  • Was eine saubere Testhypothese ausmacht
  • Warum ein gescheiterter Test nie verlorene Zeit ist
  • Was es wirklich braucht, um eine Experimentierkultur aufzubauen, die über das Marketing hinausgeht

Neugierig geworden? Vereinbare eine Demo und entdecke, was VWO für dein Team tun kann.

Ideen, die du direkt anwenden kannst

Der Funnel beginnt vor der Landingpage

Pre-Click-Metriken wie CTR und CPC können stabil bleiben oder sich sogar verbessern, während die Conversion gleichzeitig sinkt. Genau das ist das Signal: Nicht die Kampagne ist das Problem, sondern das Website-Erlebnis. Erster Check: Tritt der Einbruch kanalübergreifend auf derselben Seite auf, ist die Seite die Variable.

Hoher Traffic ist nicht dasselbe wie hoher Wert

Ein Inhaltsbereich mit hoher Verweildauer und null Conversions ist eine verschenkte Chance. Die eigentliche Möglichkeit liegt darin, Nutzer genau in dem Moment abzuholen, in dem sie den Inhalt aufgenommen haben und bereit sind, den nächsten Schritt zu machen.

Ein gescheiterter Test ist trotzdem ein Erkenntnisgewinn

Tests, die eine Hypothese nicht bestätigen, liefern trotzdem wahre Erkenntnisse über die eigenen User. Das Wissen aus einem nicht erfolgreichen Test kann genauso strategisch wertvoll sein wie ein Conversion-Uplift. Der Schlüssel liegt darin, diesen Wert im Unternehmen sichtbar zu machen.

Stakeholder zu Mitstreitern machen, nicht zu Zuschauern

Die wirksamste Strategie für Stakeholder-Buy-in: den Schmerzpunkt finden, der in einem anderen Team bereits existiert, einen Test darum herum bauen und zeigen, was ein kleines, schnelles Experiment zutage bringt. Ein konkreter Proof of Concept schlägt zehn theoretische Präsentationen jedes Mal.

Die Conversion-Rate nicht als isolierte Kennzahl betrachten

Die Conversion-Rate allein reicht nicht aus und kann aktiv in die Irre führen. Sie braucht Leitplanken auf beiden Seiten. Eine Metrik zu optimieren und dabei eine andere still zu beschädigen ist keine Optimierung, sondern eine Verschiebung des Problems.

Antonias Pre-Test-Checkliste (das „Clean Thesis”-Framework)

Schritt 1: Die primäre Metrik definieren 

Was genau soll bewegt werden? Konkret formulieren: „Anzahl qualifizierter Bewerbungen”, nicht „Conversions”.

Schritt 2: Leitplanken-Metriken von Anfang an festlegen 

Identifizieren, was als Nebeneffekt nicht beschädigt werden darf. Das vor dem Teststart mit allen Stakeholdern teilen, nicht danach.

Schritt 3: Statistische Relevanz prüfen 

Gibt es genug Traffic für ein aussagekräftiges Ergebnis, oder werden am Ende nur Muster in zufällige Daten hineingelesen? Gegebenenfalls segmentieren.

Schritt 4: Das Zielsegment definieren 

Ist der Test für Mobile, Desktop oder beides relevant? Erstbesucher? Ein bestimmtes Kampagnen-Cluster? Die Segmentdefinition beeinflusst alles Weitere.

Schritt 5: ICE-Scoring für die Priorisierung anwenden

Jede Hypothese nach Impact (Wie groß ist das Potenzial?), Confidence (Wie sicher ist die Richtung?) und Ease (Wie schnell ist die Umsetzung?) bewerten. Dort anfangen, wo das Potenzial groß und der Aufwand gering ist.

Schritt 6: Zu große Hypothesen aufteilen

Wenn eine Test-Karte seit zwei Jahren im Backlog liegt, liegt das selten an einer schlechten Hypothese, sondern meist daran, dass sie einfach zu groß ist. In kleinere Schritte zerlegen, die nacheinander getestet werden können.

Schritt 7: Nach dem Test drei Optionen in Betracht ziehen

Nach einem Test: (a) ausrollen und umsetzen, wenn die Daten signifikant sind und die Leitplanken halten; (b) segmentieren, wenn die Ergebnisse je nach Gerät oder Zielgruppe stark abweichen; (c) iterieren, wenn das Ergebnis flach ist, und vorher Session Recordings nutzen, um zu verstehen, warum, bevor die nächste Hypothese geformt wird.

Einblicke von Antonia Grzela

„Ein Test, der am Ende nicht als Winner dasteht, ist trotzdem ein Zugewinn an Wissen. Nur weil ein Test unsere Hypothese nicht bestätigt hat, bedeutet das nicht, dass wir keine Erkenntnisse gewonnen haben. Das Gegenteil ist der Fall, und das ist eine Menge wert.”

„Der teuerste Fehler, im Marketing wie überall sonst, ist immer eine Annahme, die man nicht getestet hat.”

„Ich sehe ‚Das haben wir schon immer so gemacht’ als die größte Wachstumsbremse überhaupt. Es bedeutet, Dinge wirklich zu hinterfragen, die wir lange für selbstverständlich gehalten haben, und den Fokus vom Bewahren des Status quo hin zur Frage zu verschieben: “Was passiert, wenn wir komplett anders denken?”

„Stakeholder zu Mitstreitern machen. Zu Kollegen aus anderen Teams gehen, herausfinden, was die Kunden gerade am meisten stört, und dieses Problem angehen. Man kann skeptische Menschen ziemlich leicht zu großen Fans eines Experimentierprogramms machen.”

„Die Conversion-Rate kann in vielen Kontexten nicht für sich allein stehen. Isoliert betrachtet reicht sie nicht aus und braucht klare Leitplanken. Aufhören, sich auf diese eine Zahl zu fixieren, und schauen, was links und rechts davon liegt, um das Gesamtbild zu verstehen.”

Momente zum Nachdenken

F: Woran erkennt man, ob ein Traffic-Problem oder ein Conversion-Problem vorliegt?

Antonia teilt die Analyse in Pre-Click- und Post-Click-Verhalten auf und sucht nach einem übergreifenden Muster. 

Das deutlichste Signal ist die kanalübergreifende Kohärenz: Wenn ein Einbruch über SEA, Social, SEO und Direct Traffic hinweg auf derselben Seite sichtbar ist, ist die Seite selbst die Variable, nicht das Targeting. 

Sie beobachtet auch den First Fold genau und achtet auf plötzliche Anstiege der Absprungrate oder Unstimmigkeiten zwischen der Botschaft in der Kampagne und dem Inhalt der Seite. 

Außerdem verfolgt sie Micro-Conversions Schritt für Schritt, anstatt direkt zur letzten Funnel-Aktion zu springen. Wenn der Einbruch über diese Micro-Steps hinweg sichtbar wird, liegt wirklich ein Experience-Problem vor, kein Traffic-Problem.

F: Wie sieht eine verschenkte Chance in der Praxis aus, und was hat diese Entdeckung an deiner Herangehensweise an den Funnel verändert?

Bei Absolventa fand Antonia Content-Seiten, zum Beispiel Karriereprofile, die Berufsbilder und Gehälter erklären, mit beeindruckenden Traffic-Zahlen und langen Verweildauern, die aber schlicht nicht in Bewerbungen umgewandelt wurden. 

Nutzer befriedigten ihre Informationsbedürfnisse und verließen die Seite; das Geschäftsmodell griff erst, wenn sie weitergingen, um Stellenanzeigen zu sehen und sich direkt zu bewerben. 

Statt mehr Traffic einzukaufen, war die Lösung, den psychologischen Moment zu nutzen und relevante Stellenangebote genau dann sichtbar zu machen, wenn ein Nutzer gerade über eine Rolle las, die ihn interessierte. 

Das Ergebnis waren Conversion-Uplifts von bis zu 372 Prozent auf einzelnen Seiten sowie eine unternehmensweite Erkenntnis: Hoher Traffic ohne eine Brücke zur nächsten Aktion ist unsichtbarer Umsatz.

F: Was muss erfüllt sein, bevor ein Test bei dir live geht?

Antonia nutzt eine einfache, aber strikte Formel: Weil wir X wissen, glauben wir, dass Y zu Z führen wird. 

Vor jedem Teststart müssen vier Dinge klar definiert sein: 

  • die primäre Metrik (was wirklich gewonnen werden soll)
  • die Leitplanken-Metriken (was nicht beschädigt werden darf. Zum Beispiel darf eine höhere Bewerbungsanzahl nicht auf Kosten der Bewerberqualität gehen)
  • die statistische Relevanz (gibt es genug Traffic für ein klares Ergebnis?) und das Zielsegment (Mobile vs. Desktop, Erstbesucher, bestimmte Kampagnen-Cluster). 

Ohne eine saubere These, so Antonia, erhält man ein Ergebnis, das man nicht erklären kann. Und was man nicht erklären kann, lässt sich nicht skalieren.

F: Wie baust du echtes Stakeholder-Buy-in für ein Experimentierprogramm auf, besonders wenn die Zuständigkeit unklar ist?

Antonias Grundprinzip lautet: Skeptiker zu Mitstreitern machen, anstatt sie mit Präsentationen zu überzeugen. 

Sie empfiehlt, direkt auf Kollegen aus Sales, Customer Success oder Product zuzugehen, zu fragen, was die Kunden gerade am meisten beschäftigt, und dann einen Test rund um dieses konkrete Problem aufzubauen. 

Ein greifbarer Proof of Concept, selbst aus einem 30-tägigen Testzeitraum über mehrere Teams hinweg, ist weitaus überzeugender als theoretische Folien.

Sie betont auch den Faktor Geschwindigkeit: Tools wie VWO ermöglichen es Teams, Hypothesen zu testen, ohne auf Engineering-Kapazitäten warten zu müssen. 

Das lässt Experimentation wie echte Selbstbestimmung wirken, nicht wie einen weiteren Prozess.

F: Wie reif ist Experimentation im DACH-Raum, und was braucht es, um die höchste Stufe zu erreichen?

Antonia unterscheidet drei Reifegrade im deutschen Markt. 

  1. Erstens das gelegentliche Testen: eine andere Button-Farbe ausprobieren, Experimentation als Hobby. 
  2. Zweitens die Projektoptimierung: strukturierte Backlogs, meist im Marketing angesiedelt, die den Status quo schrittweise verbessern. 
  3. Drittens die Champions-League-Stufe: Experimentation als Betriebssystem des gesamten Unternehmens zu behandeln, nicht nur als Marketing-Disziplin, bis hin zu dem Punkt, an dem das Geschäftsmodell selbst hinterfragt wird. 

Sie weist darauf hin, dass die deutsche Fehlerkultur eine subtile Bremse sein kann:

Tests ohne klaren Winner werden noch immer manchmal als verschwendete Zeit betrachtet, obwohl das Wissen aus einem gescheiterten Test genauso wertvoll sein kann wie ein zehnprozentiger Conversion-Uplift.

A/B Testing Funnels Landing page optimization Website Personalization

Key moments

04:21

Pre-Click vs. Post-Click: Woran erkennst du ein Website-Problem?

14:52

North Star Metrik: Welche Kennzahl wirklich langfristiges Wachstum misst

23:20

Nach dem Test: Ausrollen, segmentieren oder iterieren?

31:06

Stakeholder Buy-in: Skeptiker zu Mitstreitern machen

34:32

KI im Testing: Wie künstliche Intelligenz die Hypothesenbildung beschleunigt

Transcript

Hinweis der Redaktion: Dieses Transkript wurde mithilfe von KI-gestützten Transkriptions- und Formatierungswerkzeugen erstellt. Fehler können nicht ausgeschlossen werden. Im Zweifel empfehlen wir, die Originalfolge zurate zu ziehen.

Episoden-Trailer

Also meiner Meinung nach macht es immer nicht Sinn, den Blick dann direkt so auf die allerletzte Conversion im Funnel zu richten, sondern wirklich Schritt für Schritt, vorm Klick, über die erste Interaktion bis zum Ende. Und wenn dann da der Bruch erkennbar ist, dann haben wir halt wirklich ein Experience-Problem und kein Traffic-Problem, was dann über unsere Kampagnen kommt letzten Endes.

Also Hypothese ist für mich immer so die Brücke zwischen den Problemen, was wir sehen und der Lösung, die wir so irgendwie vermuten. Und genau, ohne saubere These ist jeder Test letzten Endes wie so ein Experiment ohne Protokoll. Was Stakeholder bei ihm betrifft ist eigentlich so Stakeholder zu Komplizen machen.

Wirklich einfach mal ganz gezielt zu den unterschiedlichen Kollegen gehen. Wirklich so, welches Problem nervt zum Beispiel die Kunden gerade am meisten. Und mal einen Testcase aufmachen und aufzeigen, ey, mit diesem minimalen Ressourceneinsatz können wir gucken, ob wir dieses Problem so und so gelöst bekommen.

Da bin ich auch immer sehr froh dass es ja auch bei VWO ohne integriertes AI-Tool gibt, was dann gerne mal hilft. Das ist sehr, sehr schön. Das wird auch hier sehr gerne angenommen. Da ist auf jeden Fall auch ein großer Mehrwert drin.

Vorstellung des Gastes

Maximilian Fronn: Willkommen, liebe Zuhörerinnen, Zuhörer und Zuschauer, zu einer neuen Episode des VWO-Podcasts. Ich bin Max Fronn, meines Zeichens Manager im Customer Success-Bereich und DACH-Lead bei VWO, und freue mich sehr, dass ihr heute dabei seid. Unser heutiger Gast ist Antonia Grzelak, Head of Growth and Innovation bei Funke Works — dem Mutterunternehmen von Azubio, einer der führenden digitalen Ausbildungs- und Karriereplattformen in Deutschland. Mit über zehn Jahren Erfahrung in Marketing und Content bringt Antonia ein tiefes Verständnis dafür mit, was Nutzerentscheidungen wirklich beeinflusst. In ihrer aktuellen Rolle treibt sie Performance Marketing voran und hat Experimentation aktiv als Wachstumsmotor etabliert.

Heute sprechen wir darüber, wie Testing intern aufgebaut, skaliert und nachhaltig verankert werden kann. Antonia, schön, dass du da bist. Wie geht es dir heute?

Antonia Grzelak: Danke, freut mich. Mir geht es super. Wie geht es dir denn?

Maximilian Fronn: Kann mich auch nicht beschweren — ich stehe kurz vor meiner Woche Urlaub, insofern schon in sehr guter Stimmung und mit super Gast heute dabei. Alles top.

Antonia Grzelak: Das nehme ich doch immer gerne. Aber ja, kann ich nachvollziehen, dass dann die Stimmung top ist.

Persönliches Warm-up

Maximilian Fronn: Bevor wir in die strategischen Themen eintauchen, starten wir mit einem kleinen Warm-up, um dich noch etwas persönlich kennenzulernen. Hast du Rituale oder Gewohnheiten, die dir helfen, in den Flow zu kommen? Zum Beispiel vor einem Podcast wie heute, einer Präsentation oder einem wichtigen Meeting?

Antonia Grzelak: Tatsächlich hilft es mir immer wahnsinnig, einfach kurz mit Kollegen über irgendetwas zu quatschen, was so gar nichts mit Arbeit zu tun hat, um ehrlich zu sein. Ich glaube, ich bin jemand, der sich immer wahnsinnig tief in irgendetwas einarbeiten und dann auch wahnsinnig gut da reinsteigern kann. Deswegen hilft es mir einfach, um von einer Podcastaufnahme wie heute oder auch einfach einem Meeting, wo es vielleicht dann auch mal sehr in die Tiefe geht, über was ganz anderes zu reden — einfach einmal baumeln lassen.

Maximilian Fronn: Quasi nochmal kurz das Gehirn blank machen, wie beim Weintasting — kurz einmal nochmal durchspülen, mit vielleicht einem Kaffee oder einem Wasser vorher, dass es dann richtig rangeht. Verstehe, ja, kann ich komplett nachvollziehen. Ähnliches mache ich tatsächlich auch, aber vielen Dank für den Tipp, auch für die Zuhörer natürlich zu Hause. Und damit kommen wir dann auch schon von der persönlichen Perspektive zur strategischen.

Gespräch

Traffic vs. Conversion: Wann liegt das Problem auf der Website?

Maximilian Fronn: Meine erste Frage an dich, Antonia. Als Performance-Marketing-Leaderin optimierst du ja Kampagnen, um Traffic zu steigern und Effizienz zu verbessern. Doch irgendwann ist nicht mehr der Traffic die Einschränkung, sondern die Conversion. Wenn du dir Dashboards ansiehst, welche konkreten Signale zeigen dir, dass das Problem eher in der Website-Experience als in den Kampagnen liegt?

Antonia Grzelak: Ich teile das eigentlich strikt in Pre-Click- und Post-Click-Verhalten ein. Wenn ich mir Pre-Click-Metriken angucke — vor allem wenn wir es auf den Performance-Marketing-Bereich münzen, also so etwas wie die Click-Through-Rate oder CPCs, CPAs — wenn die stabil sind oder sich sogar verbessern, auf der anderen Seite die Conversion-Rate aber einbricht, dann ist das so mein erstes Signal: okay, Achtung, hier könnt ihr etwas mit der Website-Experience nicht hinhauen.

Und da achte ich dann eigentlich auf so drei — nennen wir sie mal — Verrätersignale. Zum einen die Kanalkoherenz. Also wenn ich eine Veränderung kanalübergreifend sehe, sprich nicht nur im Bereich SEA, sondern auch Social, SEO, Direct Traffic, und auf derselben Landingpage die Werte einfach absacken, dann liegt es eher weniger am Targeting, sondern wirklich an der Zielseite, die dahinter steckt.

Dann auch der First-Fold-Check: wenn die Bounce-Rate auf einmal sprunghaft ansteigt, oder wenn wir in unseren Kampagnen Creatives geändert haben, dann stimmt meist die Botschaft auf der Seite — oder auch so etwas wie die Ladezeit — nicht. Und dann letzten Endes auch die Micro-Conversions. Meiner Meinung nach macht es nie Sinn, den Blick direkt auf die allerletzte Conversion im Funnel zu richten, sondern wirklich Schritt für Schritt — vom ersten Klick über die erste Interaktion bis zum Ende. Und wenn dann da der Bruch erkennbar ist, dann haben wir halt wirklich ein Experience-Problem und kein Traffic-Problem, was dann über unsere Kampagnen kommt.

Maximilian Fronn: Ja, ergibt Sinn. Am Anfang des Funnels anfangen, nicht erst am Ende, wo sozusagen schon das Ganze passiert ist — die Journey ist schon zu Ende. Da erst anzusetzen ergibt dann wenig Sinn. Von meiner Seite aus natürlich auch. Super, danke dafür schon mal.

Der erste große Engpass im Funnel

Maximilian Fronn: Sobald sich der Fokus von der Akquise auf die Onsite-Performance verlagert, liegt der größte Hebel im Funnel selbst. Als du die Onsite-Journey von Azubio erstmal tiefgehend analysiert hast, was war da der erste große Engpass, den du im Funnel identifiziert hast?

Antonia Grzelak: Ich würde da vielleicht sogar auf ein Beispiel gehen, das ein anderes Portal von uns betrifft — nämlich Absolventa. Auch da bieten wir wieder Jobsuchenden die Möglichkeit, den für sie passenden Job zu suchen. Allerdings nicht mehr wie bei Azubio oder Azubi.de im Ausbildungsbereich, sondern eher im Young-Professionals-Bereich.

Und da war für mich so ein sehr prägender Moment, als ich mir mal die Analyse von unserem Traffic im Gesamten angeguckt habe. Und da war halt sehr klar ersichtlich: der Content-Bereich bei Absolventa — also wo beispielsweise unsere Berufsprofile liegen, die unsere Nutzer darüber informieren, was einen bestimmten Job ausmacht und welche Voraussetzungen man dafür mitbringen sollte — fantastische Zahlen, riesiger Traffic, Top-Verweildauer. Auf den ersten Blick denkst du dir: ja, mega Erfolgs-Case.

Und wenn du dann tiefer in den Funnel reinsteigst, siehst du: okay — und ich meine, ich komme aus dem Content-Bereich und habe jahrelang als Head of Content gearbeitet — aber wenn du siehst, der Content ist super, aber er konvertiert einfach nicht, dann ist das leider Gottes eher so etwas wie eine hochwertige Sackgasse, wenn ich es mal ganz klar formulieren soll.

Sprich, die Nutzer informieren sich, haben alles gelernt über Gehalt und Aufgaben. Vielleicht sind einige von ihnen dann auch schon zufrieden — das kann ja durchaus sein, wenn der Intent eher informativ ist. Aber unser Geschäftsmodell beginnt dahinter, wenn sie sich die Stellenanzeigen angucken und sich im Idealfall direkt darauf bewerben.

Und dann ist halt nicht der Hebel, einfach noch mehr Traffic einzukaufen, sondern wirklich die Nutzer, die da sind, zu Jobsuchenden zu konvertieren. Wir mussten einfach diesen psychologischen Moment nutzen. Sprich, wenn gerade jemand liest, wie viel du als Performance-Marketing-Manager verdienen kannst — dann ist das der perfekte Augenblick, um ihm noch deutlicher zu sagen: ja, und hier sind unsere fünf Top-Jobs dazu, die perfekt zu dir passen würden.

Und es ist dann ein massiver Hebel gewesen — für die gesamte Unit, und auch was die Learnings betrifft, nicht nur für unseren Marketingbereich, sondern auch für unser Product-Team. Weil wir so einen riesigen bestehenden Traffic-Teich anzapfen konnten, der vorher so ein bisschen ignoriert wurde, und wo wir auf einmal Conversion-Uplifts gesehen haben von bis zu 372 Prozent. So eine Erfolgs-Case nehme ich dann sehr gerne mit.

Maximilian Fronn: Das ist ja eine extreme Erhöhung.

Antonia Grzelak: Absolut. Gut, ich muss ehrlich sein — wir hatten auch einzelne Seiten, da haben wir eher über 17 Prozent geredet. Aber ganz ehrlich: auch wenn ein Test mir fünf Prozent Uplift zeigt, manchmal macht dann auch einfach die Summe von kleinen positiven Veränderungen das große Ganze aus.

Maximilian Fronn: Letzten Endes, wenn man so viele Visits hat, wie man am Anfang des Funnels reinkippt, und dann 5 % Conversion — das kann ja schon einiges ausmachen. Das ist ja ein ziemlich hoher Return on Investment an der Stelle schon.

Antonia Grzelak: Absolut, ja.

Warum der Engpass vorher niemandem aufgefallen war

Maximilian Fronn: Wie kam es, dass das vorher keinem so wirklich aufgefallen war, dass es da so ein Problem gab zwischen dem Start des Funnels und dem Ende?

Antonia Grzelak: Ich glaube, das ist auch vielleicht immer mal so ein bisschen dem geschuldet, dass wir in unserem Portfolio wahnsinnig viele verschiedene Portale haben und manchmal fehlt dann einfach an der Stelle so ein bisschen der Fokus. Weil ich glaube, das ist halt auch so ein Mindset-Shift, der stattfinden muss — und der bei uns in den letzten Jahren enorm stattgefunden hat.

Solange der Traffic dann da ist und die Seite — wenn wir mal bei den Berufsprofilen bleiben — vor allem sehr informative Keywords bedient und eher dazu dient, die Nutzer zu informieren, dann einfach diesen Shift im Mindset hinzubekommen: von “ja, das Ziel erreichen wir, das erreichen wir auch scheinbar gut” hin zu “wir müssen den Schritt weiter denken.” Ich glaube einfach, weil das nicht so der große Friction Point war und vielleicht auch im ersten Moment das Potenzial dahinter nicht gesehen wurde, die Conversions zu steigern, ist es immer so ein bisschen hinten runtergefallen. Aber ich bin froh, dass wir es entdeckt haben — und da haben wir auf jeden Fall einen großen, guten Case gehabt, das ganze Thema Testing bei uns mehr im Unternehmen zu verankern.

Maximilian Fronn: Super. Würdest du tatsächlich auch sagen, dass das vielleicht auch ein bisschen eine Konsequenz daraus war, dass jeder dachte, er hat sowieso schon das Beste gemacht und gar nicht mal geprüft hat, ob das stimmt? Also ist das etwas, wo sich jeder einfach gesagt hat, es wird schon laufen? Oder war man sich bewusst, dass da tierisch was gemacht werden müsste, aber es hat halt gut gelaufen gerade?

Antonia Grzelak: Hm, das ist eine gute Frage. Ich weiß gar nicht, ob ich das so allgemein beantworten kann, um ehrlich zu sein. Das ist, glaube ich, eher so ein Fakt von Unternehmen wie wir — die sich in den letzten Jahren auch sehr in einem Transformationsprozess befunden haben, hin zu datengetriebenem Arbeiten und mehr Testing. War das vielleicht einfach noch nicht so sehr der Punkt, dass gesagt wurde: wir gehen mal tiefer rein — was auch der Fülle an Projekten geschuldet ist, an denen wir einfach arbeiten.

Auf der anderen Seite kannst du natürlich immer auch den Bereich aufmachen. Und das ist bei Conversion-Rate-Optimierung, glaube ich, in einigen Unternehmen so ein bisschen ein möglicher Konfliktherd. So würde ich das bei uns nicht bezeichnen. Aber du hast immer diese Debatte: wo liegt denn da eigentlich die Verantwortung? In vielen Unternehmen liegt es im Marketing-Bereich, in anderen wieder im Product-Bereich. Es gibt halt auch einfach keine klare Grenze dazwischen — und ich glaube, sowas befeuert es dann auch, dass du einzelne Themen vielleicht gar nicht direkt so begreifst, vielleicht auch, weil die Person fehlt, die da drauf schaut.

Maximilian Fronn: Das ist natürlich genau das, was ich persönlich auch schon festgestellt habe. Ich war ja nicht immer bei VWO — auch davor in Startups waren viele von sich selbst ganz gut überzeugt, dass sie es gut gemacht haben, und der Fehler muss irgendwo anders liegen. Man hat das nicht wirklich getestet, und letzten Endes hat da viel Geld auf der Strecke gelegen. Mit meinem Einzug ins CRO-Business habe ich gemerkt: okay, da waren viele kleine Stellschrauben, die man damals hätte schon stellen können, aber hat sich nur keiner getraut zu sagen — beziehungsweise wollte sich keiner die Kappe aufsetzen, dass es bei ihm schiefgelaufen ist.

Antonia Grzelak: Ja, ich glaube, das ist tatsächlich in vielen Unternehmen der Fall. Wenn ich so an meine Startup-Zeit zurückdenke, dann war das auch gerne so ein kleines Fingerpointing, was ich persönlich schon immer wahnsinnig schwierig fand. Ich weiß nicht, ob ich da eine grundsätzlich andere Einstellung habe, aber ich denke mir halt immer: ganz ehrlich, mir geht es null um Fehler an der Stelle, oder darum, mit dem Finger auf jemanden zu zeigen und zu fragen, was er da bitte gemacht hat. Wenn es uns als Unternehmen am Ende weiterbringt, dann ist das völlig egal — es geht null um Schuldzuweisungen, sondern einfach darum: wir verfolgen ein gemeinsames Ziel als Unternehmen. Lasst uns die Vergangenheit Vergangenheit sein lassen, wir lernen daraus, und Hauptsache wir gehen den Schritt weiter.

Weil ich glaube, was da dann auch eine Rolle spielt, ist: wie misst man Impact wirklich? Wenn wir uns den Content-Bereich einer Website angucken, der nicht primär auf Conversions — in unserem Fall so etwas wie Stellenanzeigenaufrufe oder Bewerbungsklicks — ausgerichtet ist, dann brauchst du auch viel Überzeugungsarbeit, um zu sagen: ja, es ist Content in dem Fall, aber der Impact alleine wegen des Traffic-Volumens ist halt enorm. Und bei Firmen wie wir — die zu dem Zeitpunkt, als diese Tests liefen, diesen Transformationsprozess hin zum datengetriebenen Unternehmen durchlaufen haben — da ist dann halt auch immer noch der Punkt, diese Messbarkeit und die Zahlen wirklich zu unterstreichen. Das hat eine Relevanz, auch wenn sie vielleicht im ersten Moment nicht für alle Beteiligten so offensichtlich ist.

Maximilian Fronn: Ja, sehr guter Punkt. Was du vorhin auch gesagt hast bezüglich der Fehlerkultur — ich denke, das ist auch ein Core-Prinzip von Testing, weil nicht jede Variante, die wir aufsetzen, immer die richtige gewesen sein muss. Wir überprüfen, wir lernen daraus, wenn es halt schlecht gelaufen ist, und wir machen den nächsten Test weiter.

Antonia Grzelak: Ganz genau. Selbst ein Test, der am Ende vielleicht nicht als Winner dasteht, ist halt am Ende immer noch ein Zugewinn an Wissen. Und ich weiß gar nicht, ob ich einen Zugewinn an 10 % Conversions unbedingt darüber stellen würde, wenn ich einfach 10 % mehr Wissen über ein bestimmtes Nutzersegment habe. Das kann, glaube ich, jeder nur für sich selbst wirklich beurteilen — vielleicht auch davon abhängig, in welchem Unternehmensbereich man sitzt.

Aber dieser Zugewinn an Wissen, der auch durch nicht erfolgreiche Tests entsteht, der ist so enorm. Und ich finde, das ist prinzipiell ein Thema, das — ich will nicht sagen, ignoriert wird — aber das einfach noch viel mehr Sichtbarkeit braucht. Nur weil ein Test nicht erfolgreich war und wir unsere Hypothese nicht bestätigen konnten, haben wir doch trotzdem mehr Erkenntnisse als vorher — und das ist viel wert.

North Star Metrik und nachhaltiges Wachstum

Maximilian Fronn: Definitiv. Gehen wir am besten schon mal zur nächsten Frage. Performance Marketing dreht sich ja letztendlich um nachhaltiges Wachstum, nicht nur um kurzfristige Uplifts. Welche einzelne Kennzahl ist deiner Meinung nach am stärksten mit dem langfristigen Wachstum von Azubio verknüpft, und welchen Einfluss hatte Testing darauf?

Antonia Grzelak: Ich glaube, das gilt bei uns nicht nur für Azubio, sondern für alle unsere Portale. Unsere North-Star-Metrik ist eigentlich die Anzahl qualifizierter Bewerbungen pro ausgeschriebener Stelle. Nur diese Kennzahl gibt uns wirklich das Gefühl, wie gesund unser Ökosystem ist. Weil nur wenn wir das Glücksgefühl eines Auszubildenden — oder im Bereich von Absolventa, von einem Jobsuchenden generell — verbinden können mit dem Erfolg des Unternehmens, weil sie eine gute Person auf die gesuchte Stelle finden können, nur dann, wenn wir diese Zahl steigern können, haben wir wirklich ein gesundes Ökosystem — und dann funktioniert es.

Und Testing ist dabei ein wahnsinnig wichtiger Wachstumsmultiplikator, weil wir weggehen von diesem Raten: wir raten halt nicht, warum sich — wenn wir bei Azubio bleiben — ein Azubi zur Bewerbung bewegt, sondern wir validieren das letzten Endes wirklich. Deswegen testen wir auch viel, was den Bewerbungsflow betrifft. Systematisches Testing reduziert die Reibung, es wird eine klarere Erwartungshaltung kommuniziert, und das Ergebnis davon ist meistens, dass die Conversion Rate dauerhaft steigen kann.

Und das Schöne daran ist: das ist ja keine Einbahnstraße, kein Einmaleffekt, weil man entwickelt sich immer weiter. Wenn ich über das Jahr verteilt zehn verschiedene Tests mache, die mir jeweils fünf Prozent Verbesserung bringen, dann skalieren wir als Unternehmen nicht einfach linear, sondern exponentiell — und das Ganze ohne das Mediabudget weiterhin hochzufahren. Weil der teuerste Fehler — egal ob Marketing oder Product, aber ich bleibe jetzt mal beim Marketing — der teuerste Fehler ist immer eine Annahme, die du nicht getestet hast.

Maximilian Fronn: Definitiv. Gerade da bleibt dann was auf der Strecke liegen. Nach dem Motto: man weiß es ja schon besser, anstatt selber nochmal zu testen.

Antonia Grzelak: Das wunderschöne Bauchgefühl, was dann immer… ja, auf jeden Fall einen Wert hat. Ich meine, vor allem wenn man das jahrelang gemacht hat, gibt es Leute, wo das Bauchgefühl eine wahnsinnig gute Trefferquote hat. Versuch mal so eine Entscheidung zu verteidigen, wenn da auch wahnsinnig viel Entwicklungsarbeit im Hintergrund reingeflossen ist, und du dich dann hinstellen musst und sagen musst: ja, das haben wir jetzt mal nicht getestet, da war es mein Bauchgefühl. In die Situation würde ich ungern kommen, um ehrlich zu sein.

Maximilian Fronn: Ja, definitiv. Aber ein Bauchgefühl ist ein guter Startpunkt. Aus dem Bauchgefühl kann man eine Hypothese machen und dann auch noch direkt wieder testen.

Antonia Grzelak: Ja.

Langlebigkeit der Bewerber und Feedback-Loops

Maximilian Fronn: Habt ihr denn theoretisch auch Tests bezüglich der Langlebigkeit eurer Bewerber? Sprich: gibt es da nochmal Feedback zurück, wenn jemand vorzeitig wieder ausscheidet, und bezieht ihr das dann in einen Test ein?

Antonia Grzelak: So weit ist es tatsächlich noch nicht. Das ist immer das ganze Thema von genereller Messbarkeit. Das ist prinzipiell im Bewerbungsbereich eine Herausforderung, weil wir an vielen Stellen die Bewerbung nicht eigenständig ans Unternehmen weiterleiten, sondern von uns aus auf die Karriereseite des Unternehmens verweisen. Das heißt, das ist vor allem ein Unternehmensbereich, wo wir auch aktiv dabei sind, unsere Kunden enger an uns zu binden und die Vorteile davon aufzuzeigen — wie ein guter Datenfluss zwischen beiden Unternehmen aussieht. Und da meine ich Datenfluss insbesondere im Sinne von Feedback zur Bewerberqualität, die geliefert wurde. Das muss Schritt für Schritt aufgebaut und weiter professionalisiert werden, um genau diese Fragen auch zu beantworten.

Wie eine Testing-Hypothese aufgebaut wird

Maximilian Fronn: Super, das hast du gerade schon gesagt, wie sowas aufgebaut wird. Da schließe ich die nächste Frage super an. Wie baust du heute eine Testing-Hypothese auf? Welche konkreten Inputs oder Datenpunkte müssen vorliegen, bevor ein Test live geht?

Antonia Grzelak: Eine Hypothese ist für mich immer — malen wir mal ein Bild — die Brücke zwischen dem Problem, das wir sehen, und der Lösung, die wir irgendwie vermuten. Deswegen lasse ich eigentlich keine Tests live gehen, wo wir nicht wirklich eine klare Formel beantworten können: weil wir X wissen, glauben wir, dass Y zu Z führt.

Das heißt, bevor der Startknopf gedrückt wird, gibt es immer vier Checkpoints für mich. Zum einen die Primärmetrik — was wollen wir eigentlich gewinnen, was wollen wir erreichen? Dann aber auch die Guardrail-Metrics — was darf unter keinen Umständen kaputtgehen? Ein konkretes Beispiel: wenn wir die Masse an Bewerbungen steigern wollen, dann darf nicht zeitgleich die Qualität darunter leiden. Nur weil du Metrik A optimierst, darf Metrik B nicht darunter leiden. Und zumindest musst du dir bewusst sein, was der Impact sein kann — weil Testing ist immer auch mit einem gewissen Risiko verbunden. Da muss vorher bei allen Stakeholdern bewusst sein: was kann sich jetzt verändern, und was ist in welchem Rahmen erwartbar?

Dann der dritte Punkt: immer die statistische Relevanz. Haben wir überhaupt genug Traffic, um eine klare Antwort zu liefern? Oder ist es am Ende nur Raten, basierend auf irgendwelchen schönen Graphen, die uns Tools wie VWO ausspucken? Und dann auch das Segment — für wen ist der Test letzten Endes relevant? Nur Mobile, nur Desktop — das ist ein häufiger Case — Erstbesucher, bestimmte Kampagnen-Cluster und so weiter.

Und genau: ohne saubere These ist jeder Test wie ein Experiment ohne Protokoll. Man hat dann zwar irgendwie ein Ergebnis, weiß aber überhaupt nicht, warum es zustande gekommen ist. Und ohne dieses Warum greifbar zu haben, kannst du auch nichts skalieren.

Maximilian Fronn: Das stimmt natürlich. Merkt ihr da einen deutlichen Unterschied zwischen den Mobile-Usern und den Desktop-Usern? Beziehungsweise wo habt ihr momentan mehr euren Traffic drauf?

Antonia Grzelak: Tatsächlich ist — egal welches Portal wir uns angucken — der Mobile-Traffic der deutlich stärkere. Und tatsächlich auch, wenn wir uns unsere Bewerberraten angucken, der stärkere. Was wir beim Desktop-Traffic sehen — wenn wir beim Beispiel von Azubio bleiben — ist, dass wir unseren Nutzern auch einen Berufswahl-Test anbieten, um ihnen die Möglichkeit zu geben, zu sehen, wie gut sie auf einzelne Stellenanzeigen matchen. Das ist sowohl für die Nutzer eine wahnsinnig sinnvolle Erweiterung des Produktes als auch für die Kunden sehr sinnvoll, weil das auch die Qualität der eingegangenen Bewerbungen wirklich massiv steigern kann.

Dieser Berufswahl-Test ist ziemlich zeitintensiv — es ist nicht so: fünf Klicks und jetzt weiß ich, ich bin der Mega-Kaufmann für Büromanagement. Und wenn wir Punkte haben, wo die Conversion sehr zeitintensiv ist, da sehen wir beim Desktop bessere Raten. Das heißt, es ist immer die Frage: an welchem Punkt optimieren wir, was ist die KPI dahinter, und ist das etwas, was nur für Mobile oder für Desktop interessant ist?

Normalerweise haben wir gar nicht so oft die Cases, wo wir sagen, wir rollen das jetzt nur auf Mobile oder nur auf Desktop aus — weil das Core-User-Verhalten, also: ich lande auf dem Portal und ich gehe bis zum Bewerbungsklick, ist Desktop und Mobile relativ ähnlich. Es kommt ein bisschen auf die Zwischenschritte an — so etwas wie der Berufswahl-Test verlagert sich eher in den Desktop-Bereich. Wenn wir uns den normalen Bewerbungsflow angucken, wird das ganz klar mobile-first gemacht. Aber beim Berufswahl-Test macht es auf jeden Fall Sinn, mehr Zeit auch in Desktop zu investieren — einfach weil wir wissen, da findet die wertvollere Conversion statt.

Maximilian Fronn: Das heißt, die Nutzer, die diesen Berufswahl-Test absolvieren, sind dann auch qualitativ hochwertigere Leads?

Antonia Grzelak: Ja, tatsächlich.

Nach dem Test: Ausrollen, Segmentieren oder Iterieren?

Maximilian Fronn: Okay, spannend. Wenn dann ein Test abgeschlossen ist, wie entscheidest du, ob du ausrollst, segmentierst, iterierst oder weitermachst? Wie stellst du sicher, dass deine Testing-Pipeline kontinuierlich gefüllt bleibt?

Antonia Grzelak: Es ist immer so ein Drei-Wege-Modell. Komplett ausrollen ist eigentlich dann der Case, wenn die Daten wirklich signifikant sind und vor allem auch die Guardrail-Metrics gehalten werden — erst dann kann eine Variante wirklich zum neuen Standard werden, und dann können wir das auch wirklich im Produkt zementieren.

Segmentierung ist wirklich dann, wenn wir so etwas sehen wie: positiv auf Mobile, null Effekt auf Desktop — dann sollte nur da ausgerollt werden, wo es wirklich Sinn macht. Wie gesagt, die Cases haben wir eher selten, weil unsere Nutzer zwischen den einzelnen Gerätekategorien relativ ähnlich unterwegs sind, zumindest bei der typischsten Nutzer-Journey. Aber es ist prinzipiell immer wichtig — und es ist auch immer wichtig, das im Mindset von allen zu verankern: wir optimieren nicht auf den Durchschnittsnutzer, weil den Durchschnittsnutzer gibt es eigentlich nicht, wenn wir ehrlich sind.

Und ansonsten: Iteration, Iteration, Iteration. Wenn ein Test flach bleibt und wir keine klaren Ergebnisse sehen — Spurensuche. Einfach mal gucken: Session Recordings beispielsweise. Wurde das neue Element, das wir getestet haben, überhaupt gesehen? Gab es irgendwie Verwirrung? So eine Null-Ergebnis-Geschichte ist manchmal das beste Sprungbrett für die nächste, viel präzisere Hypothese.

Und so entsteht dann tatsächlich auch eine gute Pipeline fürs Testing. Und ich sehe es aktiv: wir haben kein Ideenproblem — es ist eher so ein Auswahlluxusproblem. Das heißt, es geht eher darum: wie priorisieren wir die Hypothesen, die wir testen wollen? Das ist der Bereich, wo die Arbeit liegt — nicht so sehr: wie befüllen wir jetzt diesen Backlog, und oh Gott, was sollen wir testen?

Maximilian Fronn: Ein schönes Luxusproblem. Wie priorisiert ihr denn tatsächlich eure Tests?

Antonia Grzelak: Ich nutze immer einen klassischen ICE-Score — Impact, Confidence, Ease — weil das am Ende am meisten Sinn macht. Klar, manchmal hast du auch einfach Quick Wins, wo du sagst: ganz ehrlich, dauert fünf Minuten, dann können wir das laufen lassen, beeinflusst keinen anderen Test, let’s go. Aber ansonsten immer: wie groß ist der Hebel? Wie sicher sind wir uns mit dem, was wir testen wollen? Und wie schnell können wir das Ganze umsetzen? Und dann fangen wir dort an, wo der Hebel groß und der Aufwand klein ist — typische Low-hanging Fruits fürs Wachstum — und arbeiten uns dann daran ab. Das ist ein wirklich gutes Tool, um da strukturiert ranzugehen.

Maximilian Fronn: Gibt es theoretisch irgendeine Art von Testkartei-Leiche — also so etwas, das so komplex ist, dass ihr es erstmal noch nicht angefasst habt und schon seit Ewigkeiten im Backlog liegt?

Antonia Grzelak: Tatsächlich nicht. Wenn so etwas passiert, dann ist es gerne so: wir gehen da jetzt ran, und jetzt wird das ganze Ding wirklich in seine einzelnen Bestandteile zerlegt. Meine Erfahrung ist: wenn da so ein Riesending liegt, das seit zwei Jahren so ein bisschen im Backlog rumdümpelt und vielleicht schon gar nichts mehr mit dem Produkt zu tun hat, was gerade bei uns live ist, dann macht es immer Sinn zu gucken. Weil es ist meistens kein Hypothesenproblem, sondern ein Problem der Größe der Hypothese. Und in 90 % der Fälle kannst du das in kleinere Schritte zerlegen — und dann hast du auch nicht mehr das Problem, dass der Aufwand dir quasi das Experiment verhindert, über Monate, im schlimmsten Fall vielleicht sogar Jahre.

Maximilian Fronn: Ja, ergibt Sinn. Einfach ein bisschen zerkleinern — ähnlich wie beim Lego: wenn die Mauer zu groß ist, wird es zu Einzelsteinen draus.

Antonia Grzelak: Absolut.

Praxisbeispiel: Die Testserie auf den Berufsprofilen bei Azubio

Maximilian Fronn: Du hattest vorhin schon über Absolventa gesprochen und da einen Test ein bisschen angeteasert. Kannst du uns mal durch einen Test durchführen, wo du einen klaren Friction Point identifiziert hattest und dann ein strukturiertes Experiment durchgeführt hast?

Antonia Grzelak: Da würde ich sogar wieder umschwenken von Absolventa zu Azubio — aber es betrifft eine ähnliche Seite, nämlich die Berufsprofile, halt für die Ausbildungssuchenden. Und da würde ich tatsächlich sagen: es gab gar nicht so den einen magischen Test, aber wir hatten eine Testserie an unseren Berufsprofilen bei Azubio.

Und das war ein Sieg — zum einen für die Conversion Rate, aber auch fürs Mindset. Wir hatten das klassische Problem, das ich schon bei Absolventa aufgezeigt hatte: da liegt sehr viel Traffic. Bei Azubio hat der Traffic auch wirklich gut schon in den Stellenmarkt konvertiert, aber wir haben halt gesehen: da geht mehr. Und vor allem heutzutage, in Zeiten von AI-Overviews bei Google, die machen SEO ja gerne das Leben schwer — ich glaube, ich muss nicht betonen, was das alles für Probleme hinsichtlich Sichtbarkeit mit sich zieht. Aber es ist trotzdem immer noch ein großer Hebel, an den Seitenstrukturen etwas zu verändern.

Und das war dann ein Test, wo wir gesagt haben: wir machen jetzt einen großen Wurf, aber in kleinen Schritten. Wir nehmen uns wirklich alle Elemente, die da drauf sind, einmal kritisch vor, schauen uns die aktuellen Zahlen an. Und haben dann eine Kaskade von vermeintlich kleinen Dingen getestet. Wo platzieren wir CTAs? Wie ist die Tonalität der Buttons? Benutzen wir für Desktop auch einfach mal eine Sidebar und probieren das aus? Wie viele Conversion-Elemente sind eigentlich zielführend? Ab wann ist es zu viel? Und isoliert waren das wirklich kleine Uplifts — wir reden manchmal über ein, zwei Prozent oder so.

Aber in der Summe haben die im Kern diese Seite wirklich komplett transformiert. Wir sind jetzt mit den neuen Berufsprofilen Mitte dieses Monats live gegangen — wenn ich mir anschaue, wie die Seiten vorher aussahen und wie sie jetzt aussehen, ist das ein enormer Zugewinn. Und wir haben nicht nur die Seite an sich transformiert, wie Nutzer sie erleben und wie sie konvertiert — sondern der für mich entscheidende Punkt bei diesem Projekt war, dass es ein komplett übergreifendes Projekt war: über SEO, Conversion Rate Optimierung, Product und UX, und natürlich die Devs hinten mit dran.

Da war es für mich so ein entscheidender Punkt, dass sich das Mindset so wirklich merkbar gedreht hat — im Sinne von: uns ist jetzt auf diesen Seiten nichts mehr heilig. Das klingt vielleicht etwas hochtrabend, aber es ist genau das: wirklich Dinge zu hinterfragen, die man jahrelang als gegeben hingenommen hat, und dann dieser Shift weg von “wir bewahren den Status quo” hin zu “was passiert, wenn wir es komplett anders denken?” Das war so der eigentliche Wachstumsmotor.

Ich finde immer die größte Wachstumsbremse — und da kriege ich wirklich innerlich ganz schlechte Gefühle, wenn ich diesen Satz höre — ist: “Das haben wir schon immer so gemacht.”

Maximilian Fronn: Furchtbarer Satz.

Antonia Grzelak: Tod jeden Fortschritts, wirklich absoluter Horror. Und wenn man dann merkt, dass man wirklich so komplett bereichsübergreifend dieses gemeinsame Learning hat — dass Experimentieren kein Risiko ist, sondern die einzige Möglichkeit, Dinge zu validieren — dann entsteht so eine ganz neue Dynamik auch zwischen den Teams. Das macht auch kommunikativ miteinander ganz, ganz viel. Und es ist die Grundlage für jedes langfristige Unternehmenswachstum — und viel elementarer, als wenn wir jetzt über einzelne AB-Tests sprechen. Denn ein Test verbessert zwar die Seite, aber so ein Testing-Mindset verbessert das ganze Unternehmen.

Deswegen war diese Testing-Serie und die Arbeit an den Berufsprofilen bei Azubio wirklich so ein Projekt, das aus mehreren Gründen ein mega Erfolgs-Case für mich persönlich ist.

Stakeholder-Buy-in aufbauen

Maximilian Fronn: Super, vielen Dank dafür. Du hast ja auch im Vorfeld mit uns gesprochen und bestätigt, dass du die treibende Kraft dahinter warst, dass das Ganze bei euch etabliert wurde. Hast du für unsere Zuhörer Tipps, wie man eine bessere Experimentationsstruktur reinbringen kann und auch den Stakeholder-Buy-in von allen Seiten erhöhen kann?

Antonia Grzelak: Ich finde, Stakeholder-Buy-in ist immer das größte Thema. Weil — seien wir ehrlich — die Tools sind jetzt auch nicht die günstigsten Tools, die du dir anschaffen kannst. Was aber auch darin liegt, dass da so wahnsinnig viel Macht drin ist. Ich finde: wenn man Testing strukturiert im Unternehmen angeht, dann amortisieren sich die Kosten für das Tool wahnsinnig schnell.

Aber mein Top-Tipp: Stakeholder zu Komplizen machen. Wirklich einfach mal ganz gezielt zu den unterschiedlichen Kollegen gehen — sei es im Vertrieb, im Customer Success, im Product. Wirklich fragen: welches Problem nervt die Kunden gerade am meisten, oder was ist so ein mega Pain Point, den ihr gerade habt? Und dieses Problem nehmen, einen Test-Case aufmachen und aufzeigen: guck mal, mit diesem minimalen Ressourceneinsatz können wir gucken, ob wir dieses Problem so und so gelöst bekommen. Weil dann kann man relativ einfach aus Skeptikern große Fans von so einem Programm machen.

Und dieses Sammeln von verschiedenen Cases, gepaart mit einem Testing-Zeitraum, war bei uns auch ein ganz, ganz großer Punkt. Wir haben 30 Tage lang das Tool in unterschiedlichen Teams — also Marketing sowohl als auch Product — getestet, und konnten dann sagen: guck mal, was wir innerhalb von 30 Tagen alles geschafft haben. Und mehr hat es schon fast gar nicht mehr gebraucht, um auch das Management davon zu überzeugen.

Ein weiterer Tipp: beim Proof of Concept wirklich auf den schmerzhaftesten Engpass gehen. Weil wenn man da wirklich etwas zeigen kann — etwas, das über zehn theoretische Präsentationen hinausgeht — ist das auf jeden Fall schon ganz, ganz viel.

Und ein Punkt, den ich bei uns auch noch so wahnsinnig wichtig fand, war das Thema Geschwindigkeit. VWO ist bei uns auch deshalb so wertvoll, weil es uns Geschwindigkeit gibt. Wir müssen nicht warten, dass unsere Engineers die Zeit haben, bestimmte Sachen umzusetzen, damit wir eine Hypothese prüfen können. Es bringt einfach ganz viel Unabhängigkeit in die Teams rein. Und das ist auch in Zeiten, wo wir viel über Empowerment von Mitarbeitern sprechen, ein ganz gutes Zeichen: du bist der Experte, du hast eine Hypothese, hier hast du das Tool, mach einfach. Du musst nicht bis zum nächsten Sprint warten, ehe da mal Engineering-Ressourcen frei werden. Und das sind so die Sachen, die ich mitgeben würde, wenn es darum geht, so ein Tool anzuschaffen.

KI im Experimentationsprozess

Maximilian Fronn: Du hast schon Geschwindigkeit erwähnt. Inwiefern hat denn KI da zum Beispiel auch noch eine Rolle gespielt? Gerade bei der Vereinfachung von Prozessen — hast du das irgendwo genutzt bzw. Erfolg damit erfahren?

Antonia Grzelak: Ja, ich liebe es, KI zu benutzen für Hypothesengenerierung — weil wir sitzen auf einem Riesenberg von Daten. Wir haben Zahlen zum Funnel, aber dann auch ganz viele unstrukturierte Daten: User-Feedbacks, Support-Tickets, Session Recordings. Ich gebe zu, ich liebe es, in die Tiefe zu gehen, auch mit Daten — aber irgendwann ist man aufgrund der Fülle an Informationen einfach überfordert, da selber Muster zu erkennen.

Und KI ist so mein liebster Mustererkenner. Ich füttere ihn mit unstrukturierten Daten und sage: lass uns die Reibungspunkte raussuchen, die ich bisher nicht gesehen habe, damit man mal aus diesem Tunnelblick rauskommt. Wobei mir dabei immer wichtig ist: es ist eine Assistenzfunktion, die KI erfüllt — nicht Autopilot. Ich liebe es, KI zu benutzen, ich liebe es auch, Prozesse zu automatisieren, aber Human in the Loop ist ein ganz, ganz wichtiges Thema.

Hypothesengenerierung ist der eine Punkt. Auf der anderen Seite — neben Headlines-Optimierung — geht es mir gar nicht darum, dass mir die KI die perfekte Headline formuliert. Dafür haben wir Experten, die das trotz allem noch besser können als eine KI. Aber alleine so etwas wie: liefere mir mal zehn verschiedene psychologische Winkel, wie ich mich da nähern kann, von Social Proof bis Loss Aversion — das spart einfach viel Zeit beim Brainstorming.

Der größte Unterschied mit KI hinsichtlich Geschwindigkeit ist die Schlagzahl dahinter: wir können die Zeit von erster Beobachtung bis fertiger Hypothese einfach so massiv verkürzen.

Maximilian Fronn: Ja, du bist natürlich deutlich tiefer drin als ich. Aber ich als Customer Success Manager, der ab und zu bei Kundenaccounts mal reinschaut — ich gucke mir auch mal bei den Session Recordings an, was die KI dazu sagt. In die einzelnen reinzugehen zeigt mir, wie sich einer verhalten hat, aber ich kann mir unmöglich 100 durchschauen und sagen: okay, das ist der Trend. Da hat mir die KI noch deutlich schnell einen Überblick gegeben.

Antonia Grzelak: Ja, absolut. Das ist so ein ganz typischer Case. Session Recordings sind ein Thema, da kann man sich auch super drin verlieren. Es ist so: ich setze mich in den Meetingraum, ich werfe mir die Session Recordings auf den großen Screen, am besten noch eine Tüte Popcorn — ich mache jetzt hier mal User Research. Ich glaube, es ist ein guter und notwendiger Mix, sich vielleicht ein, zwei Session Recordings auch selber anzugucken, weil dann kann man die Ergebnisse aus der KI besser beurteilen. Aber für alles, was so unstrukturiert ist, ist KI einfach der wahnsinnige Beschleuniger.

CRO-Reife im deutschen Markt

Maximilian Fronn: Definitiv. Wie würdest du momentan das allgemeine Verständnis von Conversion Rate Optimization in Deutschland beschreiben? Wie reif ist der Markt aus deiner Sicht in Bezug auf strukturiertes Experimentieren?

Antonia Grzelak: Es ist interessant. Ich möchte jetzt nicht zu sehr in ein kulturelles Thema gehen, aber wenn ich es mal ganz einfach mit dem US-Markt vergleiche: diese deutsche Fehlerkultur ist, glaube ich, an einigen Stellen so ein bisschen eine Herausforderung. Wenn ich es auch mit früher vergleiche, als ich in sehr internationalen Unternehmen mit sehr internationalen Teams gearbeitet habe, habe ich die Tendenz festgestellt, dass ein Test ohne Winner gern mal als verschwendete Zeit angesehen wird — was es nicht ist. Nur weil ein Test keinen klaren Winner hatte, ist es keine Fehlinvestition gewesen. Wissen ist Macht, wenn ich diesen Satz einfach sagen soll.

Ich muss aber glücklicherweise sagen, dass das in unserem Unternehmen wirklich gar nicht der Fall ist. Ich bin sehr dankbar, dass das Thema Fehlerkultur im Zusammenhang mit Conversion-Rate-Optimierung bei uns wirklich kein Thema ist. Das habe ich auch schon anders erlebt.

Ansonsten würde ich sagen, es ist weniger ein Umsetzungsproblem als ein Erkenntnisproblem. Ich glaube, heutzutage weiß eigentlich jeder, dass ein A-B-Test ein super Tool ist — aber ein Bruchteil nutzt es wirklich als strategisches Werkzeug. Deswegen glaube ich, gibt es so drei verschiedene Reifegrade auf dem Markt.

Die Gelegenheitstester — die haben vielleicht sogar ein Testing-Tool, vielleicht nicht in der Bezahlvariante, und dann ist Conversion Rate Optimierung eher so eine Art Hobby: oh, hier, komm, ich teste mal eine andere Buttonfarbe. Dann die Bereiche, wo es wirklich Projektoptimierung ist — es gibt Prozesse, es gibt Backlogs, häufig im Marketing angesiedelt, und dann optimiert man den Status quo.

Ich glaube, da fehlt aber noch der Schritt, das so weit auszudehnen, dass man sagt: wir optimieren nicht nur den Status quo, wir hinterfragen auch das Geschäftsmodell selbst. Und ich glaube, die Champions League — wo wir noch viel zu wenig von sehen — ist, dass Testing nicht mehr so ein Marketing-Thema ist, sondern wirklich wie ein Risikomanagement-Tool oder Betriebssystem für das ganze Unternehmen gesehen wird.

Neben der Fehlerkultur ist auch Tracking ein Thema, wo einige Unternehmen noch vor der Herausforderung stehen, dass Tracking wirklich an jeder Stelle mitgedacht wird — und wenn Tracking nicht da ist, stirbt die Testing-Kultur. Und das andere ist das Silo-Denken. Marketing ist zwar oft der Unternehmensbereich, in dem CRO angesiedelt ist, aber für eine echte Testing-Experience im Unternehmen muss es auch in vielen anderen Bereichen verankert sein — vor allem im Product-Team.

Das ist auch der Weg, wo wir gerade sind. Wir entwickeln gerade einen wirklich umfangreichen Discovery-Prozess, wo Testing so zentral ist, dass wenn kein Test stattgefunden hat, es für mich einfach nicht relevant ist. Das haben wir als Silo-Denken in der Vergangenheit als einen großen Konfliktherd identifiziert, der das Thema vielleicht auch ein bisschen langsamer gemacht hat, als es hätte sein müssen.

Maximilian Fronn: Das stimmt natürlich. Du hast es auch richtig angesprochen. Das gesamte Testing-Mindset kann man eigentlich auf nahezu alles in der Firma ausweiten — das ist nicht nur eine Sache vom Marketing. Und an der Stelle sei erwähnt: VWO hat natürlich auch die Feature-Experimentation mit dabei. Das heißt, auch das kann natürlich mit uns getestet werden.

Ich weiß noch, in meinem alten Arbeitgeber haben wir das sogar für unsere QBRs benutzt — weil wir das schon auf der Marktseite genutzt haben, haben unsere Customer Success Manager auch angefangen, verschiedene Approaches bei QBRs zu testen, und dann nachzumessen, wie das Engagement von allen Stakeholdern war. Ein spannender Ansatz — und er kam aus dem Marketingbereich.

Antonia Grzelak: Ja, ich glaube, wenn man Testing wirklich als Betriebssystem im Unternehmen sieht — wir haben da vorhin auch schon kurz drüber gesprochen — es macht auch etwas mit der Kommunikation über die einzelnen Unternehmensbereiche hinaus.

Experimentation-Roadmap und Ausblick

Maximilian Fronn: Mit Blick nach vorne: wie sieht eure Experimentation-Roadmap gerade aus? Was sind eure zentralen Prioritäten, und wie wird Testing die nächste Wachstumsphase von Azubio prägen — oder Absolventa und die anderen Seiten?

Antonia Grzelak: Ich glaube, der Punkt dahinter ist dieser Mindset-Shift, über den wir schon viel gesprochen haben — und vor allem auch das Verständnis: Wachstum heißt nicht, wir werfen da jetzt mehr Geld drauf, sondern wir werden intelligenter in allem, was wir machen. Und dafür ist Testing letzten Endes der wichtigste Motor hinter allem.

Das heißt: nicht mehr nur die Oberfläche von Landingpages betrachten, sondern wirklich noch tiefer gehen — an Themen wie Matching und Qualität. Nicht mehr nur testen, dass sich jemand bewirbt, sondern wie wir die Passgenauigkeit auch erhöhen können. Das ist der Kern von dem, was wir jetzt machen werden.

Auch weg von diesen Big-Bang-Releases, wie ich sie nenne. Gerne dieser Ansatz von: wir machen jetzt das große Projekt, das beschäftigt uns jetzt monatelang. Schritt für Schritt kommt man auch zum Erfolg — iterativ Daten sammeln, lernen, Neues probieren, weitermachen. Das ist gerade die größte und für mich persönlich auch schönste Veränderung, die ich sehe, die gerade auf uns zukommt.

Und Personalisierung ist auch ein Thema, das auf jeden Fall mit auf der Roadmap steht — weg vom Gießkannenprinzip. Weil ein 15-jähriger Ausbildungssuchender, der Orientierung braucht, braucht eine andere User Experience als ein HR-Profi im Konzern. Beide sind bei uns — und das heißt, wir müssen rausfinden: wo und wie können wir mit Personalisierung wirklich echten Mehrwert schaffen? Und wo ist es auch unnötige Komplexität — das muss man auch einfach mal sagen. Nur weil mittlerweile jedes Unternehmen gerne mit Personalisierung um die Ecke kommt, manchmal braucht man sie auch einfach nicht. Und auch das kannst du nur mit Testing herausfinden.

Und dann KI, einfach auch um Geschwindigkeit zu gewinnen — mehr Experimente pro Quartal, indem wir die Zeit für Hypothesenbildung und Variantenerstellung drastisch verkürzen. Da bin ich auch immer sehr froh, dass es bei VWO ein integriertes AI-Tool gibt, was dann gerne mal hilft. Das wird auch hier sehr gerne angenommen — da ist auf jeden Fall auch ein großer Mehrwert drin.

Maximilian Fronn: Das hilft ja sogar bei der Umsetzung. Ich habe da selber nicht so extrem viel mehr mitzutun — aber wenn ich für den Kunden mal etwas einbringe und technisch gesehen eher Laie bin, kann ich dem Co-Pilot auch einfach sagen, mach es mal fertig.

Antonia Grzelak: Ja, ganz genau. Das ist Wahnsinn. Das ist auch etwas, das ich heute Morgen mal wieder erlebt habe — einfach so der Fall: ich kann in VWO auch in den Code reingehen. Und wenn wir nochmal über die Möglichkeiten von KI reden: Code ist etwas Strukturiertes, was eine KI gut hinbekommen kann. Wenn du einfach das Format reingibst und sagst, ich möchte gerne das haben, kannst du das easy machen.

Selbst wenn wir über Tools reden, die gerne mit visuellen Editoren arbeiten — die Möglichkeit haben wir bei VWO auch. Das ist super für Leute, für die das Technische beim Arbeiten an Websites eher so ein bisschen Berührungsängste schafft. Ein visueller Editor kann immer sehr helfen, genau die zu beseitigen — Drag & Drop und mal ausprobieren, bitte mit System. Aber auf der anderen Seite gibt KI auch die Möglichkeit, ganz einfach an den Code ranzugehen und damit vielleicht sogar komplexere Sachen zu machen, als wenn du nur visuell rangehst. Und auch da sind wir wieder beim Thema Variantenerstellung — und auch was das betrifft: dieser Shift hin dazu, mehr Leute auch an die Arbeit am Code heranzuführen, macht Sinn.

Superpower-Frage

Maximilian Fronn: Super, Antonia — danke schon mal für den strategischen Einblick. Bevor wir zum letzten Teil unserer Fragerunde kommen, habe ich noch eine kleine Oddball-Frage, die ich gerne in den Raum schmeiße, um zu gucken, wie darauf reagiert wird. Wenn du die Wahl hättest — welche Superkraft würdest du gerne haben, und warum?

Antonia Grzelak: Oh, das ist eine sehr gute Frage. Für mich persönlich wäre so eine Superkraft, unfassbar geduldig sein zu können — weil wenn ich eins nicht habe, dann ist es Geduld. Was auch manchmal im Bereich Testing schwierig sein kann, weil manchmal hast du auch einfach Tests, die müssen ein paar Wochen länger laufen als andere. Aber so eine Superkraft, die ich gerne hätte, so blödsinnig es klingt: Geduld. Weil die habe ich einfach nicht. Und ich glaube, ich würde mir das Leben an einigen Stellen leichter machen, wenn ich nicht innerlich diesen Drang hätte: bitte, wir müssen uns vorwärtsbewegen. Ich glaube, da wäre mir sehr mit geholfen in einigen Situationen.

Maximilian Fronn: Ein bisschen mehr Zen sein — das kann ich komplett nachvollziehen.

Antonia Grzelak: Ja, das ist ein herrlicher Satz — ein bisschen mehr Zen sein. Den muss ich mir als Wandtattoo ins Büro hängen.

Maximilian Fronn: Ich bin bei so einer Sache immer ein bisschen nerdig. Ich würde wahrscheinlich einfach einen Zeitstopp dazu holen, damit ich morgens einfach länger schlafen kann. Gerade mit den Kids, die ich immer zur Kita oder zur Schule bringe — da muss ich so früh aufstehen, und dann bin ich immer noch groggy, wenn ich mich an den Tisch setze mit dem ersten Kaffee des Tages. Dann nochmal für zwei Stunden pausieren und einfach weiterschlafen — das wäre nicht verkehrt.

Antonia Grzelak: Du gibst mir da gerade ganz viele neue Ideen. Ja, auch das. Auch das steht unter dem Motto: wenn, oder? Also am Ende — ausgeschlafen ist Entspanntheit.

Maximilian Fronn: Absolut.

Antonia Grzelak: Vielleicht ist es das. Einfach mehr Entspannung ins Leben reinbringen — das wäre vielleicht eine super Superkraft.

Rapid-Fire-Runde

Maximilian Fronn: Super, dann vielen Dank dafür auch noch. Dann kommen wir schon zu unserem letzten Teil — die Rapid-Fire-Runde. Das sind immer kurze Fragen, spontane Antworten — also nicht großartig drüber nachdenken, und die Antworten müssen auch gar nicht lang sein.

Maximilian Fronn: Wenn du heute eine Karriere im Bereich Conversion Rate Optimization beginnen würdest, was würdest du anders machen?

Antonia Grzelak: Hm, das ist eine gute Frage. So rapid-fire bin ich an der Stelle gar nicht, merke ich gerade. Ich muss da tatsächlich kurz drüber nachdenken, weil ich ja auch nicht aktiv eine Karriere in dem Bereich gesucht habe. Ich bin da irgendwie wie die Mutter zum Kind gekommen.

Maximilian Fronn: Das ist auch ein schöner Spruch — den muss ich mir merken.

Antonia Grzelak: Aber vielleicht ist es genau das — das von Anfang an aktiv mitdenken. Ich finde, Conversion-Rate-Optimierung ist nicht gerade der bekannteste Marketing-Bereich, und den einfach tatsächlich mal aktiv mitdenken. Ich glaube, das wäre so ein großer Unterschied — den ich da anders machen würde als früher.

Maximilian Fronn: Okay, fair enough. Eine Sache, die deine Freunde außerhalb der Branche an deinem Job immer noch nicht verstehen?

Antonia Grzelak: Was ist ein Data Lakehouse?

Maximilian Fronn: Magst du das gerade für die Zuschauer und für mich erklären?

Antonia Grzelak: Ich bin gerade vielleicht sehr tief drin, aber um es ganz kurz zusammenzufassen: unser Data Lakehouse wird letzten Endes die Single Source of Truth sein, wo all unsere Unternehmensdaten von allen Tools liegen. Das ist das Geheimnis — und für mich so ein bisschen auch der heilige Gral.

Maximilian Fronn: Kennt man, glaube ich, auch als Data Warehouse generell — oder?

Antonia Grzelak: Genau, da geht es noch ein bisschen um die Struktur der Daten und wie strukturiert sie tatsächlich sind.

Maximilian Fronn: Okay, verstehe. Muss ich mir merken. Eine Person, der jeder CRO-Profi oder Produktverantwortliche folgen sollte — wer ist dein Go-to im Marketing- und Social-Media-Bereich?

Antonia Grzelak: Ich weiß gar nicht, ob ich auf eine einzelne Person verweisen würde, aber ich würde prinzipiell sagen: guckt euch mal die Marketing-Experten von Auto1 an. Die haben wirklich wahnsinnig gute Insights.

Maximilian Fronn: Cool, da muss ich direkt auch mal reinschauen. Eine Sache, die KI in den nächsten drei Jahren wahrscheinlich übernehmen wird?

Antonia Grzelak: Mustererkennung — strukturierte Mustererkennung bei Analysen.

Maximilian Fronn: Okay. Und dann die letzte Frage: eine Conversion-Rate-Optimization-Kennzahl, von der du dir wünschst, dass die Menschen aufhören, sie zu überwerten?

Antonia Grzelak: Ich würde fast sagen: die Conversion Rate an sich. Weil die Conversion Rate ist so breit — und ich finde, die Conversion Rate kann nicht allein gesehen werden, sondern es braucht Leitplanken dazu. Das heißt: hört auf, nur auf die eine Zahl zu gucken. Ihr müsst auch links und rechts davon schauen, was da noch bedacht werden sollte.

Abschluss

Maximilian Fronn: Super — das ist auch ein super Abschluss von unserer Seite aus. Das war Antonia Grzelak, Head of Growth and Innovation bei Funke Works, die uns heute spannende Einblicke gegeben hat, wie Experimentation strukturiert aufgebaut, intern verankert und strategisch skaliert werden kann. Antonia, vielen Dank für deine Zeit und deine Offenheit. Hat mir Spaß gemacht, mit dir heute zu sprechen.

Antonia Grzelak: Mir auch. Danke dir.

Maximilian Fronn: Und an alle Zuhörerinnen, Zuhörer und Zuschauer: wenn euch diese Episode gefallen hat, abonniert den VWO-Podcast für weitere Gespräche rund um Testing, CRO und digitales Wachstum. Bis zum nächsten Mal.

You might also love to watch these

Voices of CRO

Was der DACH-Markt beim Thema CRO immer noch falsch versteht | Antonia Grzelak

Maximilian Fronn

Hosted by Maximilian Fronn

Connect with your existing tech Watch Now

Voices of CRO

Simplicity Is The Most Underrated CRO Strategy in Fintech | Vipul Sharma

Subho Mukherjee

Hosted by Subho Mukherjee

Connect with your existing tech Watch Now

Voices of CRO

Why CRO Is Misunderstood In The MENAT Region (And How To Fix It)

Devon Boyd

Hosted by Devon Boyd

Connect with your existing tech Watch Now

Do you want to be our next guest?

Got some CRO stories, hard-learned lessons, or a unique take on product and research? We'd love to have you on the show. Share your details, and we'll get in touch soon.

Deliver great experiences. Grow faster, starting today.

Explore for Free Request Demo