A/B-Tests

A/B-Tests sind kontrollierte Online-Experimente, bei denen zwei oder mehr Designvarianten parallel an unterschiedliche Nutzergruppen ausgespielt werden, um datenbasiert die bessere Variante zu bestimmen.

Rubrik: Mediendesign & digitale Medien · Unterrubrik: UX-Research · Niveau: Fortgeschritten Synonyme / Auch bekannt als: AB-Test, Split-Test, Bucket-Test, Online Controlled Experiment

Was ist ein A/B-Test?

Beim A/B-Test wird einer Nutzergruppe Variante A („Control") angezeigt, einer anderen Variante B („Treatment"). Beide Gruppen werden auf eine messbare Erfolgsmetrik hin verglichen — typischerweise Conversion-Rate, Klickrate oder Verweildauer. Statistische Verfahren entscheiden, ob der Unterschied signifikant ist.

Erklärung

A/B-Tests sind das Herzstück datengetriebenen Designs. Sie ersetzen Bauchgefühl und Hierarchie-Entscheidungen („Der Chef will Rot") durch empirische Evidenz. Eine seriöse A/B-Test-Methodik umfasst: klare Hypothese („Wenn ich den CTA-Button von Grau auf Orange ändere, steigt die Klickrate, weil Orange auffälliger ist"), Definition der Primärmetrik, Berechnung der nötigen Stichprobengröße (Power-Analyse), zufällige Zuweisung der Nutzer, ausreichend lange Laufzeit (mindestens ein voller Geschäftszyklus, meist 1–2 Wochen) und saubere statistische Auswertung.

Wichtig: Ein A/B-Test misst Kausalität, kein Korrelations-Mining. Er ist nur dann valide, wenn nur eine Variable geändert wurde. Werden mehrere Elemente gleichzeitig variiert, spricht man von einem multivariaten Test (MVT). Die Stichprobengröße steigt dabei stark — schon zwei Faktoren mit je zwei Ausprägungen erfordern viermal so viele Nutzer.

Typische Stolperfallen sind: zu kleine Stichproben („Peeking-Problem"), zu kurze Laufzeit, Saisonalitäts-Effekte, Novelty-Effekt (neue Variante wirkt nur kurzfristig besser, weil sie auffällt), und die Verwechslung von statistischer mit praktischer Signifikanz. Ein 0,3 %-Lift kann statistisch signifikant, aber wirtschaftlich irrelevant sein.

Beispiele

Beispiel 1: Booking.com testet kontinuierlich Hunderte Mikro-Änderungen pro Woche — Button-Farben, Textformulierungen, Bildanordnungen. Jede Änderung wird nur dann live geschaltet, wenn der A/B-Test signifikanten Lift zeigt.
Beispiel 2: Newsletter-Anmeldebox: Variante A oben rechts, Variante B als Slide-In nach 30 Sekunden. Ergebnis: Slide-In +18 % Anmeldungen, aber +25 % Absprünge — netto negativ.
Beispiel 3: E-Commerce-Produktseite testet „Jetzt kaufen" vs. „In den Warenkorb". Häufiges Resultat: Wording-Änderungen wirken stärker als Farbänderungen.
Beispiel 4: Landingpage-Headline-Test mit Google Optimize bzw. heute VWO / Optimizely — drei Headlines, je 33 % Traffic, Laufzeit 14 Tage.
Beispiel 5: SaaS-Onboarding: Variante A zeigt zuerst Tutorial-Video, Variante B startet direkt im Produkt. Aktivierungsrate nach 7 Tagen wird verglichen.

In der Praxis

Im Tool-Stack dominieren VWO, Optimizely, AB Tasty, Convert.com sowie für Statistik-Profis selbstgebaute Setups mit GA4 plus BigQuery. Google Optimize wurde 2023 eingestellt. Für sauberen A/B-Test braucht es mindestens ein paar hundert Conversions pro Variante — bei kleinen Sites mit wenig Traffic ist Guerilla-Usability-Testing oder qualitatives Usability-Testing meist sinnvoller. Faustregel: pro Variante mindestens 1.000 eindeutige Besucher und 100 Conversions. Tests immer in Sprints planen, Hypothesen priorisieren (z. B. nach PIE oder ICE-Score), und Ergebnisse — auch negative — dokumentieren.

Vergleich & Abgrenzung

A/B-Tests werden oft mit Usability-Tests verwechselt. Beide sind komplementär: Der A/B-Test sagt, was besser funktioniert, der Usability-Test sagt, warum. Wer nur A/B-testet, optimiert blind; wer nur qualitativ testet, hat keine Skalierung.

Merkmal	A/B-Test	Usability-Test
Datentyp	Quantitativ	Qualitativ
Frage	Was funktioniert besser?	Warum funktioniert es (nicht)?
Teilnehmer	Hunderte bis Tausende	5–8
Aussagekraft	Statistische Signifikanz	Tieferes Verständnis

Häufige Fragen (FAQ)

Wie lange muss ein A/B-Test laufen? Mindestens ein voller Geschäftszyklus — meist 1 bis 2 Wochen, um Wochenend-Effekte abzubilden. Statistische Signifikanz nicht als „Stop-Signal" interpretieren: ein vorzeitig beendeter Test produziert systematisch falsche Positivergebnisse („Peeking-Problem"). Vorab Stichprobengröße berechnen und Test nicht vorzeitig abbrechen.

Brauche ich für jeden Designänderung einen A/B-Test? Nein. Bei klaren Usability-Fehlern (z. B. unleserliche Schrift, kaputter Button) ist A/B-Testing Zeitverschwendung — direkt fixen. A/B-Tests lohnen sich für Hypothesen mit unklarem Ausgang und ausreichend Traffic, um statistische Aussagen zu erlauben.

Weiterführend

Kohavi, Ron / Tang, Diane / Xu, Ya (2020): Trustworthy Online Controlled Experiments. Cambridge University Press
Siroker, Dan / Koomen, Pete (2013): A/B Testing: The Most Powerful Way to Turn Clicks Into Customers. Wiley
Nielsen Norman Group (2024): A/B Testing 101. nngroup.com

Was ist ein A/B-Test?

Erklärung

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

A/B-Tests

Was ist ein A/B-Test?

Erklärung

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.