A/B-Tests sind kontrollierte Online-Experimente, bei denen zwei oder mehr Designvarianten parallel an unterschiedliche Nutzergruppen ausgespielt werden, um datenbasiert die bessere Variante zu bestimmen.
Rubrik: Mediendesign & digitale Medien · Unterrubrik: UX-Research · Niveau: Fortgeschritten Synonyme / Auch bekannt als: AB-Test, Split-Test, Bucket-Test, Online Controlled Experiment
Was ist ein A/B-Test?
Beim A/B-Test wird einer Nutzergruppe Variante A („Control") angezeigt, einer anderen Variante B („Treatment"). Beide Gruppen werden auf eine messbare Erfolgsmetrik hin verglichen — typischerweise Conversion-Rate, Klickrate oder Verweildauer. Statistische Verfahren entscheiden, ob der Unterschied signifikant ist.
Erklärung
A/B-Tests sind das Herzstück datengetriebenen Designs. Sie ersetzen Bauchgefühl und Hierarchie-Entscheidungen („Der Chef will Rot") durch empirische Evidenz. Eine seriöse A/B-Test-Methodik umfasst: klare Hypothese („Wenn ich den CTA-Button von Grau auf Orange ändere, steigt die Klickrate, weil Orange auffälliger ist"), Definition der Primärmetrik, Berechnung der nötigen Stichprobengröße (Power-Analyse), zufällige Zuweisung der Nutzer, ausreichend lange Laufzeit (mindestens ein voller Geschäftszyklus, meist 1–2 Wochen) und saubere statistische Auswertung.
Wichtig: Ein A/B-Test misst Kausalität, kein Korrelations-Mining. Er ist nur dann valide, wenn nur eine Variable geändert wurde. Werden mehrere Elemente gleichzeitig variiert, spricht man von einem multivariaten Test (MVT). Die Stichprobengröße steigt dabei stark — schon zwei Faktoren mit je zwei Ausprägungen erfordern viermal so viele Nutzer.
Typische Stolperfallen sind: zu kleine Stichproben („Peeking-Problem"), zu kurze Laufzeit, Saisonalitäts-Effekte, Novelty-Effekt (neue Variante wirkt nur kurzfristig besser, weil sie auffällt), und die Verwechslung von statistischer mit praktischer Signifikanz. Ein 0,3 %-Lift kann statistisch signifikant, aber wirtschaftlich irrelevant sein.
Beispiele
- Beispiel 1: Booking.com testet kontinuierlich Hunderte Mikro-Änderungen pro Woche — Button-Farben, Textformulierungen, Bildanordnungen. Jede Änderung wird nur dann live geschaltet, wenn der A/B-Test signifikanten Lift zeigt.
- Beispiel 2: Newsletter-Anmeldebox: Variante A oben rechts, Variante B als Slide-In nach 30 Sekunden. Ergebnis: Slide-In +18 % Anmeldungen, aber +25 % Absprünge — netto negativ.
- Beispiel 3: E-Commerce-Produktseite testet „Jetzt kaufen" vs. „In den Warenkorb". Häufiges Resultat: Wording-Änderungen wirken stärker als Farbänderungen.
- Beispiel 4: Landingpage-Headline-Test mit Google Optimize bzw. heute VWO / Optimizely — drei Headlines, je 33 % Traffic, Laufzeit 14 Tage.
- Beispiel 5: SaaS-Onboarding: Variante A zeigt zuerst Tutorial-Video, Variante B startet direkt im Produkt. Aktivierungsrate nach 7 Tagen wird verglichen.
In der Praxis
Im Tool-Stack dominieren VWO, Optimizely, AB Tasty, Convert.com sowie für Statistik-Profis selbstgebaute Setups mit GA4 plus BigQuery. Google Optimize wurde 2023 eingestellt. Für sauberen A/B-Test braucht es mindestens ein paar hundert Conversions pro Variante — bei kleinen Sites mit wenig Traffic ist Guerilla-Usability-Testing oder qualitatives Usability-Testing meist sinnvoller. Faustregel: pro Variante mindestens 1.000 eindeutige Besucher und 100 Conversions. Tests immer in Sprints planen, Hypothesen priorisieren (z. B. nach PIE oder ICE-Score), und Ergebnisse — auch negative — dokumentieren.
Vergleich & Abgrenzung
A/B-Tests werden oft mit Usability-Tests verwechselt. Beide sind komplementär: Der A/B-Test sagt, was besser funktioniert, der Usability-Test sagt, warum. Wer nur A/B-testet, optimiert blind; wer nur qualitativ testet, hat keine Skalierung.
| Merkmal | A/B-Test | Usability-Test |
|---|---|---|
| Datentyp | Quantitativ | Qualitativ |
| Frage | Was funktioniert besser? | Warum funktioniert es (nicht)? |
| Teilnehmer | Hunderte bis Tausende | 5–8 |
| Aussagekraft | Statistische Signifikanz | Tieferes Verständnis |
Häufige Fragen (FAQ)
Wie lange muss ein A/B-Test laufen? Mindestens ein voller Geschäftszyklus — meist 1 bis 2 Wochen, um Wochenend-Effekte abzubilden. Statistische Signifikanz nicht als „Stop-Signal" interpretieren: ein vorzeitig beendeter Test produziert systematisch falsche Positivergebnisse („Peeking-Problem"). Vorab Stichprobengröße berechnen und Test nicht vorzeitig abbrechen.
Brauche ich für jeden Designänderung einen A/B-Test? Nein. Bei klaren Usability-Fehlern (z. B. unleserliche Schrift, kaputter Button) ist A/B-Testing Zeitverschwendung — direkt fixen. A/B-Tests lohnen sich für Hypothesen mit unklarem Ausgang und ausreichend Traffic, um statistische Aussagen zu erlauben.
Weiterführend
- Kohavi, Ron / Tang, Diane / Xu, Ya (2020): Trustworthy Online Controlled Experiments. Cambridge University Press
- Siroker, Dan / Koomen, Pete (2013): A/B Testing: The Most Powerful Way to Turn Clicks Into Customers. Wiley
- Nielsen Norman Group (2024): A/B Testing 101. nngroup.com
