A/B-Testing, Designvarianten datengestützt vergleichen

A/B-Testing (auch Split-Testing) ist eine experimentelle Methode, bei der zwei Varianten einer digitalen Oberfläche, die bestehende Version A und eine veränderte Version B, gleichzeitig an zufällig aufgeteilten Nutzergruppen ausgespielt werden, um statistisch valide zu messen, welche Variante besser auf eine definierte Metrik einzahlt.

Rubrik: Mediendesign & Digitale Medien · Unterrubrik: UX Research · Niveau: Einsteiger Synonyme / Auch bekannt als: Split-Testing, Bucket-Testing, kontrolliertes Experiment, Multivariate Testing (Sonderform)

Was ist A/B-Testing?

A/B-Testing ist die Methode der Wahl, wenn Teams wissen möchten, welche Designentscheidung tatsächlich bessere Ergebnisse erzielt, und nicht nur, welche besser aussieht. Es ist das digitale Äquivalent eines kontrollierten wissenschaftlichen Experiments: Eine Variable (z. B. Buttonfarbe, Headline, Seitenlayout) wird systematisch verändert, alle anderen bleiben gleich. Der Ausgang, Klickrate, Konversionsrate, Verweildauer, Absprungrate, wird für beide Gruppen gemessen und verglichen.

Erklärung

Der Grundgedanke des A/B-Testings ist einfach: 50 % der Besucherinnen und Besucher einer Website sehen Version A (Kontrolle), 50 % sehen Version B (Variante). Nach ausreichend langer Laufzeit und genügend Datenpunkten kann mit statistischer Sicherheit festgestellt werden, ob B besser, schlechter oder gleichwertig zu A ist.

Die entscheidenden Konzepte für valide A/B-Tests:

Hypothese: Jeder Test beginnt mit einer klaren, falsifizierbaren Hypothese, z. B.: „Wenn wir den Bestellbutton von Grau auf Orange ändern, steigt die Klickrate auf der Produktseite um mindestens 10 %, weil Orange eine stärkere Handlungsaufforderung signalisiert."

Statistische Signifikanz: Ergebnisse sind nur dann verlässlich, wenn sie statistisch signifikant sind, üblicherweise bei einem p-Wert < 0,05, was bedeutet, dass die Wahrscheinlichkeit eines Zufallsergebnisses unter 5 % liegt. Tools wie Google Optimize, Optimizely oder AB Tasty berechnen dies automatisch.

Stichprobengröße: Wie viele Nutzer braucht ein A/B-Test? Das hängt von der erwarteten Effektgröße und dem gewünschten Signifikanzniveau ab. Für kleine Veränderungen (z. B. +2 % Konversionsrate) sind Zehntausende von Nutzenden nötig. Kostenfrei nutzbare Stichprobenrechner (z. B. von Optimizely oder Evan Miller) helfen bei der Planung.

Testdauer: A/B-Tests sollten mindestens einen vollen Wochen-Zyklus laufen, um Wochentags-Effekte auszuschließen. Vorzeitiger Abbruch (Peeking) ist ein häufiger Fehler, der zu Fehlentscheidungen führt.

A/B-Testing eignet sich besonders für klar messbare Konversionsziele (Kauf abschließen, Newsletter abonnieren, Formular ausfüllen) auf Seiten mit ausreichend Traffic. Für niedrig-Traffic-Seiten sind qualitative Methoden wie Usability Testing effektiver, da A/B-Tests dort nie die nötige statistische Power erreichen.

Multivariate Tests sind eine Erweiterung: Mehrere Variablen werden gleichzeitig getestet. Das erfordert jedoch deutlich mehr Traffic, da alle Kombinationen gleichzeitig getestet werden müssen.

Beispiele

App-Entwicklung: Eine Fitness-App testet zwei verschiedene Formulierungen der Push-Notification für das Workout-Reminder: „Zeit für dein Training!" vs. „Du hast heute noch kein Training abgeschlossen." Version B steigert die Öffnungsrate um 23 %.
E-Commerce: Ein Onlineshop testet zwei Checkout-Flows: mit und ohne obligatorische Kontoerstellung. Die Variante ohne Pflichtregistrierung erhöht den Checkout-Abschluss um 15 %.
Öffentlicher Sektor / NGO: Eine Spendenorganisation testet zwei Formulierungen auf der Spendenseite: „Helfen Sie heute" vs. „Retten Sie heute ein Kinderleben". Die konkrete Formulierung erhöht die durchschnittliche Spendenhöhe um 8 %.
Startup: Ein B2B-SaaS-Startup testet zwei Headline-Varianten auf seiner Landingpage und stellt fest, dass eine nutzenorientierte Formulierung („Sparen Sie 10 Stunden pro Woche") eine problemorientierte Variante übertrifft.
Agentur-Perspektive: Eine Performance-Marketing-Agentur setzt A/B-Tests für den Hero-Bereich einer Produktlandingpage ein, um aus fünf verschiedenen Konzepten das beste für den finalen Launch zu identifizieren.

In der Praxis

Typischer Ablauf:

Analyse: Daten (Analytics, Heatmaps, Usability Tests) auswerten und Schwachstellen identifizieren.
Hypothese formulieren: Problem benennen, Lösung vorschlagen, erwarteten Effekt und Messgröße definieren.
Variante entwickeln: Designänderung umsetzen (möglichst eine Variable pro Test).
Stichprobengröße berechnen: Signifikanzniveau (95 %), Baseline-Konversionsrate und minimaler detektierbarer Effekt (MDE) eingeben.
Test starten: Gleichzeitig laufen lassen, nicht vorzeitig abbrechen.
Auswertung: Signifikanz prüfen, Gewinner implementieren, Ergebnis dokumentieren.

Tools: Google Optimize (eingestellt 2023, Nachfolger: GA4 Experiments), Optimizely, AB Tasty, VWO, Statsig, Growthbook (Open Source).

Vergleich & Abgrenzung

A/B-Testing ist quantitativ und sagt, was besser funktioniert, aber nicht warum. Usability Testing erklärt das Warum. Heatmaps liefern visuelle Hinweise, wo Nutzer mit einer Version interagieren. Für fundierte CRO (Conversion Rate Optimization) kombinieren professionelle Teams alle drei: Heatmaps und Usability Tests generieren Hypothesen; A/B-Tests validieren sie quantitativ. Im Vergleich zu multivariaten Tests ist A/B-Testing einfacher zu interpretieren und benötigt weniger Traffic.

Häufige Fragen (FAQ)

Wie lange sollte ein A/B-Test laufen? Mindestens eine volle Woche, besser zwei bis vier Wochen. So werden Wochentags-Schwankungen (z. B. höhere Konversionsraten am Wochenende für B2C, unter der Woche für B2B) ausgeglichen. Ein Test sollte niemals abgebrochen werden, nur weil nach wenigen Tagen ein klarer Gewinner erkennbar scheint, das ist statistisch nicht valide (Peeking-Problem).

Was tun, wenn der Test kein klares Ergebnis liefert? Ein Nicht-Ergebnis (kein statistisch signifikanter Unterschied) ist kein Versagen, sondern eine valide Erkenntnis: Die Änderung macht keinen messbaren Unterschied. Das ist wertvoll, weil es zeigt, dass Ressourcen besser in andere Optimierungen investiert werden sollten. Typische Ursachen für nicht-signifikante Tests: zu wenig Traffic, zu kleiner Effekt oder eine Hypothese, die das falsche Problem adressiert.

Weiterführend

Kohavi, R. / Tang, D. / Xu, Y. (2020): Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press.
Siroker, D. / Koomen, P. (2013): A/B Testing: The Most Powerful Way to Turn Clicks Into Customers. Wiley.
Kahneman, D. (2011): Thinking, Fast and Slow. Farrar, Straus and Giroux. (Kognitive Grundlagen)
Online: Nielsen Norman Group, „A/B Testing" (nngroup.com)
Online: Optimizely, „A/B Testing Statistics: An Easy-to-Understand Guide" (optimizely.com)

Was ist A/B-Testing?

Erklärung

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

A/B-Testing, Designvarianten datengestützt vergleichen

Was ist A/B-Testing?

Erklärung

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.