Scatter Plot ist ein Streudiagramm, das die Werte zweier numerischer Variablen als Punkte in einem kartesischen Koordinatensystem darstellt und damit Korrelationen, Cluster, Ausreißer und Verteilungsmuster sichtbar macht.
Rubrik: Mediendesign & Digitale Medien · Unterrubrik: Infografik & Datenvisualisierung · Niveau: Einsteiger Synonyme / Auch bekannt als: Streudiagramm, Punktwolke, Streuplot, XY-Diagramm, Scatterplot
Was ist ein Scatter Plot?
Der Scatter Plot ist das grundlegende Werkzeug zur Untersuchung von Beziehungen zwischen zwei numerischen Variablen. Jeder Datenpunkt wird als einzelner Punkt eingetragen, wobei seine Position auf der x-Achse durch die erste Variable und auf der y-Achse durch die zweite Variable bestimmt wird. Die resultierende Punktwolke zeigt auf einen Blick, ob zwischen den Variablen eine Korrelation besteht, wie stark sie ist, ob sie linear oder kurvenförmig verläuft und ob es Ausreißer gibt.
Erklärung
Korrelation erkennen: Wenn die Punkte eine aufsteigende Diagonale bilden, besteht eine positive Korrelation (je mehr X, desto mehr Y). Eine absteigende Diagonale signalisiert negative Korrelation. Bildet die Punktwolke kein erkennbares Muster, besteht keine (lineare) Korrelation. Eine Trendlinie (Regressionslinie) kann eingezeichnet werden, um den Trend zu verdeutlichen.
Wichtiger Vorbehalt – Korrelation ist nicht Kausalität: Scatter Plots zeigen statistische Zusammenhänge, keine kausalen. Die berühmte „Spurious Correlations"-Sammlung von Tyler Vigen zeigt, dass z. B. der US-Konsum von Mozzarella und die Anzahl der Professorentitel stark korrelieren – ohne jeden kausalen Zusammenhang. Dieser Vorbehalt muss bei der Kommunikation von Scatter Plots immer beachtet und kommuniziert werden.
Visuelles Encoding: Scatter Plots können eine dritte Variable durch die Größe der Punkte codieren (dann wird er zum Bubble Chart) und eine vierte durch ihre Farbe. Dies ermöglicht die gleichzeitige Darstellung von vier Variablen – allerdings auf Kosten der Lesbarkeit. Als Faustregel gilt: maximal drei Variablen für allgemeine Publika, vier nur in interaktiven oder wissenschaftlichen Kontexten.
Overplotting: Bei großen Datensätzen (Tausende bis Millionen Punkte) überlagern sich Punkte so stark, dass die Punktwolke schwarz und uninformativ wird. Lösungen: Transparenz (Alpha-Wert), kleinere Punkte, Hexbin-Plot (aggregiert Punkte in hexagonale Zellen), oder 2D-Histogramm.
Achsenskalierung: Bei Daten mit großen Unterschieden in der Größenordnung (z. B. Bevölkerungszahlen oder Einkommen) können logarithmische Skalen sinnvoll sein. Sie müssen dann explizit gekennzeichnet werden.
Beispiele
- Gapminder-Grafik: Hans Roslings berühmte Visualisierung von Lebenserwartung vs. BIP pro Kopf für alle Länder der Welt – der meistgezeigte Scatter Plot im Science-Communication-Bereich.
- Sportwissenschaft: Zusammenhang zwischen Trainingsintensität und Leistungsverbesserung in einer Interventionsstudie.
- Immobilienmarkt: Kaufpreis vs. Wohnfläche für alle Verkäufe eines Jahres in einer Stadt – Cluster nach Stadtvierteln eingefärbt.
- Medienwissenschaft: Korrelation zwischen Clickbait-Anteil von Headlines und tatsächlichen Klickraten in einer Inhaltsanalyse.
- Umweltforschung: CO₂-Emissionen pro Kopf vs. HDI (Human Development Index) für 190 Länder mit Einfärbung nach Kontinent.
In der Praxis
Datawrapper ermöglicht einfache Scatter Plots mit Hover-Tooltips und Beschriftung einzelner Punkte. Flourish bietet animierte Scatter Plots (im Gapminder-Stil über Zeit) und ist ideal für Storytelling. Tableau ist stark für explorative Scatter-Plot-Analysen mit Drill-Down-Funktion. D3.js ermöglicht vollständig individuelle Scatter Plots für Web-Publikationen. Python (matplotlib, seaborn, plotly) und R (ggplot2) sind Standard in der Wissenschaft.
Workflow-Tipp: Vor der Publikation einzelne auffällige Datenpunkte beschriften – nicht alle, sondern nur die, die die Geschichte erzählen (Ausreißer, Extremfälle, repräsentative Beispiele). Datawrapper erlaubt das direkte Beschriften einzelner Punkte per Klick.
Vergleich & Abgrenzung
| Situation | Empfehlung |
|---|---|
| Korrelation zweier numerischer Variablen | Scatter Plot ✓ |
| Korrelation + dritte Variable (Größe) | Bubble Chart |
| Zeitlicher Verlauf | Liniendiagramm |
| Viele Variablen gleichzeitig | Scatter Plot Matrix (SPLOM) |
| Kategoriale x Numerisch | Box Plot oder Violinplot |
Häufige Fragen (FAQ)
Wann sollte man einen Scatter Plot verwenden? Wenn man die Beziehung zwischen zwei numerischen Variablen untersuchen oder zeigen möchte – besonders bei Korrelationsfragen. Er eignet sich für explorative Analyse (Muster entdecken) ebenso wie für Kommunikation (ein klares Beispiel zeigen). Ungeeignet ist er für nominale Variablen oder wenn die Anzahl der Datenpunkte sehr gering ist (unter 10).
Welche häufigen Fehler gibt es bei Scatter Plots? Korrelation als Kausalität darstellen ist der schwerwiegendste Kommunikationsfehler. Technische Fehler: Overplotting ohne Transparenz, fehlende Achsenbeschriftung mit Einheiten, keine Angabe der Datenpunktzahl (n=?), logarithmische Achsen ohne Kennzeichnung und das Zeichnen von Trendlinien ohne Angabe von R² oder Signifikanz.
Verwandte Einträge
Weiterführend
- Anscombe, Francis J. (1973): Graphs in Statistical Analysis. In: The American Statistician, 27 (1), S. 17–21. (Anscombe's Quartet)
- Cairo, Alberto (2016): The Truthful Art. San Francisco: New Riders.
- Wilke, Claus O. (2019): Fundamentals of Data Visualization. Sebastopol: O'Reilly. (frei online: clauswilke.com/dataviz)
