← Zurück zu Mediendesign & Digitale Medien
Streudiagramm (englisch: Scatter Plot) ist eine Diagrammform, bei der jeder Datenpunkt als Punkt in einem zweidimensionalen Koordinatensystem dargestellt wird, um Zusammenhänge zwischen zwei numerischen Variablen zu zeigen.

Rubrik: Mediendesign & Digitale Medien · Unterrubrik: Infografik & Datenvisualisierung · Niveau: Einsteiger


Was ist ein Streudiagramm?

Im Streudiagramm repräsentiert jeder Datenpunkt (jede Beobachtung) einen Punkt im Raum, dessen X-Position einer Variable und dessen Y-Position einer zweiten Variable entspricht. Das Muster, das die Punkte bilden, verrät, ob und wie die beiden Variablen zusammenhängen.

Typische Muster:

  • Aufsteigende Punktewolke: Positive Korrelation (wenn X steigt, steigt auch Y).
  • Absteigende Punktewolke: Negative Korrelation (wenn X steigt, sinkt Y).
  • Kreisförmige oder diffuse Wolke: Keine oder schwache Korrelation.
  • Nicht-lineares Muster: Kurvenförmige Beziehung (z. B. quadratisch, logarithmisch).

Erklärung

Korrelation und Kausalität:

Das Streudiagramm zeigt Korrelationen – statistische Zusammenhänge. Es beweist keine Kausalität. Eine aufsteigende Punktewolke bedeutet, dass zwei Variablen gemeinsam variieren; nicht, dass eine die andere verursacht. Diesen Unterschied sollten Beschriftungen und Texte immer klarstellen.

Regressionslinien:

Häufig wird eine Regressionsgerade (oder -kurve) durch die Punktewolke gelegt. Diese Trendlinie zeigt die durchschnittliche Beziehung zwischen X und Y und ermöglicht Vorhersagen. In Datawrapper oder R lässt sich eine lineare Regressionslinie mit wenigen Klicks einblenden.

Overplotting:

Wenn sehr viele Datenpunkte übereinanderliegen (Overplotting), werden einzelne Punkte unsichtbar. Lösung:

  • Transparenz (Alpha-Wert): Punkte werden halbtransparent, dichte Bereiche wirken dunkler.
  • Jitter: Punkte werden leicht zufällig verschoben.
  • Hexagonal Binning: Der Raum wird in sechseckige Zellen aufgeteilt, deren Färbung die Punktdichte zeigt.
  • Heatmap-Überblendung: Bei extremen Mengen ist eine Heatmap (Dichtekarte) die bessere Wahl.

Logarithmische Skalierung:

Wenn Daten über viele Größenordnungen streuen (z. B. Bevölkerungszahlen von 1.000 bis 1 Milliarde), ist eine logarithmische Achse sinnvoll. Cairo (2016) empfiehlt, Log-Skalen immer deutlich zu kennzeichnen und zu erklären, da viele Leserinnen und Leser sie nicht intuitiv interpretieren.

Bubble Chart:

Das Bubble Chart ist eine Erweiterung des Scatter Plots um eine dritte Variable: die Punktgröße (Fläche). Damit können drei Dimensionen gleichzeitig kodiert werden. Der berühmteste Bubble Chart ist Hans Roslings „Gapminder"-Visualisierung (Lebenserwartung vs. BIP pro Kopf, Größe = Bevölkerung). Vierte und fünfte Variablen können durch Farbe und Form kodiert werden – aber mehr als vier Dimensionen überfordern die meisten Betrachter.

Achsenabschnitte:

Beim Streudiagramm ist ein Beginnen der Achsen bei den Datengrenzen (statt bei Null) oft sinnvoll, um die Variation der Datenpunkte im Bild zu maximieren. Das ist anders als beim Balkendiagramm und sollte kontextabhängig entschieden werden.


Wann einsetzen / wann nicht

Einsetzen, wenn:

  • Die Beziehung zwischen zwei numerischen Variablen untersucht werden soll.
  • Ausreißer identifiziert werden sollen.
  • Der Datensatz groß genug ist, um ein aussagekräftiges Muster zu bilden (mindestens 20–30 Punkte).
  • Eine dritte Variable durch Punktgröße (Bubble) oder Farbe kodiert werden soll.
  • Wissenschaftliche oder analytische Visualisierungen erstellt werden.

Nicht einsetzen, wenn:

  • Kategorien verglichen werden sollen (Balkendiagramm wählen).
  • Nur wenige Datenpunkte vorhanden sind (5–10 Punkte bilden kein Muster, eine Tabelle ist klarer).
  • Die Zielgruppe datenviz-unerfahren ist und keine Korrelationsdarstellungen kennt.
  • Zeitreihen gezeigt werden sollen – dafür ist das Liniendiagramm besser geeignet.

Abgrenzung zum Liniendiagramm: Beide nutzen X-Y-Koordinaten, aber das Liniendiagramm verbindet Punkte zu einem Verlauf (setzt Kontinuität voraus), während das Streudiagramm jeden Punkt einzeln zeigt (keine Verbindung = keine angenommene Kontinuität zwischen Datenpunkten).


Beispiele (5 konkrete)

  1. Bildung und Einkommen: Scatter Plot mit X-Achse = Bildungsjahre, Y-Achse = mittleres Jahreseinkommen, jeder Punkt = ein OECD-Land. Positive Korrelation sichtbar; Ausreißer (Länder mit vielen Bildungsjahren, aber geringem Einkommen) hervorgehoben.
  2. Gapminder-Visualisierung: Bubble Chart mit BIP pro Kopf (X), Lebenserwartung (Y), Bevölkerungsgröße (Punktgröße), Region (Farbe). Hans Roslings globale Gesundheitsdaten auf einen Blick.
  3. Filmkritiken vs. Einnahmen: X-Achse = Rotten-Tomatoes-Score, Y-Achse = weltweite Einnahmen in Mio. USD. Jeder Punkt ein Film. Aufzeigen, dass kritischer Erfolg und wirtschaftlicher Erfolg schwach korrelieren.
  4. Wohnungsgröße und Mietpreis: X-Achse = Wohnfläche in m², Y-Achse = Monatsmiete in Euro. Datenpunkte = Wohnungen in einer Stadt. Regressionsgerade zeigt Durchschnittspreis pro m².
  5. Körpergröße und Gewicht: Klassisches Schulbeispiel mit biologischen Messdaten, unterschiedliche Farben für Geschlecht. Zeigt starke positive Korrelation mit klar unterscheidbaren Gruppen.

In der Praxis

Datawrapper: Datawrapper bietet einen Scatter-Plot-Typen mit optionaler Regressionslinie, Tooltip-Beschriftungen und Farbkodierung nach Kategorie. Besonders nützlich: Einzelne Punkte (z. B. Ausreißer) können manuell beschriftet werden. Responsives Embed-Widget.

Flourish: Flourish bietet Scatter Plots und Bubble Charts mit Animationsoptionen. Besonders bekannt ist das Flourish-Template für animierte „Gapminder"-ähnliche Darstellungen, bei denen sich Punkte über die Zeit bewegen. Die Storytelling-Funktion ermöglicht es, Punkte schrittweise anzuzeigen oder einzelne Gruppen hervorzuheben.

D3.js / Observable Plot: In D3.js werden Scatter Plots mit d3.scaleLinear() für beide Achsen und SVG-Kreisen (<circle>) für jeden Datenpunkt erstellt. Observable Plot vereinfacht dies zu: Plot.dot(data, {x: "variable1", y: "variable2", fill: "kategorie"}). Für Bubble Charts ergänzt r: "groesse" die Punktgröße.


Vergleich & Abgrenzung

DiagrammtypFokusDatenbedarf
Scatter PlotKorrelation zweier Variablen≥ 20 Punkte
Bubble ChartKorrelation + dritte Variable≥ 20 Punkte
LiniendiagrammZeitreihe, VerlaufZeitreihe
HeatmapDichte / Häufigkeit in MatrixGroße Mengen
KorrelationsmatrixAlle PaarkorrelationenViele Variablen

Eine Korrelationsmatrix (auch: Korrelogramm) zeigt alle paarweisen Korrelationen zwischen vielen Variablen als Farbfelder in einer Matrix. Sie ist eine kompakte Alternative, wenn mehr als drei Variablen untereinander in Beziehung gesetzt werden sollen.


Häufige Fragen (FAQ)

Wann sollte ich eine logarithmische Skala verwenden? Wenn Daten eine sehr große Spannweite aufweisen – typischerweise mehrere Größenordnungen (z. B. 1 bis 1.000.000). Eine lineare Skala würde alle kleinen Werte in einem engen Bereich unten links zusammenpressen und die großen Werte dominieren lassen. Die logarithmische Skala streckt den unteren Bereich und staucht den oberen, sodass relative Unterschiede vergleichbar werden. Immer deutlich mit „Log-Skala" kennzeichnen!

Wie vermeide ich Overplotting? Die einfachste Methode ist Transparenz: Punkte mit Alpha-Wert 0,3–0,5 werden überlagert dunkler. Bei extremem Overplotting (Tausende von Punkten) wechselt man zu Hexagonal Binning oder einer Kernel-Dichte-Darstellung, die dichte Bereiche als Farbflächen zeigt.


Verwandte Einträge


Weiterführend

  • Cairo, A. (2016). The Truthful Art. New Riders.
  • Wilke, C. O. (2019). Fundamentals of Data Visualization. O'Reilly Media.
  • Few, S. (2012). Show Me the Numbers (2. Aufl.). Analytics Press.
  • Tufte, E. R. (2001). The Visual Display of Quantitative Information (2. Aufl.). Graphics Press.
← Zurück zu Mediendesign & Digitale Medien
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar
Streudiagramm / Scatter Plot — Wiki | Lazi Akademie | Lazi Akademie Esslingen