Flux, Black Forest Labs

Flux ist eine Familie von Bildgenerierungsmodellen von Black Forest Labs (gegründet von den ursprünglichen Stable-Diffusion-Forschern), die auf Flow-Matching statt klassischer Diffusion basieren und mit 12 Milliarden Parametern deutlich leistungsfähiger als SDXL sind.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten

Was ist Flux?

Black Forest Labs wurde 2023 von Robin Rombach und anderen Kernmitgliedern des ursprünglichen Stable-Diffusion-Teams gegründet, den Forschern hinter dem CVPR-2022-Paper. Im August 2024 veröffentlichten sie die Flux.1-Modellfamilie, die in mehreren Benchmarks die bis dahin führenden Modelle übertraf. Im Mai 2025 folgte FLUX.1 Kontext für kontextbewusstes Bildgenerieren und -bearbeiten. Im November 2025 erschien FLUX.2 mit 32 Milliarden Parametern als deutlich leistungsfähigere Nachfolgegeneration.

Flux ist technisch kein Latent-Diffusion-Modell im klassischen Sinne, sondern nutzt Flow Matching (auch Rectified Flow), einen moderneren Ansatz zur generativen Modellierung. Das ermöglicht effizientere Trainingsdynamiken und bessere Qualität bei weniger Inferenzschritten. Das Basismodell FLUX.1 hat 12 Milliarden Parameter, zum Vergleich: SDXL hat 2,6 Milliarden im U-Net.

Erklärung

FLUX.1 Modellfamilie (August 2024)

Flux.1 Pro: Das leistungsstärkste Modell, ausschließlich über die Black-Forest-Labs-API und lizenzierte Partner (Replicate, fal.ai, Together AI) zugänglich. Nicht als lokaler Download verfügbar. Optimiert für professionelle Qualität.

Flux.1 Dev: Das stärkste öffentlich verfügbare Modell. Gewichte auf Hugging Face herunterladbar (Non-commercial-Lizenz). Eignet sich für lokale Experimente, Forschung und nicht-kommerzielle Projekte. Erfordert 12–16 GB VRAM.

Flux.1 Schnell: Destillierte Version mit 4–8 Steps statt 20–50. Apache-2.0-Lizenz (vollständig Open Source, kommerziell nutzbar). Geringfügig niedrigere Qualität als Dev, aber erheblich schneller. Geeignet für kommerzielle Anwendungen.

Flux.1 [Fill]: Spezialisierte Inpainting/Outpainting-Variante.

Flux.1 [Canny] / [Depth]: ControlNet-analoge Steuerungsmodelle.

FLUX.1 Kontext (Mai 2025): Suite für kontextbewusstes Bildgenerieren und -bearbeiten. Ermöglicht Charakterkonsistenz über mehrere Szenen, lokales Bearbeiten von Bildteilen ohne Gesamtänderung und iteratives Verfeinern. Varianten: Kontext [Pro] und Kontext [Max]. Kontext [Dev] als Open-Weights-Modell auf Hugging Face verfügbar.

FLUX.2 Modellfamilie (November 2025)

FLUX.2 erschien am 25. November 2025 als Nachfolgegeneration mit 32 Milliarden Parametern. Das Modell koppelt einen Rectified-Flow-Transformer mit dem Mistral-3-24B-Sprachmodell und liefert fotorealistische Bilder bis 4 Megapixel. Varianten: Pro, Flex, Dev, Klein (16B, destilliert, für Consumer-GPUs). Die Zusammenarbeit mit NVIDIA ermöglicht 40 % reduzierten VRAM-Bedarf durch FP8-Optimierung. FLUX.2 unterstützt Multi-Reference-Input (bis zu 10 Referenzbilder).

Technische Architektur

Flux verwendet eine Multimodal Diffusion Transformer (MMDiT)-Architektur, die Text- und Bildrepräsentationen in gemeinsamen Transformer-Schichten verarbeitet, im Gegensatz zum U-Net-basierten Ansatz von Stable Diffusion. Das Cross-Attention-Prinzip wird durch Full Attention über beiden Modalitäten ersetzt.

T5-XXL als Text-Encoder: Flux nutzt Googles T5-XXL-Encoder (4,7 Mrd. Parameter) statt CLIP. T5 versteht natürliche Sprache erheblich besser als CLIP, komplexe, satzartige Prompts werden korrekt interpretiert. Zusätzlich wird CLIP ViT-L für globale Stilmerkmale eingesetzt.

Flow Matching statt DDPM: Klassische Diffusionsmodelle lernen, Rauschen schrittweise zu entfernen (DDPM). Flow Matching lernt stattdessen direkte Vektorfelder, die Rauschen in Bilder transformieren. Das ermöglicht geradlinigere Trajektorien im Datenraum, weniger Steps und bessere Qualität.

Promptverständnis

Das verbesserte Promptverständnis ist Flux' auffälligstes Merkmal gegenüber SDXL:

Lange, satzartige Prompts werden korrekt interpretiert
Attribut-Bindung (welche Eigenschaft zu welchem Objekt gehört) ist erheblich besser
Textwiedergabe in Bildern (Schriften auf Schildern, Logos) funktioniert zuverlässig
Raumrelationen wie „links von", „hinter" werden korrekt umgesetzt

Schritt-für-Schritt / Einrichtung

Flux.1 Dev in ComfyUI

```bash

```

VRAM-Anforderungen für Flux.1 Dev

Konfiguration	VRAM	Qualität
Volle Präzision (FP16)	24 GB	Maximal
T5 FP8 + Flux FP16	16 GB	Sehr gut
NF4-Quantisierung	8–10 GB	Gut
CPU-Offloading	6 GB VRAM + 32 GB RAM	Langsam

Optimale Parameter

`` Steps: 20–30 (Dev), 4–8 (Schnell) CFG/Guidance: 3.5–5 (Flux nutzt Classifier-Free Guidance anders als SD) Sampler: Euler (Flow-Matching-optimiert) Auflösung: 1024×1024 empfohlen, flexibel Seed: Beliebig ``

Beispiele (5 konkrete Anwendungsfälle)

Textelemente in Bildern: Flux generiert zuverlässig lesbare Texte in Bildern, Schriften auf Buchcovern, Ladenschilder, Zeitungsschlagzeilen. Für Mockup-Erstellungen im Medienbereich ein enormer Vorteil.
Komplexe Szenen-Kompositionen: Prompts wie „Ein Roboter sitzt links neben einem Hund, der ein rotes Halsband trägt, auf einer blauen Parkbank, während im Hintergrund die Eiffelturm zu sehen ist" werden von Flux korrekt umgesetzt, SDXL mischte Attribute häufig.
Fotorealistische Portraits ohne Fine-Tuning: Flux.1 Dev liefert out-of-the-box hochqualitative fotorealistische Portraits, ohne dass spezielle Fine-Tuning-Modelle wie bei SD 1.5 nötig sind.
Kommerzielle Schnellproduktion mit Flux Schnell: Dank Apache-2.0-Lizenz kann Flux.1 Schnell direkt in kommerzielle Produkte integriert werden, Social-Media-Agenturen generieren Batch-Content ohne Lizenzbedenken.
ControlNet-Äquivalente mit Flux Canny/Depth: Architektur- und Produktvisualisierungen nutzen die nativen Flux-Steuerungsmodelle für Kantenführung und Tiefensteuerung.

In der Praxis

Flux vs. SDXL, wann welches Modell?

Flux Dev ist für Qualitätsprojekte ohne Kommerzialität klar überlegen. Flux Schnell eignet sich für kommerzielle Batch-Prozesse. SDXL bleibt relevant für:

Projekte mit breitem Community-Modell-Ökosystem (Hunderte LoRAs, Fine-Tunes)
Geringere VRAM-Anforderungen (6–8 GB)
AUTOMATIC1111-basierte Workflows

Flux LoRAs

Die Community hat begonnen, LoRAs für Flux zu trainieren. Training ist komplexer als für SD 1.5, da der T5-Encoder und das größere Modell mehr Ressourcen benötigen. Tools wie SimpleTuner und kohya_ss (mit Flux-Support) werden genutzt.

Vergleich & Abgrenzung

Merkmal	Flux.1 Dev	Flux.1 Schnell	SDXL 1.0
Lizenz	Non-commercial	Apache 2.0 (kommerziell)	CreativeML OpenRAIL++
Parameter	12 Mrd.	12 Mrd.	2,6 Mrd.
Steps	20–30	4–8	25–40
VRAM (min.)	8 GB (NF4)	8 GB (NF4)	6 GB
Textwiedergabe	Sehr gut	Gut	Mittel
Promptfolge	Sehr gut	Gut	Mittel
Community-Modelle	Wachsend	Wachsend	Sehr viele

Häufige Fragen (FAQ)

F: Darf ich mit Flux.1 Dev kommerzielle Projekte erstellen? Nein. Die Flux.1-Dev-Lizenz schließt kommerzielle Nutzung aus. Für kommerzielle Projekte ist Flux.1 Schnell (Apache 2.0) die richtige Wahl, oder man lizenziert Flux Pro über die offizielle API von Black Forest Labs.

F: Warum ist der T5-Encoder so wichtig für Flux? T5-XXL ist ein Sprachmodell mit 4,7 Mrd. Parametern, das natürliche Sprache wesentlich tiefer versteht als CLIP. CLIP wurde primär auf kurzen Bild-Tag-Paaren trainiert und kämpft mit vollständigen Sätzen und komplexer Syntax. T5 ist ein Seq2Seq-Sprachmodell, das Satzstruktur, Kausalität und Attributzuweisung versteht, daher folgt Flux langen, natürlichsprachlichen Prompts erheblich besser.

Weiterführend

Black Forest Labs:
Flux.1 auf Hugging Face:
FLUX.1 Kontext Ankündigung:
FLUX.2 Ankündigung:
Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR.
Flow Matching Paper: Lipman, Y. et al. (2022). Flow Matching for Generative Modeling.

Was ist Flux?

Erklärung

FLUX.1 Modellfamilie (August 2024)

FLUX.2 Modellfamilie (November 2025)

Technische Architektur

Promptverständnis

Schritt-für-Schritt / Einrichtung

Flux.1 Dev in ComfyUI

VRAM-Anforderungen für Flux.1 Dev

Optimale Parameter

Beispiele (5 konkrete Anwendungsfälle)

In der Praxis

Flux vs. SDXL, wann welches Modell?

Flux LoRAs

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Flux, Black Forest Labs

Was ist Flux?

Erklärung

FLUX.1 Modellfamilie (August 2024)

FLUX.2 Modellfamilie (November 2025)

Technische Architektur

Promptverständnis

Schritt-für-Schritt / Einrichtung

Flux.1 Dev in ComfyUI

VRAM-Anforderungen für Flux.1 Dev

Optimale Parameter

Beispiele (5 konkrete Anwendungsfälle)

In der Praxis

Flux vs. SDXL, wann welches Modell?

Flux LoRAs

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.