← Zurück zu GenAI & Content Creation
Flux ist eine Familie von Bildgenerierungsmodellen von Black Forest Labs (gegründet von den ursprünglichen Stable-Diffusion-Forschern), die auf Flow-Matching statt klassischer Diffusion basieren und mit 12 Milliarden Parametern deutlich leistungsfähiger als SDXL sind.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten


Was ist Flux?

Black Forest Labs wurde 2023 von Robin Rombach und anderen Kernmitgliedern des ursprünglichen Stable-Diffusion-Teams gegründet — den Forschern hinter dem CVPR-2022-Paper. Im August 2024 veröffentlichten sie die Flux.1-Modellfamilie, die in mehreren Benchmarks die bis dahin führenden Modelle übertraf.

Flux ist technisch kein Latent-Diffusion-Modell im klassischen Sinne, sondern nutzt Flow Matching (auch Rectified Flow), einen moderneren Ansatz zur generativen Modellierung. Das ermöglicht effizientere Trainingsdynamiken und bessere Qualität bei weniger Inferenzschritten. Das Modell hat 12 Milliarden Parameter — zum Vergleich: SDXL hat 2,6 Milliarden im U-Net.


Erklärung

Flux.1 Modellfamilien

Flux.1 Pro: Das leistungsstärkste Modell, ausschließlich über die Black-Forest-Labs-API und lizenzierte Partner (Replicate, fal.ai, Together AI) zugänglich. Nicht als lokaler Download verfügbar. Optimiert für professionelle Qualität.

Flux.1 Dev: Das stärkste öffentlich verfügbare Modell. Gewichte auf Hugging Face herunterladbar (Non-commercial-Lizenz). Eignet sich für lokale Experimente, Forschung und nicht-kommerzielle Projekte. Erfordert 12–16 GB VRAM.

Flux.1 Schnell: Destillierte Version mit 4–8 Steps statt 20–50. Apache-2.0-Lizenz (vollständig Open Source, kommerziell nutzbar). Geringfügig niedrigere Qualität als Dev, aber erheblich schneller. Geeignet für kommerzielle Anwendungen.

Flux.1 [Fill]: Spezialisierte Inpainting/Outpainting-Variante.

Flux.1 [Canny] / [Depth]: ControlNet-analoge Steuerungsmodelle.

Technische Architektur

Flux verwendet eine Multimodal Diffusion Transformer (MMDiT)-Architektur, die Text- und Bildrepräsentationen in gemeinsamen Transformer-Schichten verarbeitet — im Gegensatz zum U-Net-basierten Ansatz von Stable Diffusion. Das Cross-Attention-Prinzip wird durch Full Attention über beiden Modalitäten ersetzt.

T5-XXL als Text-Encoder: Flux nutzt Googles T5-XXL-Encoder (4,7 Mrd. Parameter) statt CLIP. T5 versteht natürliche Sprache erheblich besser als CLIP — komplexe, satzartige Prompts werden korrekt interpretiert. Zusätzlich wird CLIP ViT-L für globale Stilmerkmale eingesetzt.

Flow Matching statt DDPM: Klassische Diffusionsmodelle lernen, Rauschen schrittweise zu entfernen (DDPM). Flow Matching lernt stattdessen direkte Vektorfelder, die Rauschen in Bilder transformieren. Das ermöglicht geradlinigere Trajektorien im Datenraum, weniger Steps und bessere Qualität.

Promptverständnis

Das verbesserte Promptverständnis ist Flux' auffälligstes Merkmal gegenüber SDXL:

  • Lange, satzartige Prompts werden korrekt interpretiert
  • Attribut-Bindung (welche Eigenschaft zu welchem Objekt gehört) ist erheblich besser
  • Textwiedergabe in Bildern (Schriften auf Schildern, Logos) funktioniert zuverlässig
  • Raumrelationen wie „links von", „hinter" werden korrekt umgesetzt

Schritt-für-Schritt / Einrichtung

Flux.1 Dev in ComfyUI

```bash

```

VRAM-Anforderungen für Flux.1 Dev

KonfigurationVRAMQualität
Volle Präzision (FP16)24 GBMaximal
T5 FP8 + Flux FP1616 GBSehr gut
NF4-Quantisierung8–10 GBGut
CPU-Offloading6 GB VRAM + 32 GB RAMLangsam

Optimale Parameter

`` Steps: 20–30 (Dev), 4–8 (Schnell) CFG/Guidance: 3.5–5 (Flux nutzt Classifier-Free Guidance anders als SD) Sampler: Euler (Flow-Matching-optimiert) Auflösung: 1024×1024 empfohlen, flexibel Seed: Beliebig ``


Beispiele (5 konkrete Anwendungsfälle)

  1. Textelemente in Bildern: Flux generiert zuverlässig lesbare Texte in Bildern — Schriften auf Buchcovern, Ladenschilder, Zeitungsschlagzeilen. Für Mockup-Erstellungen im Medienbereich ein enormer Vorteil.
  2. Komplexe Szenen-Kompositionen: Prompts wie „Ein Roboter sitzt links neben einem Hund, der ein rotes Halsband trägt, auf einer blauen Parkbank, während im Hintergrund die Eiffelturm zu sehen ist" werden von Flux korrekt umgesetzt — SDXL mischte Attribute häufig.
  3. Fotorealistische Portraits ohne Fine-Tuning: Flux.1 Dev liefert out-of-the-box hochqualitative fotorealistische Portraits, ohne dass spezielle Fine-Tuning-Modelle wie bei SD 1.5 nötig sind.
  4. Kommerzielle Schnellproduktion mit Flux Schnell: Dank Apache-2.0-Lizenz kann Flux.1 Schnell direkt in kommerzielle Produkte integriert werden — Social-Media-Agenturen generieren Batch-Content ohne Lizenzbedenken.
  5. ControlNet-Äquivalente mit Flux Canny/Depth: Architektur- und Produktvisualisierungen nutzen die nativen Flux-Steuerungsmodelle für Kantenführung und Tiefensteuerung.

In der Praxis

Flux vs. SDXL — wann welches Modell?

Flux Dev ist für Qualitätsprojekte ohne Kommerzialität klar überlegen. Flux Schnell eignet sich für kommerzielle Batch-Prozesse. SDXL bleibt relevant für:

  • Projekte mit breitem Community-Modell-Ökosystem (Hunderte LoRAs, Fine-Tunes)
  • Geringere VRAM-Anforderungen (6–8 GB)
  • AUTOMATIC1111-basierte Workflows

Flux LoRAs

Die Community hat begonnen, LoRAs für Flux zu trainieren. Training ist komplexer als für SD 1.5, da der T5-Encoder und das größere Modell mehr Ressourcen benötigen. Tools wie SimpleTuner und kohya_ss (mit Flux-Support) werden genutzt.


Vergleich & Abgrenzung

MerkmalFlux.1 DevFlux.1 SchnellSDXL 1.0
LizenzNon-commercialApache 2.0 (kommerziell)CreativeML OpenRAIL++
Parameter12 Mrd.12 Mrd.2,6 Mrd.
Steps20–304–825–40
VRAM (min.)8 GB (NF4)8 GB (NF4)6 GB
TextwiedergabeSehr gutGutMittel
PromptfolgeSehr gutGutMittel
Community-ModelleWachsendWachsendSehr viele

Häufige Fragen (FAQ)

F: Darf ich mit Flux.1 Dev kommerzielle Projekte erstellen? Nein. Die Flux.1-Dev-Lizenz schließt kommerzielle Nutzung aus. Für kommerzielle Projekte ist Flux.1 Schnell (Apache 2.0) die richtige Wahl, oder man lizenziert Flux Pro über die offizielle API von Black Forest Labs.

F: Warum ist der T5-Encoder so wichtig für Flux? T5-XXL ist ein Sprachmodell mit 4,7 Mrd. Parametern, das natürliche Sprache wesentlich tiefer versteht als CLIP. CLIP wurde primär auf kurzen Bild-Tag-Paaren trainiert und kämpft mit vollständigen Sätzen und komplexer Syntax. T5 ist ein Seq2Seq-Sprachmodell, das Satzstruktur, Kausalität und Attributzuweisung versteht — daher folgt Flux langen, natürlichsprachlichen Prompts erheblich besser.


Verwandte Einträge


Weiterführend

  • Black Forest Labs:
  • Flux.1 auf Hugging Face:
  • Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR.
  • Flow Matching Paper: Lipman, Y. et al. (2022). Flow Matching for Generative Modeling.
← Zurück zu GenAI & Content Creation
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar
Flux – Black Forest Labs — Wiki | Lazi Akademie | Lazi Akademie Esslingen