Generative KI – Überblick über KI-Tools für Text, Bild, Video und Audio — Wiki | Lazi Akademie

Generative KI bezeichnet eine Klasse von KI-Systemen, die auf Basis von Trainingsdaten eigenständig neue Inhalte wie Texte, Bilder, Videos, Musik oder Code erzeugen können.

Rubrik: GenAI & Content Creation · Unterrubrik: Grundlagen · Niveau: Einsteiger Synonyme / Auch bekannt als: GenAI, Generative Artificial Intelligence, generative Künstliche Intelligenz, kreative KI

Was ist Generative KI?

Generative KI ist der Oberbegriff für alle KI-Systeme, die nicht nur analysieren oder klassifizieren, sondern aktiv neue Inhalte erstellen. Im Unterschied zu klassischen KI-Systemen, die Muster in Daten erkennen (zum Beispiel: „Ist dieses Bild eine Katze?"), können generative KI-Systeme aus einem Input – etwa einem Textbefehl – etwas vollständig Neues erzeugen: einen Artikel, ein Gemälde, ein Musikstück oder einen kurzen Film.

Erklärung

Die Geschichte der generativen KI lässt sich grob in drei Phasen gliedern. Die erste Welle generativer Systeme entstand mit Generative Adversarial Networks (GANs), die ab 2014 erstmals realistische Bilder generieren konnten. Die zweite Phase brachte Transformer-Modelle (ab 2017), die revolutionären Einfluss auf die Sprachverarbeitung hatten. Mit GPT-3 (2020) und DALL·E (2021) wurde deutlich, dass generative KI für breite Anwendungsfelder einsetzbar ist. Die dritte und aktuelle Phase begann mit ChatGPT (November 2022), das generative KI erstmals für die breite Öffentlichkeit zugänglich machte.

Technisch basieren aktuelle generative KI-Systeme auf zwei Hauptarchitekturen:

Transformer sind die Grundlage fast aller leistungsstarken Text-KI-Modelle. Sie verarbeiten Text als Sequenzen von Token und erkennen durch einen sogenannten Attention-Mechanismus, welche Teile einer Eingabe für die Ausgabe besonders relevant sind. GPT-4, Claude, Gemini und Llama basieren auf Transformer-Architekturen.

Diffusionsmodelle sind die technische Grundlage der meisten modernen Bildgeneratoren. Bei der Generierung beginnt das Modell mit einem zufälligen Rauschen und entfernt schrittweise dieses Rauschen, gesteuert durch eine Textbeschreibung (Prompt), bis ein klares Bild entsteht. Stable Diffusion, DALL·E 3 und Midjourney basieren auf diesem Prinzip.

Die vier Hauptkategorien generativer KI

Text-KI: Sprachmodelle wie ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google) und Llama (Meta) generieren Texte aller Art – von E-Mails über Artikel bis hin zu Code. Sie bilden das Herzstück der meisten KI-Assistenten.

Bild-KI: Bildgeneratoren wie Midjourney, Stable Diffusion, DALL·E 3 und Adobe Firefly erstellen auf Basis von Textbeschreibungen oder Referenzbildern fotorealistische oder stilisierte Bilder. Die Qualität hat sich seit 2022 dramatisch verbessert.

Video-KI: Tools wie Runway ML, Pika, Luma AI und Sora (OpenAI) generieren kurze Videoclips aus Text- oder Bildbeschreibungen. Diese Kategorie entwickelt sich am schnellsten und hat 2024/2025 einen Qualitätssprung erlebt.

Audio-KI: Suno AI und Udio generieren vollständige Songs inklusive Gesang aus Textbeschreibungen. ElevenLabs spezialisiert sich auf realistische Sprachsynthese; Adobe Firefly Audio auf Soundeffekte. Diese Werkzeuge verändern die Podcast-, Werbe- und Musikproduktion grundlegend.

Dazu kommen multimodale Modelle, die mehrere Modalitäten gleichzeitig verarbeiten können: GPT-4o kann gleichzeitig Text, Bilder und Sprache verstehen und erzeugen. Gemini Ultra von Google ist ebenfalls multimodal ausgelegt.

Einfluss auf Kreativberufe

Generative KI verändert kreative Berufe nicht durch Ersatz, sondern durch Beschleunigung und Erweiterung. Texter:innen, Designer:innen, Videograf:innen und Musiker:innen können KI-Tools nutzen, um schneller zu iterieren, Rohfassungen zu erstellen und neue Ideen zu erkunden. Gleichzeitig entstehen neue Kompetenzen: Prompt Engineering (die Kunst, KI präzise anzusteuern) und KI-Workflow-Design werden zu gefragten Fähigkeiten.

Die Herausforderungen sind real: Urheberrechtsfragen (was darf KI nutzen?), die Kennzeichnungspflicht für KI-generierte Inhalte, Qualitätskontrolle (Halluzinationen, Artefakte) und ethische Fragen rund um Bildmanipulation und Deepfakes müssen aktiv adressiert werden.

Beispiele

Marketingagentur: Ein kleines Team erstellt mit Claude Textentwürfe, mit Midjourney Kampagnenbilder und mit ElevenLabs Voice-Overs – und spart damit Produktionszeit, die für Strategie und Kundenkommunikation genutzt wird.
E-Learning-Produktion: Eine Bildungsplattform nutzt generative KI, um Kursskripte mit ChatGPT zu erstellen, Erklärbilder mit Adobe Firefly zu generieren und Sprecherstimmen mit ElevenLabs zu synthetisieren.
Lokale Nachrichtenredaktion: Eine kleine Redaktion setzt KI-Transkription und -Zusammenfassung für Interviews ein, nutzt KI für SEO-Optimierung ihrer Texte und generiert Headerbillder mit Firefly – ohne dass das Kernteam wächst.

In der Praxis

Für den Einstieg empfiehlt sich ein schrittweiser Ansatz: Zunächst mit einem Tool beginnen, das dem eigenen Aufgabenfeld entspricht (Text → ChatGPT oder Claude; Bild → Adobe Firefly oder Midjourney). Dann Prompt-Engineering-Grundlagen erlernen, da die Qualität der KI-Ausgaben direkt von der Qualität der Eingaben abhängt. Anschließend können Tools kombiniert und Workflows automatisiert werden.

Vergleich & Abgrenzung

Generative KI unterscheidet sich von klassischer KI (die analysiert, klassifiziert oder vorhersagt) dadurch, dass sie neue Inhalte erschafft. Von Robotik unterscheidet sie sich durch ihre Ausrichtung auf digitale Medien. Die Abgrenzung zu Automatisierung liegt darin, dass generative KI kreativ variiert und nicht nur vordefinierte Prozesse ausführt.

Häufige Fragen (FAQ)

Brauche ich Programmierkenntnisse, um generative KI zu nutzen? Für die meisten Tools – ChatGPT, Claude, Midjourney, ElevenLabs – sind keine Programmierkenntnisse erforderlich. Sie verfügen über benutzerfreundliche Oberflächen, die per Texteingabe bedient werden. Programmierkenntnisse sind erst dann hilfreich, wenn man über APIs eigene Anwendungen bauen oder generative KI in bestehende Software-Systeme integrieren möchte.

Sind KI-generierte Inhalte urheberrechtlich geschützt? In Deutschland und der EU ist die Rechtslage noch nicht abschließend geklärt. Generell gilt: KI kann keine Urheberrechte erwerben, da Urheberrecht menschliche Schöpfungsleistung voraussetzt. Ob und in welchem Umfang die menschliche Leistung beim Prompting als urheberrechtlich schutzwürdig gilt, ist Gegenstand aktueller Rechtsdiskussionen und unterscheidet sich je nach Land.

Weiterführend

Goodfellow, I. et al. (2014): Generative Adversarial Networks. arXiv:1406.2661
Eloundou, T. et al. (2023): GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models. OpenAI / arXiv:2303.10130
Bundesministerium für Bildung und Forschung (2024): KI in der Praxis – Leitfaden für den Einstieg. bmbf.de

Generative KI – Überblick über KI-Tools für Text, Bild, Video und Audio

Was ist Generative KI?

Erklärung

Die vier Hauptkategorien generativer KI

Einfluss auf Kreativberufe

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Generative KI – Überblick über KI-Tools für Text, Bild, Video und Audio

Was ist Generative KI?

Erklärung

Die vier Hauptkategorien generativer KI

Einfluss auf Kreativberufe

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.