wissen:glossar:bildgeneration

Bildgenerierung / KI-Bildgenerierung

Glossar
Schlüsselwörter	Bildgenerierung, KI-Bildgenerierung, Generieren von Bildern, Midjourney, Stable Diffusion, DALL-E, Text-zu-Bild-Generierung, Prompt
Typ	KI-UseCase

Bildgenerierung bezieht sich auf die Erstellung von Bildern mithilfe von Techniken und Anwendungen der Datenverarbeitung.

Bildgenerierung stellt einen Teilbereich des Computer Vision dar. Die Bildgenerierung durch Künstliche Intelligenz (KI) basiert in der Regel auf neuronalen Netzen, die zuvor mit einer enormen Menge an vorhandenen Bildern trainiert wurden. Zum Beispiel werden eine Vielzahl an Katzenbildern in ein Computersystem eingespeist, damit eine entsprechende KI lernen kann, welche Merkmale eine Katze hat, um sie dann nachzubilden. Die meisten KI-Bildgeneratoren nutzen mehrere unterschiedliche Datenbanken, um Bilder zu erstellen.

Problemstellung & Zielsetzung

Verwendet werden dafür oft Bilder aus dem Internet. Hierbei wird gezielt nach Bildern und dazugehörigen Textbeschreibungen gesucht, um die Systeme selbstständig lernen zu lassen. Eine gute Bildbeschreibung führt zu einer besseren Datenbank und damit zu einer höheren Qualität der generierten Bilder. Techniken wie Stable Diffusion, DALL-E und Midjourney sind alle auf die Bildgenerierung mit Hilfe von KI ausgerichtet.

Stable Diffusion ist ein generatives Modell. Damit ist eine Klasse von Modellen für maschinelles Lernen gemeint, die neue Daten basierend auf Trainingsdaten generieren können. Durch Text-zu-Bild-Generierung können Benutzer sich beliebige Darstellungen von der KI generieren lassen.
DALL-E ist ein KI-Modell, das ebenfalls dazu in der Lage ist, aus Textbeschreibungen Bilder zu generieren, die in vielen Fällen sehr realistisch aussehen. Es basiert auf einer Kombination von neuronalen Netzen und Sprachmodellen.
Das Midjourney-Modell, Version 4, wurde von Midjourney entworfen und auf einem neuen Midjourney-KI-Supercluster trainiert. Das Modell verfügt über ein umfangreiches Wissen über Kreaturen, Orte, Objekte und mehr. Es ist in der Lage, kleine Details genauer wiederzugeben und kann komplexe Eingabeaufforderungen mit mehreren Zeichen oder Objekten verarbeiten.

MÖGLICHE KI-METHODIKEN

Auf Grund der hohen Datenmengen und Interpretationsspielräume die Bilder aufweisen, werden bildbasierte Use Case überwiegend über neuronale Netze bzw. mithilfe des Deep Learning realisiert. Auf Grund der vielen Schichten (Layers) ermöglichen diese Ansätze eine Analyse und Nachahmung über viele Merkmale hinweg.

Bewährte Methoden des Deep Learning in der Bildgenerierung:

Autoencoder - z.B. für die Rekonstruktion von Eingabedaten, um Datenpunkte (Bilder) zu erzeugen.
Convolutional Neural Networks (CNN) - z.B. für das erlernen von Merkmalen die spezifische Abbildungen enthalten müssen.

Risiken & Chancen

Erstellung von beliebigen Darstellungen durch die KI.
Kann Kreativitäts- und Designprozesse unterstützen.
Simulationsunterstützung.
Desinformation durch überzeugende echt Bilder (Deepfakes).
Verletzung von Urheberrechten und geistigem Eigentum.
Vertrauensverlust in visuelle Medien.

Exkurs: KI-Tools zur Bildgenerierung (Text zu Bild) in der Praxis

Nach aktuellem Stand sind Grafiken, welche über einen Text von der KI generiert werden sollen funktionsfähig, jedoch bei gewollter Berücksichtigung von Zusammenhängen und mit Abbildungen von Text nicht qualitativ, jedoch ist davon auszugehen, dass in nächster Zeit KI-Bildgenerierungstools zunehmend an Bedeutung gewinnen und deren Lernfähigkeit auch auf Zusammenhänge und zu schreibenden Text zunimmt. Mit Bildgenerierungs-Tools mittels KI würden Nutzende schnell und einfach Bilder generieren. Diese Funktion ist private als auch geschäftlich nutzbar und eignet sich für beispielsweise das Online-Marketing, für Social-Media-Posts oder die Erstellung von Präsentationen.

Bis KI-Bildgenerierung so weit ist nahezu fehlerfrei Bilder zu generieren, um das menschliche Arbeiten dadurch zu unterstützen, wird es noch etwas dauern. Einfache Vorgänge wie das Ideensammeln und die Erstellung einfacher Scribbles sind jedoch bereits möglich.
Neben den bereits benannten Tools von Dalle-E, Midjourney und Stable Diffusion gibt es weiterhin: Adobe Express, Canva oder auch Neuro Flash (als deutsches Unternehmen). Die Tools unterscheiden sich in Bezug auf Sprachverständnis, Zugang, Kosten, etc. Für einen ersten Einstieg wirkt bspw. Adobe Express benutzerfreundlich.
Weiterführende Links zu den einzelnen Tools

Allgemeines Vorgehen zur Nutzung von KI-Tools zur Bildgenerierung

Um eine Grafik zu generieren, sollten Sie sich bewusst machen, was man von der Grafik erwartet und genau definieren, welche Farbkonzepte, welches Design und was genau im Bild zu finden sein soll (Schlagwörter/-begriffe). Jedes Wort / jede Wortgruppe, die der KI einen Befehl für die Generierung gibt, wird als Prompt bezeichnet (z.B. „blauer Hintergrund“). Diese entwickelte Definition wird letztlich als Text in das vorgesehen Feld in eine Maske eingegeben, anhand welchem die KI in der Regel mehrere Grafiken zur Wahl erstellt.

Am Beispiel besteht der Text: „Erstelle eine Grafik mit blauem Hintergrund (1) und gelben Rechtecken (2)…“ aus zwei Prompts.

Mit weiterer Entwicklung der Tools kann angenommen werden, dass hier auch komplexere Texte, wie die komplette Definition von Business Modell Visualisierungen möglich wird.

Weiterführende Informationen