Was du lernen wirst
- Was KI-Bildgeneratoren sind und wie sie funktionieren
- Welche Möglichkeiten Text-zu-Bild-Generatoren bieten
- Prompt Engineering für Bilder-KI
- Gefahren durch KI-Bildgeneratoren
- KI-Bildbearbeitung
Einen Einblick in die eigene Seele darstellen, ähnlich van Goghs Botschaft in Sternennacht. Dunkelbunte Spiralen, verschiedenartige Rechtecke und Linien wie Hundertwasser. Den verfeinerten Kubismus aus Picassos Feder schwingen; das alles bieten dir KI-Bildgeneratoren.
Doch noch mehr! Dank Text-zu-KI-Bildgeneratoren erstellst du auf Kommando Aufnahmen, als hättest du zusammen mit einem Fotografen samt teurer Kamera gearbeitet.
Erfahre,
- welcher Anbieter sich lohnt,
- wie du dir die richtigen Bild-KI-Kommandos erdenkst und
- welche Gefahren lauern.
Glossar
Ein Glossar mit wichtigen Begriffen, die im Inhalt stehen.
- Text-zu-Bild-KI-Generator: Text-zu-Bild-KI-Generator bezeichnet ein künstliches neuronales Netzwerk, welches durch maschinelles Lernen Bilder durch Textbeschreibungen erstellt, erweitert oder manipuliert.
- Prompt: Prompt bedeutet auf Deutsch Befehl und ist eine Anweisung in menschlicher Sprache, mit der eine KI für ihre Aufgabe programmiert wird.
- Natural Language Processing (NPL): Natural Language Processing (zu Deutsch: Natürliche Sprachverarbeitung) lässt Maschinen menschliche Sprache verstehen.
- DALL-E (2): DALL-E 2 wird von OpenAI entwickelt und kann dank maschinellen Lernens Bilder anhand von Texteingaben generieren, erweitern oder manipulieren.
- Midjourney: Midjourney generiert Bilder auf Textkommando. Der Dienst wird mittels Discord verwendet.
- Stable Diffusion: Stable Diffusion ist ein Open-Source KI-Bildgenerator.
Inhaltsverzeichnis
KI-Bildgeneratoren: KI-Stockbilder für lau
Du hast folgendes in deinem Leben schon gehört:
Ich jedenfalls habe diesen Satz mehre-dutzende Male gelesen, gehört, ja gedacht.
Die ersten Computer für die Masse, die erste CD-ROM statt Diskette.
MP3-Spieler statt CD-Spieler, 1 Gigabyte an Speicher für die Hosentasche in Form von USB-Sticks statt gebrannter DVD-Rohling.
Erscheinen der ersten handlichen Smartphones und dadurch ein Super-Computer für die Chino-Tasche.
Jedes Mal mehr. Jedes Mal höher. Jedes Mal mindestens eine Evolution, die das Leben vereinfacht – oder auch nicht.
KI-basiertes wie ein Text-zu-Bild-Generator ist revolutionär. Eine Umwälzung bestehender Prozesse, Abläufe; Wegweiser in die Zukunft. Weckruf für Philosoph wie Politiker. Wieso? Dazu kommen wir gleich!
Zuerst: Die Generatoren für Bilddateien wandeln jegliche unserer Texteingaben in Bildnisse um. Diese Eingaben werden von KI-Experten als “prompt” bezeichnet. Prompts sind Befehle, im Fall der Bildgeneratoren: einfache oder komplexe Szenenbeschreibungen.
Schreibst du etwa, „Bananenkuchen Flotte im Orbit der Erde“, so berechnet die Maschine etwa folgendes Bild:
Dies Bild brauchte keine fünf Minuten; fertig.
Einerseits segnen diese Text-zu-Bild-Generatoren alle uns Content Creator mit kostengünstigem KI-Stockbild-Material zu jedem erdenklichen Thema – mit Ausnahmen! –, zu jeder Zeit.
Fotografen, Maler, Zeichner und Model sowie Influencer kann die KI-Revolution den Job kosten. Was, du glaubst, für tolle Profilbilder braucht man Fotografen?
Lass dich überraschen.
Die ersten von Robotern berechneten Bilder gewinnen längst an Kunstwettbewerben – wieso auch immer die Preise nicht rückwirkend aberkannt werden, sobald dieser Umstand herauskommt? Es gebe nämlich Preisgelder und wen wundert, wenn solche Wettbewerbe schließlich mit einer Flut an Material aus KI-Bildgenerator stammend geflutet werden, weil irgendwelche TikToker dies als Strategie für das große Geld anpreisen.
Mittlerweile werden KI-Inhalte in immer mehr Bereichen als unerwünscht angesehen und gar nicht mehr angenommen.
Oder Instagram-Creator übertölpeln andere Nutzer, indem sie KI generierte Portraitaufnahmen nutzen. Bildchen, die verblüffend nach stark überarbeiteten RAW-Aufnahmen ausschauen, als seien sie durch eine echte Kameralinse eingefroren wurden.
Eine Frage der Zeit, bis man ein Bildmodell mit eigenen Bildern trainieren kann und so unendlich Bilder der eigenen Person vor alle möglichen Hintergründe berechnen lässt.
KI-Bildgenerator Profilbilder von Bing Create (DALL-E 2)
KI-Bildgeneratoren revolutionieren Kunst, Fotografie, Malerei so wie wir sie kennengelernt haben.
Gewissermaßen lassen sie bekannte, beliebte, begrabene Künstler von den Toten auferstehen, nutzen deren Stil und kombinieren diesen mit anderen Objekten.
So ist es ein leichtes, den Stil von Hundertwasser, van Gogh, Picasso und wie sie alle heißen zu kopieren und mit eigenen Ideen verschmelzen zu lassen.
Generierte KI-Bilder mit Bing Create (DALL-E 2)
Alles ohne Anstrengung, bloß in dem wir einer Bilder-KI das Kommando geben, unser Bild im Stil von … wiederzugeben.
Wieso sollten etwa Content Creator wie Blogger nun noch teure Bildlizenzen kaufen, wenn sie kontextbezogene KI-Stockbilder nahezu gratis erhalten?
Und was wird schließlich aus Fotograf, Bildgestalter, Model und wer sonst noch in der Abfolge dieser Kette steht?
Es gibt erste Unternehmen, die setzen KI als Influencer oder gar CEO ihres Tochterunternehmens ein.
Es wird sich ähnlich der Kutsche und der Handelskarawane verhalten. Beides fiel bekannterweise etwas anderem, etwas Neuerem zum Opfer. Das eine brauche ich nicht zu nennen und das andere, die Dampflok, die bedeutend günstiger und schneller Waren auf Reisen schickte, ist ja ebenso längst eingetauscht, durch elektrische Triebfahrzeuge.
Jedes Zeitalter bringt was Neues und unseres bringt schwindelerregende Mengen an Neuheiten.
Und das sollte neben Philosoph genauso den Politiker nicht bloß wachrufen, sondern wachschütteln wie wachrütteln, ähnlich übertrieben wie es die Trickfigur im Trickfilm vermag, schüttele sie den Trickapfelbaum.
Und wer meint; das hat doch Zeit, der blicke in eine Zeitung – das hatte wohl auch alles einmal Zeit.
Was sind KI-Bildgeneratoren?
Hörst du die Begriffe AI Art Generator, oder: AI Image Generator so spricht da wer über einen KI-Bildgenerator.
Hierbei handelt es sich um moderne Software, die der künstlichen Intelligenz zugeordnet wird. Eine Software mit einer Architektur die menschlichem Lernen nachempfunden ist; jedenfalls theoretisch.
KI-Bildsysteme erstellen schon längst qualitativ hochwertige KI-Grafiken wie Werbebanner, Logos und Icons jeder Art.
Gewissermaßen erhalten wir alle hier die Chance kostenlose, einzigartige KI-Stockbilder zu generieren.
Folglich wirst du lesen und sehen, welche Qualität moderne KI-Bildbearbeitung und Bildgeneratoren aktuell erreichen.
Das Beste: Gleichzeitig erfährst du, wie du im Handumdrehen selbst, qualtive KI-Bilder erzeugen kannst!
Videos und Dokus über KI-Bildgenerierung
Hier findest du lehrreiche Videos zum Thema von KI-Bildgenerierung und Kunst.
Was machen KI-Künstler mit uns und unseren menschlichen Künstlern? Und welcher Gefahren unterliegt unsere Gesellschaft, wenn jeder von jedem Pornos erstellen kann? Wenn bald deepfake Klon-Diktatoren der westlichen Welt den Krieg erklären? Das alles innerhalb keiner nennenswerten Zeit?
Fangen wir dann an, einfach alles für unecht zu halten? Oder werden zweifelhafte Akteure die Leben vieler Unschuldiger ruinieren?
Wie funktioniert ein KI-Bildgenerator?
Dank maschinellen Lernens können aktuelle Text-zu-Bild-Generatoren jegliche Art von Bildern erstellen.
Beispielhaft diene uns DALL-E von OpenAI. Dieses Modell wurde mithilfe des Sprachmodells GPT-3 (Generative Pre-trained) trainiert. GPT-3 verarbeitet menschliche Sprache, somit der Computer den Kontext versteht.
Das demonstriere ich dir anhand eines Beispiels. Gebe ich folgenden Befehl ein:
“3D Render Stadt der Zukunft, modern.”
Erhalte ich folgende vier Bilder in Bing Create:
Ergebnis erinnert an Grafikstile von Battlefield 4, Watch Dogs und Thron.
Sieht ja nett aus, denkst du dir, aber geht da noch mehr?
Wie wäre es als Nächstes mit:
Ein Text-zu-Bild-KI-Modell wie DALL-E wirkt schon fast Zauber. Es liegt an einer Datenbank, die eine unzählige, unglaubliche Menge an Bilddateien aus dem Internet analysiert hat.
Aus all diesen analysierten Dateien formt die Bildgenerator-KI neue Bilder. Und das tut sie rückwärts, indem es zufällige Pixel berechnet und durch Wahrscheinlichkeitsberechnung zusammensetzt. Der Entwickler nennt es Diffusions-Modell.
Das Diffusion-Modell funktioniert, indem es die zufälligen Pixelwerte in einem Bild berechnet und diese dann schrittweise anhand einer bestimmten Wahrscheinlichkeitsverteilung aktualisiert. Diese Aktualisierung wird mehrmals durchgeführt, wodurch ein Prozess der Diffusion und Verfeinerung der Pixelwerte entsteht, dieser Prozess führt so zu hochwertigen, realitätsnahen Bildern.
Der Gestaltungs-Prozess von DALL-E lässt sich vereinfacht so darstellen:
- Nutzer schreibt einen Prompt: „Zeige mir einen Wolf in rotem Regenmantel, vor einem Haus mitten im Wald!“
- GPT versucht den Kontext des Prompts zu verstehen und fungiert als Text-Encoder, also Umwandler. Es wandelt den Text für die gewünschte Darstellung um und gibt diese Umwandlung an den Decoder.
- Der DALL-E-Decoder versucht Muster zu erkennen, vergleicht Eingabe mit Beschreibung von Trainingsdaten und wandelt die entgegengenommenen Daten mithilfe des Diffusion-Modells zu einem Bild um und gibt dieses aus.
Aber woher weiß DALL-E wie ein Wolf aussieht?
Wie eingangs erwähnt, der Text-zu-Image-Creator wurde mit einer unbekannten Anzahl an Datensätzen (Bildern) aus verschiedensten Quellen trainiert.
Heruntergebrochen: Forscher gaben DALL-E Bilder von einem Wolf, Regenmantel, Haus und Wald und schrieben unter jedes Bild eine spezifische Objektbeschreibung. Anfragen vom Nutzer in natürlicher Sprache, werden kodiert und dekodiert und mit Daten im Speicher verglichen. Schließlich folgt die Ausgabe.
Die Text-zu-Bild-Generatoren sind gewissermaßen Künstler der Imitation. Sie kopieren nicht Bild eins zu eins, doch verwenden sie deren Stile, Artefakte, Linien.
Jedoch besteht die Gefahr, dass eine vermeintliche Neukreation seinem Ursprungswerk zu sehr ähnelt oder dass ein anderer Nutzer mit selben Prompt dasselbe Bild erhalten hat oder wird. Davor warnt etwa die Nutzungsrichtlinie von Bing Create.
Die Generatoren nutzen fremde Werke als Grundbausteine. Man liest bereits von Kreativen, die glauben, Stücke ihrer Werke bereits wiedererkannt zu haben. Dies dürfte noch die ein oder andere Geschichte aus dem Gerichtssaal „generieren“.
Bisher ist Urheberrecht und durch KI erstelltes Werk kaum geklärt oder nicht vollends.
Zum einen kann eine KI nicht Urheber ihrer Werke sein – weil sie eben keine natürliche Person ist, zum anderen ist unklar, in welcher Höhe die sogenannte schöpferische Höhe für den Nutzer ausfällt.
Wenn es jedoch nach OpenAI geht, bezogen auf Kreationen durch DALL-E, so erhalten Nutzer jegliche Rechte an ihren erstellten Werken, dürfen sie auch verkaufen. Voraussetzung ist: Nutzer hält sich an die Richtlinien. Quelle: Kann ich die DALL-E Bilder verkaufen?
Welche Anbieter für KI-Bildgeneratoren gibt es?
Der KI-Bildgeneratoren Markt verhält sich ähnlich dem der KI-Textgeneratoren.
Es gibt dutzende Anbieter, aber nur vereinzelte bauen nicht auf der API eines der größeren Unternehmen auf.
Die bekanntesten Modelle für KI-Stockbilder, die auf deinen Befehl hin Bilder generieren, sind folgende:
- Midjourney
- DALL-E (2 & 3) + Bing Create
- Stable Diffusion
Bei vielen KI-Bildgeneratoren erhält der Nutzer pro Monat eine bestimmte Anzahl an Prompts kostenfrei. Die verhalten sich wie Credits und werden pro Anfrage verbraucht. Besitzt der Nutzer keine Einheiten der Währung, so muss dieser welche kaufen oder einen gewissen Zeitraum abwarten.
DALL-E 2
DALL-E ist ein KI-Bildgenerator, der von OpenAI entwickelt wurde. Er kann aus Textbeschreibungen realistische Bilder erstellen. DALL-E 2, die neueste Version von DALL-E, kann sogar noch realistischere Bilder erzeugen. Nach Registrierung, bekommst du monatlich 15 Prompts an Nutzungen gratis, für das weitere Nutzen zahlst du 15 $ für 115 Prompts.
DALL-E (2) (OpenAI) | Fakten |
---|---|
Veröffentlicht | 05. Januar 2021 |
Hersteller | OpenAI |
Standort | San Francisco, USA |
Personen | Sam Altman (CEO), Elon Musk (Co-founder) |
Finanzierung | Microsoft, Reid Hoffman, Khosla Ventures |
Nutzer | > 3 Millionen |
Technologie | DALL-E, DALL-E 2 |
Preis | Monatlich freie Credits nur für Mitglieder mit Anmeldung vor 6. April 2023 / 15 $ für 115 Prompts |
Am besten nutzt du einfach Bing Create. Die Eingabe ist auf Englisch beschränkt. Mittlerweile unterstützt der Bing-Bildgenerator auch Deutsch.
Du erhältst bei Bing täglich 25 neue Booster, die sich bis auf 100 Stück stapeln. Mittlerweile erhält man täglich neue Punkte, maximal bis 15 stück stapelbar. Das geschieht auch ohne tägliche Anmeldung. Hast du keinen Boost, so dauert das Erstellen der Bilder durch die KI eben länger.
Bing Create nutzt die OpenAI-API.
DALL-E kann auf folgenden Webseiten erprobt werden:
OpenAI Labs (Auch Deutsch möglich)
Bing Create (bisher nur Englisch Jetzt Deutsch)
DALL-E 3: Neues Text-zu-Bild-Modell
Microsoft bietet seit dem 02.10.2023 DALL-E 3 gratis auf Bing Image Create an! Erfahre unten mehr!
Modern text-to-image systems have a tendency to ignore words or descriptions, forcing users to learn prompt engineering.
openai.com/dall-e-3
Bisher setzten generative Bildgeneratoren wie DALL-E vorraus, dass sich User mt dem System beschäftigen, um qualitative Ausgaben zu erreichen.
Dies möchte OpenAi mit DALL-E 3 ändern. Die neue Version der bildgenerierenden KI erstellt ihre Bilder noch genauer nach Vorgabe.
Neben der Befehlstreue, erhöht sich die Bildqualität und Texte können endlich generiert werden. Jeder von uns kennt diese unsinnigen, wenn überhaupt leserlichen, Textpassagen auf Bildern vom DALL-E 3-Vorgänger. Die neue Version schreibt leserliche und sinnige texte auf seine generierten Bilder.
Bilder erstellen mit DALL-E 3 können demnächst Nutzer mit gültigem Abo: nämlich ChatGPT Plus- und Enterprise-Kunden. OpenAI plant Dall-E 3 in ChatGPT zu integrieren.
OpenAI wirbt, jegliche Bilder, die Nutzer mit der neuen DALL-E-Version machten, können ohne Erlaubnis gedruckt, verkauft oder vermarktet werden.
DALL-E 3 (OpenAI) | Fakten |
---|---|
Veröffentlicht | 02. Oktober 2023 |
Hersteller | OpenAI |
Standort | San Francisco, USA |
Personen | Sam Altman (CEO), Elon Musk (Co-founder) |
Finanzierung | Microsoft, Reid Hoffman, Khosla Ventures |
Nutzer | > 3 Millionen |
Technologie | DALL-E 3 |
Preis | ChatGPT Plus und Enterprise / gratis auf Bing Image Creator |
DALL-E 3 kostenlos durch Microsoft Bing nutzen
Ursprünglich hieß es in der offiziellen DALL-E 3 Meldung, die neueste Version der Bilder-KI sei zahlender Kundschaft vorenthalten. Heute, den 02. Oktober 2023, bietet Microsoft die 3 Version von DALL-E gratis mit seinem Bing Image Create-Service an! Interessierte brauchen neben Zeit bloß ein Microsoft-Konto.
Was uns bei den DALL-E 3 Bildausgaben ins Augenmerk fällt: die Texte sind teilweise sinniger, als sie es in Version 2 waren. Jedoch besteht weiterhin Entwicklungspotenzial.
Mit Sicherheit hilft dir mein Generator für Text-zu-Bild-KI-Prompts. Dieser, von mir programmierte, Generator inspiriert dich für deine nächsten Bild-KI-Befehle. Geboten werden dir eine Fülle an bildlich-kombinierbaren Begriffen, mit denen du dass Beste aus einer generativen KI-Bildrecheneinheit holst!
Stable Diffusion (2)
Stable Diffusion wirbt damit, die Privatsphäre wichtig zu nehmen, speichert eigenen Angaben nach weder Benutzerdaten noch Ein- oder Ausgaben. Es ist gratis nutzbar und Open-Source.
Die Ausgabeformate lauten
- Stable Diffusion 1: 512 x 512 Pixel
- Stable Diffusion 2: 768 x 768 Pixel
Stable Diffusion (2) | Fakten |
---|---|
Veröffentlicht | 22. August 2022 |
Hersteller | StabilityAI |
Link(s) | Open-Source (GitHub) / Stable Diffusion (Web) |
Hardware-Anforderung | Durchschnittliche CPU, 8 GB Grafikspeicher |
Weitere Stable Diffusion-Anbieter
starryai | aqualxx | ArtBot | artificial-art |
---|---|---|---|
Modell: Stable Diffusion | Modell: Stable Diffusion | Modell: Stable Diffusion | Modell: Stable Diffusion |
Preis: Gratis (5 Credits täglich), ab 15,99 $ ~ 40 Credits | Preis: Gratis | Preis: Gratis | Preis: Gratis |
starryai.com | aqualxx StableHorde | tinybots.net | artificial-art.eu |
Stable Diffusion XL
Mit Stable Diffusion XL (SDXL) liefert Stability AI ein Nachfolge Modell zum beliebten Open-Source KI-Bildgenerator Stable Diffusion 2.
Stable Diffusion XL liefert in sekundenschnelle Bilder.
Verbesserungen gibt es indes in der Qualität der Ausgaben. Die KI-Bilder wirken realistischer. Dies wird mittels Verfeinerungsmodell und höherer Auflösung erreicht.
Das Verfeinerungsmodell in Stable Diffusion XL generiert seine Bilder nämlich nicht, wie vorherige Versionen, bloß aus einem verrauschten Bild heraus. Sondern wurde das Modell trainiert, fehlerbehaftete Bilder zu reparieren oder zu skalieren. Außerdem steigt die Auflösung auf 1024 x 1024 Pixel (in Stable Diffusion 2 sind es 768 x 768 Pixel).
Stable Diffusion XL Modell
- Das Basismodell erstellt aus einem verrauschten Bild ein unverfeinertes Bild in den Maßen 128 x 128 Pixel.
- Dieses Bild wird an das Verfeinermodell weitergereicht und verfeinert. Anschließend wird es in ein hochauflösendes (1024 x 1024 Pixel) Bild skaliert.
Stable Diffusion XL Verbesserungen
Stable Diffusion XL akzeptiert, besser gesagt: generiert nun auch mit kürzeren Prompt-Eingaben
Die Ausgabequalität wurde enorm erhöht (1024 x 1024 Pixel). Der KI-Bildgenerator kann Texte auf Bilder generieren (andere Generatoren erstellen phantasie Sprachen)
Zeitig befindet sich das neue KI-Modell in der Erprobung, nachfolgend soll es wie die anderen Modelle, Open-Source werden und öffentlich via GitHub verfügbar sein.
Obendrein setzt der Entwickler auf eine Creative ML OpenRAIL-M-Lizenz uns erlaubt die kommerzielle Nutzung der Ausgaben.
Eine Demo zur neuen Stable Diffusion XL-Version findest du auf stablediffusionweb.
Stable Diffusion XL (SDXL) | Fakten |
---|---|
Veröffentlicht | Ausstehend, Beta verfügbar |
Hersteller | Stability AI |
Link(s) | ausstehend (GitHub) / Stable Diffusion XL (Web) / Huggingface.co (Docs) |
Hardware-Anforderung | folgt |
Stable Doodle: Künstliche Intelligenz verwandelt deine Skizzen in kunstvolle Bilder
Das Startup Stability AI kennen viele KI-Begeisterte, zeichnet sich das Unternehmen doch für den Open-Source KI-Bildgenerator Stable Diffusion verantwortlich.
Jüngst veröffentlich besagte Firma mit Stable Doodle einen neuen künstlich intelligenten Bildgeneratoren, der aus minimalen Skizzen und Prompt wundersame Kunstwerke berechnet.
Stable Doodle basiert auf Stable Diffusion XL und soll aus Millionen von Datenabgleichen allerhand Aufträge vom Nutzer vergleichen, angleichen und errechnen können. Schlussendlich wird das Ergebnis präsentiert.
Auf der Projektseite findet jeder Interessierte eine Vorauswahl an Beispielen zu zweierlei Themen:
- Landschaft
- Möbel
Und mehrerlei Prompt-Beispielen.
Das KI-Tool Stable Doodle eignet sich für jeden, der sich kreativ austoben möchte. Aber Grafiker, Künstler dient dieses Tool für ihr Prototyping.
Stable Doodle | Fakten |
---|---|
Veröffentlicht | 13.07.2023 |
Hersteller | Stability AI / Clipdrop |
Technologie | Stable Diffusion XL |
Web | Stable Doodle |
Midjourney
Midjourney ist ein weiterer KI-Bildgenerator, der vom gleichnamigen Unternehmen geschaffen wurde. Midjourney verwendet eine andere Technologie als DALL-E, um Bilder zu generieren.
Midjourney wird in Discord (eine Art Gruppen-Messenger) genutzt:
Midjourney | Fakten |
---|---|
Veröffentlicht | 12. Juli 2022 |
Hersteller | Midjourny Inc. |
Standort | San Francisco, USA |
Personen | David Holz (Founder) |
Finanzierung | Keine |
Nutzer | 1 Million |
Technologie | Regulär: V1 (Feb. ’22), V2 (Apr. ’22), V3 (Jul. ’22), V4 (Nov. ’22, V5 (Mär. ’23); Andere: –beta (Aug. ’22), test/tesp (Aug. ’22), Niji (Dez. ’22), Niji 5 (April ’22) { Zusammenarbeit mit Spellbrush. Dient zum Erstellen von Grafiken für Animes/Illustrationen. } |
Preis | ab 10 $ / Monat für 200 Prompts |
Seit April 2023 kann Midjourney nicht mehr kostenfrei genutzt werden. Ursprünglich schränkte Midjourney die kostenfreie Nutzung ein. Man teilte seine Kreationen mit dem gesamten Chat-Raum.
Bei den Mitbewerbern wie OpenAI oder Bing Create darf man seine eigenen Werke alleine bewundern.
Prompts für KI-Bildgeneratoren
Wie wir wissen, arbeiten Text-zu-Bild-Generatoren wie DALL-E mithilfe von neuralen Netzen, die natürliche Sprache verarbeiten. Hieraus erkennen wir: Das Befehlsdesign für Bildgeneratoren mit Künstlicher Intelligenz funktioniert ähnlich wie bei KI-Textgeneratoren.
Folglich beschäftigen wir uns mit dem Prompt-Engineering für Text-zu-Bild-KI-Generatoren.
Jetzt
Testen
— Prompt
Generator
Teste jetzt den kostenlosen Prompt-Generator für Text-zu-Bild-KI-Generatoren!
Wie erstelle ich echt wirkende Bilder mit KI-Bildgeneratoren?
Nun hieß es in der Hauptüberschrift; Nie wieder Stock! Obendrein habe ich dir bereits real und stark überarbeitet wirkende Bilder gezeigt.
Jetzt erfährst du, wie Bildgeneratoren echt wirkende Bilder ausspucken.
KI-Bildgeneratoren werden mittels Prompt (Befehl) angewiesen. Deshalb bezeichnet man sie auch als Text-zu-Bild-Generatoren.
Um das Erdenken, Entwickeln und Einsetzen solcher maschinellen Befehle für sprach-verarbeitende KI (sowohl für Text, Bild, Musik und vieles weiter) bildet sich gewissermaßen ein Berufsfeld: Das Prompt Engineering.
So schreibst du einen idealen Prompt für KI-Bildgenerator
- Habe ein Ziel: Bevor du einen Prompt für eine Bilder-KI schreibst, überlege dir ein Ziel für die Ausgabe. Was soll dein Bild beim Betrachter machen? Emotionen erzeugen? Welche?!
- Beschreiben einer Szene (Charakter(e), Handlung, Ort),
- Beschreiben von Eigenschaften (Tageszeit, Lichtverhältnis, Wetter, Jahreszeit, Form, Zustand, Emotion),
- Stil-Beispiel wie das Bild erstellt werden soll: durch ein Kameramodell, Tusche, Öl, Namen eines Künstlers.
Beispiel:
Eine Frau sitzt in ihrem Studio, hält einen Pinsel und schaut in die Kamera. Grelles Tageslicht. Das Portrait wurde mit einer Canon 550d geschossen. 105mm Linse, Blende f/1.8, Verschlusszeit 1/80s und Seitenverhältnis 4:3.
Google Bard oder ChatGPT für viele weitere Prompts:
Google Bard: „Act as a Prompt generator for Text-to-Image-Generators, theme: [City]”
ChatGPT: „Agiere als Prompt-Generator für Text-zu-Bild-Textgeneratoren für [Thema], das Bild soll [Eigenschaften] aussehen.“
Wörter für Bild-Generator-KI Prompts
Hier habe ich für dich Worte aufgelistet, die dir bei der Bildgestaltung mit KI nützen.
Formen, Strukturen, Beschaffenheit
Wortliste KI-Bildgenerator (Struktur, Formen, …) |
---|
Kurvenreich, wirbelnd, organisch, wild, turbulent, fließend, amorph, natürlich, verzerrt, uneben, zufällig, üppig, chaotisch, turbulent, erdig, ungeplant, zufällig, experimentell |
Monumental, imposant, streng, geometrisch, geordnet, eckig, künstlich, Linien, gerade, rhythmisch, komponiert, vereint, menschengemacht, Perspektive, minimalistisch, Blöcke, würdevoll, robust, definiert |
Verziert, zart, ordentlich, präzise, detailliert, opulent, verschwenderisch, elegant, verziert, fein, kunstvoll, genau, kompliziert, akribisch, dekorativ, realistisch |
Emotionen
Positiv | Negativ |
---|---|
ruhig, leicht, heiter, entspannt, gemütlich, tröstend, ruhig, beruhigend, subtil, zart, pastell, ätherisch, balsamisch, elegant, mild, farbenfroh, temperamentvoll, energisch, lebhaft, gesättigt, ekstatisch, hell, reich, fröhlich, romantisch, ausdrucksstark, aufregend, frech, heiß, leidenschaftlich, mutig, intuitiv | traurig, düster, gedämpft, melancholisch, düster, traurig düster, blass, traurig, verwaschen, trist, gedämpft, müde, entsättigt, grau, gedämpft, matt trist, müde, deprimierend bedrohlich, düster, abweisend, eindringlich, höllisch, stürmisch, apokalyptisch, finster, gespenstisch, schattig, entnervend, erschütternd, schrecklich, schockierend, entsetzlich scheußlich, gruselig, erschreckend |
Illustration
Art | Eigenschaften |
---|---|
Stil | Skizze, Malerei, Karikatur, Kunst, Sketch, Holzschnitzerei, Steinhauerei, Gestaltung, Anschaumaterial, Infografik, Journal, Poster art, Kohlezeichnung, |
Werkzeug/Material | Bleistift, Kugelschreiber, Pinsel, Tinte, Öl, Wasserfarben, Kreide, Tusche, Buntstift, Acryl, Wachsmalstift, Pastell |
Beschaffenheit | Detailliert, Kontur, Angedeutet, Glänzend, Matt, Farbenfroh |
Stil II | Vektor Grafik, Kollage, 3D Render, Low Poly, Sticker, Digital Art, Ölgemälde, Papierschichten, Gezeichnet, Gemalt, Kinderzeichnung, Isometrisch, Screenshot, Unreal Engine, CryEngine, 8k Auflösung, Konzeptgrafik, HDR, Pop Art, Storybook, Story Canvas; Charakter-Referenz-Blatt (Charakter, Film), Pixelart, Comic Art, Anime; Explosionszeichnung, Bedienungsanleitung (Technik, Möbelstück, …), Pflanzen (Botanik) Zeichnung, Wissenschaftliches Diagramm, Diagramm, Patentzeichnung, Blaupause |
Im Stil von … | Pixar, Studio Ghibli, South Park; Leonardo Da Vinci, Vincent van Gogh, Friedensreich Hundertwasser, Pablo Picasso, Claude Monet, Albrecht Dürer, Rembrandt van Rijn, Jan Vermeer, Michelangelo, Salvador Dali, Wassily Kandinsky, Paul Klee, Frida Kahlo, Gustav Klimt, Edvard Munch, Pierre-Auguste Renoir, Bansky, Takashi Murakami, Yayoi Kusama |
Stil III und Epochen | Romanik, Gotik, Renaissance, Barock, Rokoko, Klassizismus, Biedermeier, Historismus, Jugendstil, Art déco. Bauhaus, Sturm und Drang, Expressionismus, Post-Apokalypse, Apokalypse, Futurismus, Impressionismus, 20. Jahrhundert, Jahrhundert, Kubismus (Picasso), Dunkelbunt (Hundertwasser) |
Material | Kabel, Plastik, Nudeln, Perlen, Federn, Glass, Flüssiges Metall, Metall, Kristall, Büroklammern |
Fotografie
Art | Eigenschaften |
---|---|
Stil | Nahaufnahme, Distanzaufnahme, Weitwinkelaufnahme, Fischaugeaufnahme, Schwarz-Weiß-Aufnahme, Überbelichtet, Unterbelichtet, Infrarot, low-light, weicher Fokus, medium shot, mid shot, long shot, wide shot, full shot, HDR, Profilfoto, Portrait, 8k Auflösung, 4:3, 2:3, 5:3, 9:16, Bokeh |
Objektiv | 50mm f/1.8, 125mm f/8.0, 30mm f/3.5 |
Blende | f/1.8 – f/25.0 +++ |
Verschluss | — 1s 0.5s 1/30s 1/80s +++ |
Zeit | Goldene Stunde, Blaue Stunde, Morgensonne, Abendsonne, Mittag, Abend, Nacht |
Licht | Warmes Licht, 2800k Kaltes Licht, 5000k Kamerablitz Fotografie Farblicht (rot, gelb, blau, …) Hintergrundbeleuchtung (Kontur Leuchten) Studio (Studioaufnahme) |
Wetter | Sternenklar, Nebelig, Sonnig, Regnerisch, Stürmisch, Katastrophal |
Winkel | Foto von oben Foto von unten, Froschperspektive Luftaufnahme, Drohnenaufnahme |
KI-Bildbearbeitung
Neben KI-Bildgeneratoren bietet sich auch die KI-Bildbearbeitung an. OpenAI zeigte, wie man einem Bild einfach per Textbefehl etwa ein neues Objekt einfügen könne.
Dazu zeigte man das Bild eines Schwimmbeckens. Anschließend wurde ein Bereich im Bild markiert und der Befehl gegeben, dass im markierten Bereich ein Flamingo sei (inpainting). Das geschah; die KI fügte einen Schwimmreif in Form eines Flamingos ein.
KI-Bildbearbeitung wird Bildverarbeitung für jeden ermöglichen. Niemand wird sich mit großen Aufwand in die Technik hineinarbeiten müssen. Kein Versinken mehr in verschiedene, unübersichtliche Menü-Reiter. Niemand muss mehr jedes Pinsel-Tool in- und auswendig kennen.
KI-Bildbearbeitung bietet noch mehr als nur dem Hinzufügen von einzelnen Objekten: Es werden Bilder längst verstorbener Künstler erweitert, indem Hintergründe hinzugemalt werden (outpainting). Diese Funktionen sind in DALL-E für jeden verfügbar.
DALL-E Edit: Bildbearbeitung mit OpenAIs Bilder-KI
Wie bereits eingangs dieses Kapitels gelesen; DALL-E bietet die Möglichkeit eigene Bilder zu überarbeiten, nämlich mit der Edit-Funktion.
Wie folglich auf Bild zu erkennen ist, laden wir hierzu ein bestehendes Bild hoch. Hier ergeben sich jedoch Einschränkungen: Bildnisse von Menschen, die nicht von DALL-E stammen, können nicht hochgeladen und bearbeitet werden.
Mit dieser Einschränkung versucht OpenAI sogenannten Deep-Fakes – die der Herabwürdigung von Personen dienen – zuvorzukommen.
Die KI-Bildbearbeitungsfunktion von DALL-E bietet drei Optionen für die Umgestaltung einer Bilddatei:
- Inpainting: Hiermit kann ein Bildteil mittels Radierer gelöscht und mittels Prompt befüllt werden.
- Outpainting: Hiermit kann ein Bild mit zusätzlichen Weiß-Raum mittels Prompt erweitert werden.
- Variations: Mit Variationen können auf Grundlage eines hochgeladenen Bildes ähnliche Ausgaben erzeugt werden.
DALL-E Edit: Variationen
Wir schauen uns zuerst die Option der Variationen an und lassen uns auf Grundlage eines von DALL-E erzeugten Gemäldes mit einer Burg, ähnliche Ausgaben erzeugen. Dies sieht folgendermaßen aus:
- Wir wählen den Upload
- Wir uploaden ein Bild
- Wir wählen einen Ausschnitt mittels crop
- Wir wählen generate variations
- Nach dem Laden erhalten wir 4 weitere Bilddateien
DALL-E Edit: Inpainting / punktuelle Bildmanipulation
Die Inpainting-Option wurde oben bereits visuell gezeigt; schauen wir uns die Möglichkeit nochmals näher an.
- Wir verfahren wie im Abschnitt variations und wählen die Option Edit Image
- Unser Bild öffnet sich in einer Ansicht für die Bearbeitung und uns steht jetzt die Möglichkeit bereit, Teile des Bildes wegzuradieren
- Radieren wir, so tut sich ein transparenter Bereich auf; dies dürfte jedem bekannt vorkommen, der sich schonmals mit einem Tool wie Paint.net oder Gimp vertraut gemacht hat
- Die Prompt-Eingabeaufforderung ploppt ins Bild und erwartet jetzt eine Eingabe; betrachte die Bilder
Das Radieren lässt sich präziser mittels Bildbearbeitungs-Programmen vornehmen. Etwa mit Photoshop oder Gimp. Eine weitere Option ist Photopea; ein Online-Tool für die Bildbearbeitung.
Neben dem Radierer und gezielter Bild-Manipulation können wir Bilder erweitern:
DALL-E Edit: Outpainting / Bilder erweitern
Die Outpainting-Option dient der Erweiterung von Bildern. Diese großartige Möglichkeit demonstrierte OpenAI bereits an Bildern längst verstorbener Künstler.
Wir testen die Funktion der Bilderweiterung anhand der Mona Lisa, dieser weltbekannte Klassiker stammt von Leonardo da Vinci.
- Mittels Photopea erstellen wir einen 1024×1024 Arbeitsbereich
- Anschließend fügen wir ein Abbild der Mona Lisa ein, verkleinern es
- Wir exportieren die Datei als .png
- Wir laden die Datei in DALL-E hoch
- Wir überlegen uns einen Prompt
- Wir wählen aus den Variationen aus
Diese Funktion lässt sich beliebig oft wiederholen.
Beispielhaft durchlaufen wir den Prozess nochmals mit dem Öl-Gemälde vom Beginn.
Midjourney Vary
KI-Bildbearbeitung mit Midjourney funktioniert ab sofort; denn Midjourney erhält mit der neuen Funktion namens „Vary“ eine Art Inpaint-Funktion. Mit Vary können Gebiete in einem Bild markiert und auf Befehl überarbeitet werden.
Hierzu wählt der Nutzer ein vorhandenes Bild und einen sich hierauf befindlichen Bildausschnitt und lässt entweder Midjourney den Ausschnitt ändern oder der Nutzer gibt via Befehl ein zu generierendes Element für jenen Bereich an.
Microsoft Designer
Microsoft Designer setzt auf DALL-E und soll scheinbar Canva und Express attackieren – nur Designer ist noch sehr abgespeckt.
Mithilfe von Microsoft Designer können wir etwa Bilder per Textbefehl für Instagram, Videos oder Blogs erzeugen. Die Bilder werden dabei mit Gestaltungseffekten überzogen.
Wir können sowohl eigene Bilder für die Bearbeitung verwenden, als auch Computerberechnete entstehen lassen.
Leider können eigene Bilder bisher nicht im Designer selbst bearbeitet werden, etwa indem Objekte wie Schiffe oder dergleichen hinzugefügt werden. Möglicherweise folgt diese Funktion noch.
Aktuell möglich ist, Motive aus den Hintergründen zu schneiden oder den Hintergrund milchglasartig verschwimmen zu lassen.
Schauen wir uns die Funktionen an.
Beispielsweise:
Brauchen wir ein Bild für Instagram, so rufen wir Microsoft Designer auf und fügen einen entsprechenden Text-zu-Bild-Befehl ein.
Anschließend kann eines der vorgeschlagenen Bilder weiterverwendet werden, indem wir es anwählen und anschließend auf Customize Design klicken.
Dann dürfen wir die Bilder bearbeiten, indem wir Grafiken, Textfelder verrücken, austauschen – etwa mit eigenen – oder Bewegung mithilfe kleinerer Videos einfügen. Daneben können Motive aus Hintergründen geschnitten werden, oder Hintergründe werden verschwommen gemacht.
KI-Bildbearbeitung mit Microsoft Designer
Anschließenden lassen sich die Ergebnisse als Bild- oder Video-Datei speichern.
Aktuell steckt Microsoft Designer in den Kinderschuhen. Spannend wird es, falls der Redmonder tatsächlich versuchen sollte Canva oder Adobe Express von ihren Rängen zu stoßen. Die Oberfläche jedenfalls lässt diese lamgfristige Absicht vermuten.
Gefahren durch Text-zu-Bild-KI-Bildgeneratoren
KI-Bildgeneratoren liefern nicht nur Unterhaltung und erstaunliche KI-Kunst, ebenso Gefahren.
Seit Jahren schweben Begriffe wie “Cyber-Mobbing” oder “Deep Fakes” durchs Netz. Zuletzt etwa machte ein Bild von Donald Trump aufmerksam, welches Trump zeige, wie er verhaftet wird. Oder der Papst, wie er ungewöhnliche Kleidung trägt. Diese Bilder wurden mit Midjourney geschaffen.
Möglicherweise könnten Kriminelle, Mobber und dergleichen Text-zu-Bild-Generatoren (beispielsweise Open-Source-Modelle) für ihre Übeltaten nutzen.
- Etwa Desinformationskampagnen, dienlich dem Rufmord des Opfers
- Fake-Nacktbilder von Mitmenschen
- Fake-Videoanrufe (Enkeltrick)
- Fake-Identitäten
- Menschenfeindlichkeit
Weiterhin stehen die Urheberrechte im Mittelpunkt. Wem gehören die Bilder, was ist mit den Ursprungswerken und deren Künstler?
Alles ungewiss.
Fazit
Jetzt weißt du, wie du echt wirkende KI-Stockbilder mittels Text-zu-Bild-KI erstellst. Damit kannst du in Zukunft schnell und günstig an Bildmaterial gelangen.
Jedoch bleiben Fragen: Beispielsweise zum Thema Urheberrecht.
Influencer, Fotografen und Models geraten irgendwann in Konkurrenzdruck – wenn sie es nicht längst sind. Erste Unternehmen testen bereits künstliche Influencer.
Selbstredend werden Maschinen und Persönlichkeiten koexistieren. Das tun Kutsche, stationärer Einzelhandel und wie sie alle vom Verdrängungsdruck geplagten heißen mögen. Nur leiden tun sie darunter.
Und bei der wahnsinnigen Geschwindigkeit der jüngsten Entwicklungen dauert es vielleicht nicht mehr lange, bis ein Chatbot etwa Gesprächstherapie, Vorstellungsgespräch oder einfache Schreibtischarbeit überflüssig macht. Oder eben Kamera und Fähigkeiten in Photoshop (daran wird bereits gearbeitet, Objekte einfügen/ausblenden auf Sprachbefehl!)
Passend zum Weiterlesen
Weitere Informationen und Quellen
Wikipedia – Textgeneratoren
Canva – KI-Text-Image-Generator Beispiel
Promptbard (FX)
Häufige Fragen
🤖 Wie ein Bild mit KI-Bildgenerator erstellen?
Damit du ein Bild mithilfe eines KI-Bildgenerators erstellen kannst, musst du dir einen Anbieter aussuchen.
Beispielsweise gibt es empfehlenswerte:
- DALL-E
- Stable Diffusion
- Midjourney
Melde dich beim Dienst deiner Wahl an und versuche die Gebilde deiner Phantasie in Worte zu fassen!
🤖 Wie kann ich ein echt wirkendes Bild mit KI-Bildgenerator erstellen?
Damit Bildgeneratoren wie DALL-E oder Midjourney realitätsnahe Bilder erzeugen, nutze folgende Vokabeln und Sätze:
- Hyperrealistic
- [BeschreibungSzene] shot on a Canon, 1/80s, 105mm, f1.8, 4:3
🤖 Mit welchen Prompts erstelle ich gute KI-Bilder?
Wie finde ich die passenden Prompts für meine Bildideen?
Beschreibe so bildhaft wie möglich, somit erhältst du bessere Ergebnisse.
Nutze Eigenschaften wie: real, leicht, beruhigend, echt, zart, anmutig, weich, lebhaft, hell, dynamisch, farbenfroh, fröhlich, frech, aufregend, bunt, …
Nutze Zeitwörter: Laufen, Gehen, Erklimmen, Springen, Schwirren, Flimmern, Tanzen, …
Nutze Hauptwörter: 80er, Monument, Klippen, Anker, Cyberpunkt, …
Passende Prompts kannst du dir etwa durch ChatGPT oder Google Bard ausgeben lassen. Fordere die Chat-KI auf, sie agiere nun an wie ein Promptgenerator für Text-zu-Bild-KI und soll dir Tipps für Bilder zum Thema XYZ geben.
🤖 Was darf ein KI-Bildgenerator kosten?
Angebote liegen zwischen 10 $ und 30 $; kostenlos nutzbar ist etwa Bing Create von Microsoft, du erhältst täglich neue Booster, selbst wenn du dich nicht anmeldest.
Die Booster stapeln sich bis 100 Stück und sorgen dafür, dass der Prozess schneller abläuft. Hast du keinen Boost musst du halt länger warten. Aber nutzt dort DALL-E kostenlos und unbegrenzt.