***UPDATE: Meta hat Make a Video gestartet, ein neues KI-Tool, das Videos aus Text generiert. Make-A-Video baut auf den jüngsten Fortschritten in der Technologie zur Text-Bild-Generierung auf, die die Generierung von Text-Videos ermöglicht. Das System verwendet Bilder mit Beschreibungen, um zu lernen, wie die Welt aussieht und wie sie oft beschrieben wird. (Stand: 03. Oktober 2022)
Die künstliche Intelligenz Dall-E macht aus Texten Bilder. OpenAI, die Non-Profit-Organisation hinter dem Programm, möchte damit KI und dessen Bedeutung für die Menschheit erforschen.
Lenin kniet, hat keine Hose an, dafür aber einen obszön großen Hintern und Wilhelm Tell ist mein Vater und ein Kannibale, auf dem Bild aber nicht zu sehen. Das mag eine etwas kuriose Bildbeschreibung sein, ist aber das Motiv von „Das Rätsel von Wilhelm Tell“. Ein Bild von Salvador Dalí aus dem Jahr 1933. Einer der bekanntesten, streitbarsten und sicher der exzentrischste Surrealist der Geschichte. So feierte er Faschistenführer Franco derart überschwänglich, dass nicht klar ist, ob es sich um Ironie handelte. Er, dessen Bilder ohnehin nur schwer in Worte zu fassen sind, ist Co-Namensgeber für das Computerprogramm Dall-E. Es kann aus Texten Bilder generieren.
Was ist Dall-E?
Der Name Dall-E ist eine Kombination aus Salvador Dalí und dem Pixar-Roboter Wall-E. Das Computerprogramm basiert auf einer künstlichen Intelligenz, die aus Beschreibungen Bilder erstellen oder verändern kann. Dahinter steckt die Non-Profit-Organisation OpenAI, die sich mit der Erforschung künstlicher Intelligenz beschäftigt. Damit die Bilder, die Dall-E generiert, möglichst exakt dem eingegebenen Text entsprechen, hat OpenAI das Programm mit 400 Millionen Wort-Bild-Kombinationen gefüttert. So hat Dall-E gelernt, Sprache in Bilder umzuwandeln.
Seit Ende September 2022 steht das Dall-E allen Internetnutzern gratis zur Verfügung. So können beispielsweise Selbstständige kostenlos Bilder für Ihre Homepages erstellen lassen. Das funktioniert so gut, dass kostenpflichtige Bilddatenbanken ein Verbot von KI-generierten Bildern festlegen und ihr Angebot entsprechend säubern mussten.
Wie KI-Bilder eingesetzt werden
Theoretisch ließen sich damit News und Geschichten aller Art symbolisch aber überraschend präzise darstellen. Sonicboom hat Dall-E beispielsweise genutzt, um das Interview mit Lisa Brandstätter zu illustrieren. Sie ist Leiterin der digitalen Kommunikation bei 4Pfoten.
Auch für die Effie Awards griffen die Veranstalter auf die künstlerischen Talente einer KI zurück. Die Gewinner des Wettbewerbs der Werbe- und Kommunikationsbranche erhielten neben der bekannten Trophäe ein digitales Gemälde. Grundlage für die Bilder waren Zahlen, Daten, Variablen und Werten der eingereichten Kampagne. Das Programm von 3LIOT.ai kreierte dann entsprechende Motive. Jeder, der an der Kampagne mitgewirkt hatte, bekam das Bild sogar als persönliches NFT.
Basis für Dall-E ist das Projekt GPT-3. Das Kürzel steht für “Generative Pretrained Transformer”. Dabei handelt es sich um eine künstliche Intelligenz, die mit einigen Vorgaben selbstständig Texte schreiben oder vervollständigen kann. Der dritten Generation hat OpenAI mittlerweile 175 Milliarden Parameter beigebracht. Doch das Programm weist erhebliche Schwächen auf. So kennt es zwar viele Wörter, versteht aber Zusammenhänge und Inhalte oft nicht. Außerdem übernimmt es Stereotype und spuckt zum Teil toxische Texte aus.
Was kann Dall-E?
Dall-E hat eine ganze Reihe an Funktionen. Die bekannteste ist das Generieren von Bildern. Anhand eines eingegebenen Textes erstellt das Programm ein Bild, in dem mehrere passende Motive und Stile miteinander kombiniert werden. Dall-E stellt dem Nutzer dann mehrere Varianten vor, die weiter verbessert werden können. Eine weitere Möglichkeit ist das Editieren bestehender Bilder. Beispielsweise können klassische Ölgemälde modernisiert oder Fotografien um Details erweitert werden.
Doch auch bei Bildern hat das Programm das Problem, dass die Datenbasis diskriminierend ist. So erstellt Dall-E bei geschlechtsneutralen Texten deutlich mehr Bilder mit Männern als mit Frauen. Was vor allem daran liegt, dass Frauen in der Wahrnehmung des Programms etwas mit Erotik und Sex zu tun haben. Darstellungen, die das Programm nicht umsetzen darf. Das bedeutet, dass Männer und Frauen bei Dall-E nur dann in gleicher Menge vorkommen würden, wenn es Dall-E gestattet wäre, Frauen zu sexualisieren.
Warum gibt es Dall-E?
OpenAI hat sich der Erforschung Künstlicher Intelligenz verschrieben. Vor allem, da bekannte Wissenschaftler wie Stephen Hawking oder Investoren wie Elon Musk der Technik durchaus kritisch gegenüberstehen. In der Wissenschaft gilt eine Künstliche Intelligenz, die sich selbst verbessern kann, als Gefahr für die Menschheit. Sie wäre Menschen in vielen Bereichen überlegen, würde sich aber nicht an deren gesellschaftlichen oder ethischen Grundwerten orientieren. Sie gilt als „existenzielle Bedrohung“. OpenAI erforscht, wie die Menschheit von KI profitieren könnte, welche Gefahren von ihr ausgeht und wie eine missbräuchliche Verwendung verhindert werden kann.
Zu den größten Geldgebern von OpenAI gehören Microsoft und Elon Musk. Letzterer war bis zum Februar 2018 sogar Vorsitzender des Projekts. Die Non-Profit-Organisation arbeitet aber unabhängig von Geldgebern, anderen Firmen und deren Interessen. Die Prämisse von OpenAI ist, dass Künstliche Intelligenz eine Erweiterung des menschlichen Willens sein soll, weswegen sie jedem zugänglich gemacht werden sollte. Doch noch ist selbst nach Aussagen von OpenAI völlig unklar, welchen Nutzen die Gesellschaft von einer hoch entwickelten Künstlichen Intelligenz hätte.
Dall-E: Gut, aber nicht konkurrenzlos
Dall-E erfreut sich jedenfalls großer Beliebtheit. Im Juli 2022 hatte das Programm bereits rund eine Million Nutzer:innen. Tendenz steigend. Um den diskriminierenden Output zu minimieren, filterte OpenAI den GPT-3 hinter dem Programm. Dadurch sei es zu einem Qualitätsverlust gekommen, sagen Kritiker:innen. Objekte, die im Text nicht vorkamen, tauchten plötzlich im Bild auf und das Endergebnis sei zunehmend überraschend gewesen. So ersetzte die KI unspezifische Worte wie „person“ mit Textbausteinen wie „Female“ oder „Black Male“.
Zwar ist OpenAI führend auf dem Gebiet, doch längst nicht alleine auf dem Markt. Größter Konkurrent ist sicherlich Midjourney, deren Textein- und Textausgabe über Discord funktioniert. Die Ergebnisse der verschiedenen KI haben zu einem kleinen Hype geführt. So widmete John Oliver dem Thema “AI Images” bereits einen eigenen Beitrag. Und auch der Twitter-Nutzer Weirddalle erfreut sich größter Beliebtheit. Er verbreitet eher konfuse Ergebnisse der Technik von Craiyon.
Apropos “Weird”: Im folgenden sehen Sie die Portraits der sonicboom Gründer als #Dalleart. Sehen Sie die Ähnlichkeit?