KI-Software namens DALL-E verwandelt Ihre Worte in Bilder

Die DALL-E Mini-Software einer Gruppe von Open-Source-Entwicklern ist nicht perfekt, aber manchmal liefert sie tatsächlich Bilder, die zu den Textbeschreibungen der Personen passen.

Wenn Sie in letzter Zeit durch Ihre Social-Media-Feeds scrollen, ist es gut möglich, dass Sie Illustrationen mit Bildunterschriften gesehen haben. Sie sind jetzt sehr beliebt.

Die Bilder, die Sie sehen, sind wahrscheinlich durch ein Text-zu-Bild-Programm namens DALL-E möglich geworden. Bevor die Illustrationen gepostet werden, fügen die Nutzer Wörter ein, die dann durch Modelle künstlicher Intelligenz in Bilder umgewandelt werden.

Ein Twitter-Nutzer hat zum Beispiel einen Tweet mit dem Text „To be or not to be, rabbi holding avocado, marble sculpture“ gepostet. Das angehängte Bild, das recht elegant ist, zeigt eine Marmorstatue eines bärtigen Mannes in einer Robe und einer Melone, der eine Avocado in der Hand hält.

Die KI-Modelle stammen von Googles Imagen-Software sowie von OpenAI, einem von Microsoft unterstützten Start-up, das DALL-E 2 entwickelt hat. Auf seiner Website bezeichnet OpenAI DALL-E 2 als „ein neues KI-System, das aus einer Beschreibung in natürlicher Sprache realistische Bilder und Kunstwerke erstellen kann“.

Aber das meiste, was in diesem Bereich passiert, kommt von einer relativ kleinen Gruppe von Menschen, die ihre Bilder teilen und in einigen Fällen ein hohes Engagement erzeugen. Das liegt daran, dass Google und OpenAI die Technologie nicht auf breiter Basis der Öffentlichkeit zugänglich gemacht haben.

Viele der frühen Nutzer von OpenAI sind Freunde und Verwandte von Mitarbeitern. Um Zugang zu erhalten, muss man sich auf eine Warteliste setzen lassen und angeben, ob man ein professioneller Künstler, Entwickler, akademischer Forscher, Journalist oder Online-Ersteller ist.

„Wir arbeiten hart daran, den Zugang zu beschleunigen, aber es wird wahrscheinlich einige Zeit dauern, bis wir alle erreicht haben. Bis zum 15. Juni haben wir 10.217 Personen eingeladen, DALL-E auszuprobieren“, schrieb Joanne Jang von OpenAI auf einer Hilfeseite auf der Website des Unternehmens.

Ein System, das öffentlich verfügbar ist, ist DALL-E Mini. Es basiert auf Open-Source-Code eines lose organisierten Entwicklerteams und ist oft überlastet. Versuche, es zu benutzen, können mit einem Dialogfeld begrüßt werden, das besagt: „Zu viel Verkehr, bitte versuchen Sie es noch einmal.“

Das erinnert ein wenig an Googles Gmail-Dienst, der 2004 mit unbegrenztem E-Mail-Speicherplatz lockte. Die ersten Nutzer konnten sich zunächst nur auf Einladung anmelden, während Millionen warten mussten. Heute ist Google Mail einer der beliebtesten E-Mail-Dienste der Welt.

Das Erstellen von Bildern aus Text wird vielleicht nie so allgegenwärtig sein wie E-Mail. Aber die Technologie hat auf jeden Fall Konjunktur, und ein Teil ihres Reizes liegt in der Exklusivität.

Das private Forschungslabor Midjourney verlangt von seinen Nutzern, dass sie ein Formular ausfüllen, wenn sie mit seinem Bilderzeugungs-Bot in einem Kanal der Chat-App Discord experimentieren wollen. Nur eine ausgewählte Gruppe von Personen nutzt Imagen und postet Bilder damit.

Die Text-zu-Bild-Dienste sind hochentwickelt. Sie erkennen die wichtigsten Teile der Eingabeaufforderungen eines Nutzers und erraten dann, wie diese Begriffe am besten illustriert werden können. Google hat sein Imagen-Modell mit Hunderten seiner hauseigenen KI-Chips auf 460 Millionen internen Bild-Text-Paaren und zusätzlich auf externen Daten trainiert.

Die Schnittstellen sind einfach. In der Regel gibt es ein Textfeld, eine Schaltfläche zum Starten des Generierungsprozesses und darunter einen Bereich zur Anzeige von Bildern. Um die Quelle anzugeben, fügen Google und OpenAI Wasserzeichen in der unteren rechten Ecke der Bilder von DALL-E 2 und Imagen ein.

Die Unternehmen und Gruppen, die die Software entwickeln, sind zu Recht besorgt darüber, dass alle auf einmal die Tore stürmen. Die Bearbeitung von Webanfragen zur Ausführung von Abfragen mit diesen KI-Modellen kann teuer werden. Noch wichtiger ist, dass die Modelle nicht perfekt sind und nicht immer Ergebnisse liefern, die die Welt genau wiedergeben.

Die Ingenieure trainierten die Modelle anhand umfangreicher Sammlungen von Wörtern und Bildern aus dem Internet, darunter auch Fotos, die Menschen auf Flickr gepostet haben.