Hintergrund

StableDiffusion: Bilder aus Texteingabe

David Lee
David Lee
23.09.2022

Die Bildgenerierung mit künstlicher Intelligenz macht Fortschritte. StableDiffusion vollbringt keine Wunder, ist aber eine Wundertüte. Und du kannst es wie ich selbst ausprobieren.

StableDiffusion ist ein Bildgenerator: Du tippst einen Text ein, und die künstliche Intelligenz (KI) generiert ein Bild dazu. So funktionieren auch andere KI-Generatoren wie zum Beispiel Dall-E 2. Doch während Dall-E 2 momentan erst für ausgewählte Personen zugänglich und erst noch kostenpflichtig ist, kann StableDiffusion jede und jeder gratis nutzen. DiffusionBee für den Mac macht die Sache besonders einfach: Die normalerweise eher komplizierte Installation ist mit einem simplen Drag and Drop in den Programmordner erledigt.

Jedes Mal anders

Ich tippe zu Beginn «cheesy giraffe skiing in the Swiss mountains wearing headphones» ein. Also eine Giraffe, die in den Schweizer Bergen mit Kopfhörern Ski fährt. Die Texteingaben klappen mit Englisch am besten, weil das Datenmaterial, mit dem StableDiffusion trainiert wurde, hauptsächlich in Englisch ist.

Jedes Mal, wenn StableDiffusion ein Bild generiert, kommt etwas Anderes heraus. Auch mit gleichem Text und gleichen Einstellungen. Mit dem Parameter «Guidance» kannst du angeben, wie eng sich die KI an die Textvorgabe halten soll. Standardmässig ist sie beinahe auf dem Maximalwert – doch selbst dann variieren die Ergebnisse stark.

Wilde Mischungen ergeben Chabis

Das Giraffen-Beispiel bringt verschiedene Dinge zusammen, die normalerweise nicht zusammen gehören. Solche Texteingaben sind natürlich sehr reizvoll – zugleich sind sie für die KI aber sehr schwierig. Denn es gibt keine Fotos, wahrscheinlich nicht einmal Zeichnungen, die das darstellen. Und die KI wird anhand von echten Bildern trainiert.

Das Problem zeigt sich auch beim Text «John Oliver marries a cabbage», zu Deutsch «John Oliver heiratet einen Kohl».

Zwar kommen die im Text erwähnten Elemente in den Bildern vor – aber nicht in der beschriebenen Form. Nirgends heiratet John Oliver einen Kohl. Warum komme ich überhaupt auf so einen Quatsch? Weil in einem John-Oliver-Video jemand dasselbe mit dem Bildgenerator Midjourney ausprobiert hat. Midjourney scheitert genauso wie StableDiffusion.

Weil die KI reale Vorlagen für gute Ergebnisse braucht, hat John Oliver extra einen Kohl geheiratet. Man hilft ja, wo man kann.

Nachsitzen für die KI: Die reale Vorlage.
Nachsitzen für die KI: Die reale Vorlage.

Was gut geht und was weniger

Bestimmt sind dir die grotesken Augen von John Oliver aufgefallen. Augen geraten oft schräg. Menschliche Körper sind manchmal grotesk verzerrt. StableDiffusion hat zudem Schwierigkeiten, gerade Linien zu zeichnen.

Drei Versuche zu «large building with straight geometry».
Drei Versuche zu «large building with straight geometry».

Bei fotorealistischen Bildern stört dies mehr als bei Gemälden. Ohnehin scheinen die Stärken von StableDiffusion im Bereich von Fantasy-Bildern zu liegen. Die Site arthub.ai vermittelt einen guten Eindruck davon.

Hier einige Bilder zum Text «a beautiful castle beside a waterfall in the woods, fantasy painting».

Bei sechs von zehn Versuchen malte StableDiffusion zwei Schlösser – die KI unterscheidet nicht strikt zwischen Einzahl und Mehrzahl. Das kann sehr irritierend sein. Jedem Menschen ist klar, dass an einer Hochzeit von John Oliver typischerweise nur ein John Oliver heiratet. Einer KI wie StableDiffusion oder Midjourney ist gar nichts klar – sie hat kein Hintergrundwissen, um Eingaben richtig zu interpretieren. Dementsprechend kreiert sie Bilder, auf denen zwei John Olivers einander heiraten.

Die KI versteht nicht, was sie da hinmalt.
Die KI versteht nicht, was sie da hinmalt.

Mit vagen abstrakten Begriffen kann StableDiffusion ebenfalls wenig anfangen. Das unpassendste Bild in meinem ganzen Versuch mit mehreren Hundert Bildern kam zum Thema «Happiness» heraus: Es drückt so ziemlich das Gegenteil aus.

Happiness gemäss StableDiffusion.
Happiness gemäss StableDiffusion.

StableDiffusion wurde mit Laion 5B trainiert, einer Datenbank mit 5,85 Milliarden Text-Bild-Paaren. Sie kann online durchsucht werden. Bei der Suche nach «Giraffe» sind die meisten Suchtreffer keine Fotos von echten Giraffen, sondern Zeichnungen oder Fotos von Spielzeug. Das ist bei vielen Begriffen so und eine mögliche Erklärung, warum StableDiffusion fotorealistische Darstellungen nicht so gut hinkriegt. Das Trainingsmaterial enthält auch viele Memes und andere Bilder mit Text, weshalb StableDiffusion gerne Text nachzeichnet – ohne wirklich schreiben zu können.

Bild zu «average online commenter raging and hating on everything».
Bild zu «average online commenter raging and hating on everything».

Top 20: Die besten Illustrationen von Songtiteln

StableDiffusion macht süchtig. Der Reiz liegt darin, dass du nie weisst, was rauskommt. Weil du für jedes Bild einige Sekunden bis Minuten warten musst, steigt die Spannung. Ich bin irgendwann auf die Idee gekommen, Songtitel einzugeben. Während ich auf ein Bild gewartet habe, sind mir jeweils mehrere weitere Titel eingefallen, die ich auch unbedingt ausprobieren wollte. Wenn ich mal damit angefangen habe, kann ich schwer wieder aufhören. Hier jedenfalls meine persönlichen Top 20:

20: Dr. Funkenstein (George Clinton)

19: Dancing Queen (ABBA)

18: Cosmic Girl (Jamiroquai)

17: Breakfast in America (Supertramp)

16: Shelter From The Storm (Bob Dylan)

15: Yellow River (Christie)

14: Jailhouse Rock (Elvis Presley)

13: Diamonds on the Soles of Her Shoes (Paul Simon)

12: Sexy Motherfucker (Prince)

11: Shine On You Crazy Diamond (Pink Floyd)

10: Material Girl (Madonna)

9: Leck mich im Arsch (Wolfgang Amadeus Mozart)

8: Sex Machine (James Brown)

7: I Am the Walrus (Beatles)

6: Bad Guy (Billie Eilish)

5: Sultans of Swing (Dire Straits)

4: The Boy in the Bubble (Paul Simon)

3: Highway to Hell (AC/DC)

2: Lucy In The Sky With Diamonds (Beatles)

1: Shiny Happy People (R.E.M.)

28 Personen gefällt dieser Artikel


User Avatar
User Avatar
David Lee

Durch Interesse an IT und Schreiben bin ich schon früh (2000) im Tech-Journalismus gelandet. Mich interessiert, wie man Technik benutzen kann, ohne selbst benutzt zu werden. Meine Freizeit ver(sch)wende ich am liebsten fürs Musikmachen, wo ich mässiges Talent mit übermässiger Begeisterung kompensiere. 


Diese Beiträge könnten dich auch interessieren

  • Skeleton Loader

    Skeleton Loader

  • Skeleton Loader

    Skeleton Loader

  • Skeleton Loader

    Skeleton Loader