Deine Daten. Deine Wahl.

Wenn du nur das Nötigste wählst, erfassen wir mit Cookies und ähnlichen Technologien Informationen zu deinem Gerät und deinem Nutzungsverhalten auf unserer Website. Diese brauchen wir, um dir bspw. ein sicheres Login und Basisfunktionen wie den Warenkorb zu ermöglichen.

Wenn du allem zustimmst, können wir diese Daten darüber hinaus nutzen, um dir personalisierte Angebote zu zeigen, unsere Webseite zu verbessern und gezielte Werbung auf unseren und anderen Webseiten oder Apps anzuzeigen. Dazu können bestimmte Daten auch an Dritte und Werbepartner weitergegeben werden.

Hintergrund

StableDiffusion: Bilder aus Texteingabe

David Lee
23.9.2022

Die Bildgenerierung mit künstlicher Intelligenz macht Fortschritte. StableDiffusion vollbringt keine Wunder, ist aber eine Wundertüte. Und du kannst es wie ich selbst ausprobieren.

Jedes Mal anders

Ich tippe zu Beginn «cheesy giraffe skiing in the Swiss mountains wearing headphones» ein. Also eine Giraffe, die in den Schweizer Bergen mit Kopfhörern Ski fährt. Die Texteingaben klappen mit Englisch am besten, weil das Datenmaterial, mit dem StableDiffusion trainiert wurde, hauptsächlich in Englisch ist.

Jedes Mal, wenn StableDiffusion ein Bild generiert, kommt etwas Anderes heraus. Auch mit gleichem Text und gleichen Einstellungen. Mit dem Parameter «Guidance» kannst du angeben, wie eng sich die KI an die Textvorgabe halten soll. Standardmässig ist sie beinahe auf dem Maximalwert – doch selbst dann variieren die Ergebnisse stark.

Wilde Mischungen ergeben Chabis

Das Giraffen-Beispiel bringt verschiedene Dinge zusammen, die normalerweise nicht zusammen gehören. Solche Texteingaben sind natürlich sehr reizvoll – zugleich sind sie für die KI aber sehr schwierig. Denn es gibt keine Fotos, wahrscheinlich nicht einmal Zeichnungen, die das darstellen. Und die KI wird anhand von echten Bildern trainiert.

Das Problem zeigt sich auch beim Text «John Oliver marries a cabbage», zu Deutsch «John Oliver heiratet einen Kohl».

Zwar kommen die im Text erwähnten Elemente in den Bildern vor – aber nicht in der beschriebenen Form. Nirgends heiratet John Oliver einen Kohl. Warum komme ich überhaupt auf so einen Quatsch? Weil in einem John-Oliver-Video jemand dasselbe mit dem Bildgenerator Midjourney ausprobiert hat. Midjourney scheitert genauso wie StableDiffusion.

Weil die KI reale Vorlagen für gute Ergebnisse braucht, hat John Oliver extra einen Kohl geheiratet. Man hilft ja, wo man kann.

Was gut geht und was weniger

Bestimmt sind dir die grotesken Augen von John Oliver aufgefallen. Augen geraten oft schräg. Menschliche Körper sind manchmal grotesk verzerrt. StableDiffusion hat zudem Schwierigkeiten, gerade Linien zu zeichnen.

Bei fotorealistischen Bildern stört dies mehr als bei Gemälden. Ohnehin scheinen die Stärken von StableDiffusion im Bereich von Fantasy-Bildern zu liegen. Die Site arthub.ai vermittelt einen guten Eindruck davon.

Hier einige Bilder zum Text «a beautiful castle beside a waterfall in the woods, fantasy painting».

Mit vagen abstrakten Begriffen kann StableDiffusion ebenfalls wenig anfangen. Das unpassendste Bild in meinem ganzen Versuch mit mehreren Hundert Bildern kam zum Thema «Happiness» heraus: Es drückt so ziemlich das Gegenteil aus.

Top 20: Die besten Illustrationen von Songtiteln

20: Dr. Funkenstein (George Clinton)

19: Dancing Queen (ABBA)

18: Cosmic Girl (Jamiroquai)

17: Breakfast in America (Supertramp)

16: Shelter From The Storm (Bob Dylan)

15: Yellow River (Christie)

14: Jailhouse Rock (Elvis Presley)

13: Diamonds on the Soles of Her Shoes (Paul Simon)

12: Sexy Motherfucker (Prince)

11: Shine On You Crazy Diamond (Pink Floyd)

10: Material Girl (Madonna)

9: Leck mich im Arsch (Wolfgang Amadeus Mozart)

8: Sex Machine (James Brown)

7: I Am the Walrus (Beatles)

6: Bad Guy (Billie Eilish)

5: Sultans of Swing (Dire Straits)

4: The Boy in the Bubble (Paul Simon)

3: Highway to Hell (AC/DC)

2: Lucy In The Sky With Diamonds (Beatles)

1: Shiny Happy People (R.E.M.)

29 Personen gefällt dieser Artikel


User Avatar
User Avatar

Durch Interesse an IT und Schreiben bin ich schon früh (2000) im Tech-Journalismus gelandet. Mich interessiert, wie man Technik benutzen kann, ohne selbst benutzt zu werden. Meine Freizeit ver(sch)wende ich am liebsten fürs Musikmachen, wo ich mässiges Talent mit übermässiger Begeisterung kompensiere. 


Hintergrund

Interessantes aus der Welt der Produkte, Blicke hinter die Kulissen von Herstellern und Portraits von interessanten Menschen.

Alle anzeigen

Diese Beiträge könnten dich auch interessieren

  • Hintergrund

    Ausprobiert: mit Origami zur inneren Ruhe

    von Anna Sandner

  • Hintergrund

    Ein einschneidendes Erlebnis: Mein Umstieg auf die Linkshänderschere

    von Michael Restin

  • Produkttest

    Cricut Iron-On: Mein erstes Mal mit dem gigantischen Bügeleisen

    von Stefanie Lechthaler