Hintergrund

Per Foto zum Rezept: MiniGPT-4 generiert Texte aus Bildern

Während KI-Modelle wie ChatGPT auf Texte antworten oder wie MidJourney Bilder aus Texten erstellen, verfolgt MiniGPT-4 einen anderen Ansatz. Es erstellt Texte aus Bildern.

OpenAI hat im März 2023 GPT-4 vorgestellt, auf dem auch ChatGPT basiert. Es ist ein multimodales Modell, das nicht nur mit Text umgehen kann. Noch ist die Funktion, Bilder zur Erstellung von Texten hochzuladen, nicht vorhanden. Um das Potenzial des Tools zu testen, hat eine Forschungsgruppe eine kleinere Version des Programms mit dieser Bildfunktion erstellt: MiniGPT-4.

MiniGPT-4 füllt derzeit eine Lücke, denn andere Sprachmodelle (LLM) verarbeiten bisher keine Bilder. Insofern zeigt das Programm bereits, was möglich sein wird, wenn Chatbots auch «sehen» können. Und das ist eine ganze Menge: MiniGPT-4 erstellt aus einem hochgeladenen Bild ein Gedicht, kann aus Skizzen für eine Website HTML-Codes erstellen und weiss, was mit deiner kranken Pflanze los ist. Das Programm kannst du derzeit ausprobieren. Ich liess mir diese Chance nicht entgehen und war amüsiert über die Ergebnisse.

Das Programm funktioniert einfach: Du lädst ein Bild hoch und schreibst in kurzen Worten, was MiniGPT-4 damit machen soll. In einem Demo-Video siehst du, was alles möglich ist. Das Programm gibt dir beispielsweise Tipps, um deine kranke Pflanze wieder gesundzupflegen. Und es erstellt dir eine detaillierte Beschreibung von einem Kunstwerk.

Ich stelle mir schon vor, wie ich beim Wandern wissen will, welchen Blumen ich begegne. Und MiniGPT-4 sagt mir dann, ob ich daraus den nächsten Erkältungstee kochen kann, oder mich nur vergiften würde …

Ich fange aber mit etwas Harmloseren an. Anhand eines Fotos meines Lieblingsgerichts Pad Thai möchte ich mir das Rezept ausspucken lassen.

Pad Thai-Rezept aus einem Foto

Der Chatbot versteht und antwortet auf Englisch. Deshalb habe ich jene Passagen ins Deutsche übersetzt.
Ich nehme ein Foto des Nudelgerichtes und schreibe:
Wie lautet das Rezept für dieses Gericht?

Die Antwort von MiniGPT-4 ist zwar kurz und bündig, aber nicht wie erhofft:

Bei diesem Gericht scheint es sich um ein Pfannengericht mit Huhn, Nudeln und Limette zu handeln. Es wird wahrscheinlich aus einer Kombination von Zutaten wie Huhn, Nudeln und Limette zubereitet. Das Gericht kann auch mit einer Beilage aus Reis oder einer anderen Stärke serviert werden. Es ist wahrscheinlich ein beliebtes Gericht in Südostasien.

So sieht MiniGPT-4 aus mit meiner Pad Thai-Konversation.
So sieht MiniGPT-4 aus mit meiner Pad Thai-Konversation.
Quelle: Michelle Brändle

MiniGPT-4 formuliert sehr vorsichtig. Aber nicht genau das, was ich mir erhofft hatte. Ich kann direkt an die Konversation anknüpfen und werde konkreter:
Wie bereite ich es zu?

Und werde mit einem Rezept belohnt (Betonung auf ein Rezept):
Für dieses Gericht benötigst du folgende Zutaten:

  • 1 Pfund Hähnchen ohne Knochen und ohne Haut, in dünne Streifen geschnitten
  • 1/2 Tasse Sojasauce
  • 1/4 Tasse Limettensaft
  • 2 Esslöffel Maisstärke
  • 2 Esslöffel Pflanzenöl
  • 1/4 Tasse gehackte grüne Zwiebeln
  • 1/4 Tasse gehackte grüne Paprika
  • 1/4 Tasse gehackte Champignons
  • 1/4 Tasse gehackte Wasserkastanien
  • 1/4 Tasse gehackter Staudensellerie
  • 2 Esslöffel Butter
  • Salz und Pfeffer zum Abschmecken
  • Holzlöffel zum Rühren und Braten

Anleitung:

  1. In einer grossen Pfanne oder einem Wok das Pflanzenöl bei mittlerer bis hoher Hitze erhitzen.
  2. Das Hähnchen in die Pfanne geben und unter Rühren etwa 5 Minuten lang anbraten, bis es gar ist.
  3. Das Hähnchen aus der Pfanne nehmen und beiseite stellen.
  4. Sojasauce, Limettensaft, Maisstärke und Butter in dieselbe Pfanne geben. Umrühren, bis die Sauce glatt und gut vermischt ist.
  5. Frühlingszwiebeln, Paprika, Champignons, Wasser hinzufügen

Gut. Irgendwie etwas halbfertig und nicht ganz korrekt. Butter gehört nicht unbedingt in das Rezept. Dafür fehlt mir Tamarindenpaste. Und Ei. Nachkochen würde ich es also (vorläufig) nicht, es kommt aber schon ziemlich nah ran. Und das anhand eines Fotos. Schon ziemlich beeindruckend.

Talent wie Goethe? MiniGPT-4 kann dichten

Das Programm soll anhand eines Bildes auch Songzeilen und Gedichte verfassen können. Ich nehme ein selbst gemaltes Bild und lasse mir daraus ein paar romantische Zeilen erstellen. Ich beauftrage MiniGPT-4:

Erstelle mir ein Gedicht aus diesem Bild

Aus meiner Zeichnung eines Musik hörenden Mädchens soll MiniGPT-4 mir ein Gedicht verfassen.
Aus meiner Zeichnung eines Musik hörenden Mädchens soll MiniGPT-4 mir ein Gedicht verfassen.
Quelle: Michelle Brändle

Das Ergebnis:

The girl with blue hair and headset
Is surrounded by bubbles in the air
She listens to music on her phone
With headphones on, she’s in her own lair

\The blue and white checkerboard pattern
Creates a fun and playful atmosphere
The girl with blue hair and headset
Is surrounded by bubbles in the air
She listens to music on her phone
With headphones on, she’s in her own lair

Ich schmunzle. Das Gedicht ist in zwei Minuten entstanden. Spannend, was MiniGPT-4 so alles herauslesen kann. Dem guten Goethe macht das Programm aber wohl noch keine Konkurrenz.

Mitglieder von Foo Fighters

Ich mag Rock-Musik. Zum Beispiel die der Foo Fighters. Mit Namen bin ich aber immer ganz schlecht. Abgesehen von Dave Grohl und seinem verstorbenen Schlagzeuger Taylor Hawkins habe ich keine Ahnung, wie die Bandmitglieder heissen. Ein Fall für Detektiv MiniGPT-4. Ich lade ein Bandfoto hoch, frage nach deren Namen und lasse das Programm rechnen.

Ich frage erst, wer das auf dem Bild ist und MiniGPT-4 erkennt die Personen gleich als Band Foo Fighters. Nach weiteren Fragen nennt mir das Programm tatsächlich alle Mitglieder. Wahrscheinlich eher aufgrund des Vorwissens, wer Mitglied der Foo Fighters ist, da die Reihenfolge ihrer Namen nicht mit dem Bild übereinstimmt.

MiniGPT-4 kennt die Band besser als ich.
MiniGPT-4 kennt die Band besser als ich.
Quelle: Michelle Brändle

Die Möglichkeiten sind unglaublich vielseitig

Die Antworten sind nicht immer perfekt, aber definitiv beeindruckend.
Mein Kopf sprudelt über vor weiteren Ideen. Findet MiniGPT-4 vielleicht auch heraus, was für einen Kuchen ich aus Zutaten in meinem Vorratsschrank backen könnte? Oder kennt spannende Fakten zu Kunstwerken, die ich im Museum entdecke? Oder …

Du hast bestimmt selbst einige Ideen. Lass mich in den Kommentaren wissen, was du MiniGPT-4 gefragt hast, und ob du mit den Ergebnissen zufrieden bist.

13 Personen gefällt dieser Artikel


User Avatar
User Avatar

Seit ich einen Stift halten kann, kritzel ich die Welt bunt. Dank iPad kommt auch die digitale Kunst nicht zu kurz. Daher teste ich am liebsten Tablets – für die Grafik und normale. Will ich meine Kreativität mit leichtem Gepäck ausleben, schnappe ich mir die neuesten Smartphones und knippse drauf los. 

Diese Beiträge könnten dich auch interessieren

  • Hintergrund

    Mit Bilder-KI «DALL-E» kurzerhand vom Feenland zum Horrorszenario

    von Michelle Brändle

  • Hintergrund

    Wo digitale Kunst ihre Grenzen hat: Mein Wandgemälde mit dem Grafiktablet Huion Kamvas Pro 27

    von Michelle Brändle

  • Hintergrund

    Buchtipp für Sittich-Fans: «Chicken Thoughts»

    von Anika Schulz

5 Kommentare

Avatar
later