Foodblog-Illustrationen mit Midjourney
Erfahre, wie du die Bild-KI Midjourney gezielt für Illustrationen z. B. für Foodblogs, Kochbücher oder Speisekarten verwendest.
Erfahre, wie du die Bild-KI Midjourney gezielt für Illustrationen z. B. für Foodblogs, Kochbücher oder Speisekarten verwendest.
Erfahre, wie künstliche Intelligenz die Inhaltsüberflutung antreibt und wie wohl die Konsumenten damit in Zukunft umgehen.
Mittels generativer KI lassen sich mittlerweile Text, Bilder, Musik und Videos erzeugen. Der Burda-Verlag hat vorgemacht, wie sich mittels ChatGPT und Midjourney sogar Magazine gestalten lassen. Die 99-Pasta-Rezepte gingen bereits skandalös durchs Netz und hat Redakteure und Foodfotografen schon um ihre Jobs bangen lassen.
In diesem Beitrag liefere ich Dir eine kleine Anleitung, wie Du Midjourney selbst kreativ für KI-Foodfotografie nutzen könnt. Bereits in meinem vorherigen Beitrag Fake Food Fotos: Food-Fotografie mit künstlicher Intelligenz (KI) habe ich einen Überblick über verschiedene Techniken und Tools gegeben, die Food Stylisten helfen können. Dieser Beitrag konzentriert sich im Detail auf Midjourney.
Midjourney ist ein KI-Bildgenerator. Also, eine künstliche Intelligenz, die Bilder generieren kann. Die Benutzung des Tools ist kostenpflichtig. Es gibt jedoch ein Probekontingent (reicht für ca. 20 Bilder).
Zur Benutzung benötigt man außerdem das Chatprogramm Discord (und einen entsprechenden Account). Damit kann man mit Midjourney chatten, d. h. der KI Kommandos zu Erstellung von Bildern erteilen.
Mach Dich mit dem Quick Start Guide von Midjourney vertraut. Du solltest bereits über einen Discord Account verfügen und schon erste Erfahrung mit dem imagine-Kommando von Midjourney gesammelt haben, bevor Du dem Tutorial im Anschluss folgst.
Ich baue meine Prompts für Essen mit Midjourney nach einem recht einfachen Schema.
/imagine food photograph of <mein Gericht>, <eine Reihe von Schlüsselwörtern>, <zusätzliche Optionen für Midjourney>
Beispiel:
/imagine food photograph of italian penne all'arrabbiata, top-down shot --ar 16:9, --v 5
Hier weise ich Midjourney an, mit ein Food-Foto von Penne all’arrabbiata anzufertigen, und zwar top-down von oben. Zudem soll das Bild im 16:9 Format (Breitbild) ausgegeben werden und mit der fünften Version der Midjourney-Engine erzeugt werden.
Du kannst Midjourney auch mit Fließtext prompten. Es gibt sogar ein Plugin für ChatGPT Plus (die kostenpflichtige Variante). Dieses Plugin namens Photorealistic spuckt in Windeseile ziemlich viel Text aus. Bisher haben mich die Ergebnisse nicht so sehr überzeugt.
/imagine Picture a plate of Penne all'arrabbiata, a traditional Italian pasta dish. The pasta is cooked to perfection, coated in a spicy tomato sauce with a generous sprinkling of freshly grated Parmesan cheese. A sprig of fresh basil rests on top, adding a pop of green to the vibrant red of the sauce. The dish is served on a rustic wooden table, with a glass of red wine and a loaf of crusty Italian bread in the background. The lighting is warm and inviting, casting soft shadows and highlighting the steam rising from the hot pasta. The colors are rich and appetizing, with the red of the sauce, the white of the pasta, and the green of the basil creating a beautiful contrast. The shot is taken from a high angle, using a Canon EOS 5D Mark IV DSLR camera with an EF 50mm f/1.8 STM lens. The resolution is 30.4 megapixels, with an ISO sensitivity of 32,000 and a shutter speed of 8000 second. The style is raw and authentic, capturing the essence of Italian cuisine in all its glory. --ar 16:9 --v 5.1 --style raw --q 2 --s 750
Tiefenschärfe bezieht sich auf den Bereich in einem Bild oder Video, der scharf und deutlich fokussiert ist. Die Wahl der Tiefenschärfe kann dazu dienen, den Fokus auf ein bestimmtes Motiv zu lenken, indem der Hintergrund unscharf gehalten wird:
Verschiedene Kamerapositionen können verwendet werden, um unterschiedliche Perspektiven und visuelle Effekte zu erzeugen:
Verwende verschiedene beliebte Schlüsselwörter, die Bilder von Essen beschreiben:
Beschreibe, wie die Gerichte, Props (Zeug außenrum … Servietten, Gabeln etc.) und Zutaten angeordnet sein sollen, z. B. als line-up in einer Reihe:
Folgende Schlüsselwörter können einen Einfluss auf die Lichtstimmung in eurem Bild haben:
Color Grading ist ein Prozess der Anpassung und Manipulation der Farbgebung in einem Video oder einer Bildsequenz, um eine bestimmte Stimmung, Atmosphäre oder ästhetische Wirkung zu erzeugen.
Mit folgenden Schlüsselwörtern lässt sich eine bessere Bildqualität erreichen.
Lasst uns Penne all’arrabiata mal mit Midjourney in Szene setzen. Midjourney liefert standardmäßig immer einen Vorschlag von vier Bildern. Sofern mir ein Bild gefällt, kann ich es in einem weiteren Schritt hoch-skalieren oder Varianten erzeugen. Ich habe zur Einfachheit für das Tutorial alle vier initialen Vorschläge angehängt, aber keine hoch-gerechnete Variante erzeugen lassen.
Starten wir mit Penne all’arrabbiata von oben:
/imagine food photograph of italian penne all'arrabbiata, top-down shot
Lasst uns nun mal die Kamera-Perspektive und die Farbanpassung etwas modifizieren. Gehen wir in den Low-Angle und verpassen dem Bild eine etwas de-saturierte bzw. ausgeblichene Vintage-Optik.
/imagine food photograph of italian penne all'arrabbiata , low-angle shot, vintage color grading, desaturated, cinematic
Gehen wir jetzt mit der Kamera etwas näher ran und lasst uns mehr Details zeigen. Das erreichen wir mit den Schlüsselwörtern macro lens und close-up. Außerdem wollen wir einen schönen Bokeh-Effekt, d.h. einen unscharfen Hintergrund.
/imagine professional food photograph of italian penne all'arrabbiata, macro lens, close-up, bokeh, depth of field, tilt blur, intricate details, highly detailed, super resolution, vivid, stunning, 8k
Gehen wir wieder etwas weiter weg mit der Kamera und zeigen etwas mehr von der Umgebung. Lasst uns das Licht auch etwas abkühlen.
/imagine food photograph of italian penne all'arrabbiata on a table next to the window in an old kitchen, tele shot, pull back shot, long shot, super resolution, cool color grading, cinematic
Bringen wir jetzt etwas Action auf den Teller. Bei Action-Shots wird z. B. etwas Sauce auf von oben das Gericht gegossen oder mit dem Löffel oder einer Gabel eine Portion entnommen.
/imagine food photograph of italian penne all'arrabbiata, action shot, product shot, cinematic, dramatic lighting, vivid, colorful, captivating, exiting, indulgent, mouth-watering, super resolution
Schauen wir uns das Spiel mit dem Arrangement etwas genauer an. Nehmen wir also italienischen Käse als Protagonisten.
Lasst uns zunächst ein frontales Line-up verschiedener Käsesorten erzeugen.
/imagine professional food photograph showing a line-up of different italian cheese variations side-by-side, mozzarella, parmiggiano, bel paese, grana padano, fontina
Danach wollen wir uns mal ein sogenanntes Knolling bzw. Flatlay erzeugen lassen.
/imagine professional food photograph showing a knolling, flatlay of different italian cheese variations, mozzarella, parmiggiano, bel paese, grana padano, fontina
Midjourney funktioniert perfekt mit „weltweit“ bekannten Gerichten, für die im Trainingsdatensatz garantiert viele Beispiele vorhanden waren. Solche Gerichte sind z. B.:
Je individueller Dein Motiv, umso schlechter wird vermutlich das Ergebnis sein. Und umgekehrt: Je bekannter und geläufiger das Motiv, desto bessere Ergebnisse wirst Du erwarten können.
Ich glaube nicht, dass künstliche Intelligenz gute Autoren und Foodfotografen in jüngerer Zukunft abschaffen wird. Vielmehr ist künstliche Intelligenz ein Werkzeug, das, richtig eingesetzt, kreative Prozesse unterstützen und viel Zeit sparen kann.
Ich finde die Ergebnisse durchaus beeindruckend, würde aber eher Abstand davon nehmen, die Bilder für Rezepte zu verwenden. Zur Illustration bzw. als Begleitung von informativen Beiträgen, z. B. „Tipps für die beste Pasta“ oder „Tipps für das perfekte Steak“ ohne konkrete Rezepte, sind die Bilder meines Erachtens durchaus geeignet. Rezept-Bilder schaffen dagegen aber eine gewisse Erwartungshaltung, die schnell zur Enttäuschung wird, je mehr das Resultat beim Nachkochen vom Idealbild abweicht.
Bei genauem Hinsehen fällt außerdem noch recht leicht auf, dass die generierten Bilder nicht ganz echt sind. Verwendet man die Bilder allerdings als Thumbnails (kleine Größe), so fällt dieser Umstand nicht so sehr auf. Zur Illustration und Auflockerung im Fließtext sind die KI-generierten Bilder also enorm hilfreich.
In Kochen mit KI: Wie ChatGPT das Foodbloggen verändert! tauche ich in die aufregende Welt der künstlichen Intelligenz ein und wie sie das Foodblogging revolutionieren könnte. Ich erkläre, was ChatGPT ist und wie es die Art und Weise, wie wir Foodblogger Rezepte erstellen und mit anderen teilen, verändern kann. Von der Generierung personalisierter Rezepte über die Planung von Bloginhalten bis hin zur Verbesserung von Rezepten – die Möglichkeiten sind endlos.
In Smarter essen! Mit dem Chatbot zum ausgewogenen Speiseplan zeige ich, wie man künstliche Intelligenz, insbesondere Chatbots wie ChatGPT, nutzen kann, um einen personalisierten und ausgewogenen Speiseplan zu erstellen. Ich führe durch den Prozess, wie man durch gezielte Anweisungen, sogenannte Prompts, den Chatbot dazu bringt, einen Speiseplan zu erstellen, der auf individuelle Vorlieben und Bedürfnisse zugeschnitten ist. Dabei gehe ich auf die Herausforderungen ein, die bei der Erstellung eines solchen Plans auftreten können, und zeige, wie man durch Feedback und Anpassungen ein zufriedenstellendes Ergebnis erzielen kann.
In KI meets Kulinarik: Produktivitäts-Booster für Foodblogger und Kochbuchautoren zeige ich, wie KI bei der Umformatierung, Umformulierung und dem Tagging von Artikeln für Social Media hilft und als Inspirationsquelle für neue Artikel oder Erweiterungen dient. Ich gebe einige praktische Beispiele und Tipps, wie Autoren ChatGPT für verschiedene Aufgaben und Automatisierungen einsetzen können.
Auch andere Blogs befassen sich ebenfalls mit dem Thema:
Ein Sonderheft der „Lisa – Kochen & Backen“ wurde fast ausschließlich mit künstlicher Intelligenz generiert und löst Skandale aus.
Ankündigung einer neuen Beitragsserie mit interessanten Faken, hilfreichen Tipps, aber eventuell auch unnützem Wissen.
Künstliche Intelligenz kann mittlerweile binnen Sekunden prächtige Kunstwerke erschaffen, den Urlaub planen, Empfehlungen für Aktien abgeben, wissenschaftliche Arbeiten verfassen und komplexen Programmcode erstellen. Aber kann künstliche Intelligenz auch bei Foto-Fotografie behilflich sein? Ja, natürlich. Und in diesem Beitrag gebe ich dir einen Überblick über verschiedene Möglichkeiten, wie Food-Fotografen, Food Stylisten und Food-Blogger allgemein künstliche Intelligenz für Bilder (und Videos) einsetzen können.
In meinen vorherigen Beiträgen habe ich mich bereits mit einigen Aspekten beschäftigt, wie KI mir als Food-Blogger und passioniertem Hobbykoch im Zusammenhang mit Kochen, Essen und Rezepten zur Hand gehen kann. Tatsächlich hätte ich nicht gedacht, dass aus diesem Food-Blog mal ein nerdiger Tech-Blog werden könnte bzw. Food-Tech-Blog. 😉
Im Artikel Kochen mit KI: Wie ChatGPT das Foodbloggen verändert! gebe ich einen groben Überblick, welche Chancen der Einsatz von künstlicher Intelligenz im Zusammenhang mit Food-Blogging bietet, ohne jedoch in Details zu verfallen. In KI meets Kulinarik: Produktivitäts-Booster für Food-Blogger und Kochbuchautoren zeige ich anhand konkreter Anwendungsbeispiele, wie ChatGPT die Arbeit mit Rezepten vereinfachen kann. Und damit meine ich nicht, wie man mit ChatGPT kochen und Rezepte erstellen kann.
Noch etwas konkreter werde ich bei Smarter essen! Mit dem Chatbot zum ausgewogenen Speiseplan. Denn ChatGPT und Co. können tatsächlich dabei helfen, einen Wochenspeiseplan in wenigen Minuten zu erstellen oder zumindest Ideen für einen Speiseplan zu generieren.
Der Begriff „generative künstliche Intelligenz“ bezieht sich auf eine Art von künstlicher Intelligenz, die in der Lage ist, auf der Grundlage von Daten neue Inhalte zu erstellen. Im Gegensatz zu anderen Arten von KI-Modellen, die auf vorhandenen Daten basieren und Muster erkennen, kann generative KI tatsächlich neue Daten erstellen.
Durch die Verwendung von generativer KI können Food-Fotografen und Marketing-Teams auf schnelle und kosteneffiziente Weise realistische Bilder von Gerichten erstellen, ohne dass sie tatsächlich ein neues Gericht zubereiten (lassen) oder ein Fotoshooting organisieren müssen. Dies kann zum Beispiel besonders nützlich sein, wenn es darum geht, visuelle Inhalte für Marketingkampagnen oder Menüs zu erstellen.
Jeder weiß, dass (professionalisierte) Food-Fotografie ggf. wenig mit Realität und Authentizität zu tun hat: Rasierschaum statt Sahne, Malfarbe und künstliche Röststreifen mit dem Bunzenbrenner, sowie Retusche im Nachgang. Im seltensten Fall schaut ein nachgekochtes Rezept aus, wie auf dem Bild. Mit künstlicher Intelligenz treiben wir das Ganze nun auf die Spitze.
Generative KIs benötigen eine Eingabe, einen sogenannten Prompt, um ein Ergebnis zu erzeugen. Das kann ein Text sein oder ein Bild. Midjourney, DALL-E und Stable Diffusion sind dabei die wohl bekanntesten Vertreter zur Generierung von Bildern. Die beeindruckendsten Bilder kann man meines Erachtens derzeit (Stand Mai 2023) noch mit Midjourney erzeugen. Allerdings ist der Dienst nicht kostenlos und das Probekontingent schnell aufgebraucht. Gleiches gilt für DALL-E. Stable Diffusion Modelle kann man mit etwas Technik-Kenntnis und einem leistungsstarken Computer auf dem eigenen Rechner uneingeschränkt nutzen.
Schauen wir uns ein paar Beispiele an, wie wir mittels Midjourney Food-Fotografie betreiben können. Mehr Details und weitere Prompts gibt es im Folgebeitrag über Food-Fotos mit Midjourney.
Mit dem folgenden Prompt spuckt Midjourney fantastische Bilder von Tandoori Paneer Tikka aus.
/imagine grilled indian tandoori paneer tikka, food photography, depth of field, bokeh, savory, indulgent, smoke, charcoal, super resolution --v 5
Bei den Steaks muss Midjourney noch etwas üben oder ich muss am Prompt feilen. Aber die Variante 2 (rechts oben) schaut wirklich gut aus:
/imagine food photography, steak on a hot grill, smoke and flames, delicious, savory, indulgent, depth of field, bokeh --v 5
Aber auch die ersten Gehversuche mit Stable Diffusion können sich durchaus sehen lassen.
food photography of a grilled burger with juicy beef, fresh salad, tomato, softy molten cheese. The burger was grilled and smoked over open fire and charcoal on a cast iron rust. ultra highly detailed and photo realistic, super resolution, 8k. concept art, product shot, intricate. delicious, gourmet, mouth-watering, dark & dramatic lighting, low key, depth of field, bokeh, frontal low angle shot octane
Dieser Begriff ist recht bekannt und bezeichnet das Erhöhen der Auflösung eines Bildes. Beim Erhöhen der Auflösung werden aus wenigen Bildpunkten viele Bildpunkte erzeugt und die Farbwerte interpoliert. Eine naive Methode würde z. B. den Durchschnitt der Ausgangspixel berechnen und als Farbwerte für die neuen Pixel verwenden. Ein damit hochskaliertes Bild erscheint dann trotz höherer Auflösung unscharf.
Eine entsprechend trainierte KI betreibt hier mehr Aufwand und kann Details im Bild erhalten oder sogar sinnvolle und detaillierte Strukturen erzeugen. Ich stelle mir das im Grunde so vor: Die KI versucht zu abzuschätzen, wie das große Bild wohl ausgesehen haben muss, bevor die Auflösung verringert wurde.
Für die Food-Fotografie ist das durchaus interessant, um Bilder mit niedriger Auflösung hochzuskalieren. Ausgangsbilder können z. B. spontane Handyfotos sein, die fix in einem Restaurant gemacht wurden oder beim Kochen ohne Profi-Equipment.
Die bekannteste Bildgenerierungs-KI Midjourney generiert derzeit Bilder mit einer maximalen Auflösung von 1024 × 1024 Pixel. Das ist nicht allzu viel. Mit einem separaten AI Upscaler (z. B. R-ESRGAN 4x+) lassen sich daraus wirklich hochauflösende Bilder erzeugen.
Mittlerweile gibt es viele nutzerfreundliche Tools auf dem Markt, viele davon sind aber kostenpflichtig. Wer keine Angst vor Technik und Fachbegriffen hat, sollte sich unbedingt Stable Diffusion WebUI anschauen. Zur Nutzung ist ein leistungsstarker Computer von Vorteil.
Die beiden Methoden Outpainting und Inpainting können verwendet werden, um Bilder am Rand zu erweitern oder Bildanteile zu ersetzen bzw. zu erschaffen.
Beim Outpainting versucht die KI, das Bild am Rand sinnvoll fortzusetzen. Mittels Outpainting kann man z. B. versuchen, ein quadratisches Bild zu einem Querformat erweitern.
Mittels Inpainting kann man Teile des Bildes maskieren, d. h. selektieren, und von der KI austauschen lassen. Z. B. eine Orange durch einen Apfel austauschen, ohne lange mit Bildbearbeitungsprogrammen herumzubasteln.
Beide Techniken kann man in mehreren Durchgängen sinnvoll kombinieren. Wenn Outpainting ein suboptimales Ergebnis geliefert hat, kann man Teile am Bildrand maskieren und mittels Inpainting neu berechnen. Auch hier ist ein Blick auf Stable Diffusion WebUI zu empfehlen.
Im Beispiel unten erweitern wir den Bildrand des Tandoori Chicken Tikka mittels Outpainting und ersetzen dann den Becher am Bildrand mittels Inpainting.
Es muss nicht immer „echtes Essen“ sein. Für manche Artikel werden kreative Illustrationen benötigt. Auch diese können mittels KI erzeugt werden.
Für meinen Beitrag über die kulinarischen Regionen Indiens habe ich eine Kombination aus der Landkarte Indiens und indischen Gerichten von Midjourney generieren lassen.
/imagine combine the map of india with delicious indian food
Für meinen Beitrag über Kochen mit KI hat mir Midjourney eine Bleistiftzeichnung mit einem freundlichen Roboter erzeugt.
/imagine a cooking robot in the kitchen, monitor showing the recipes, pencil drawing --aspect 16:9
Mittels KI lassen sich nicht nur einzelne Bilder erstellen, sondern auch ganze Videos. Das ist naheliegend, weil ein Video selbst im Grunde nur eine schnelle Abfolge einzelner Bilder ist. Viele Videos, die mit KI erstellt wurden, sind ziemlich verrückt. Fürs Foodbloggen brauchen wir subtilere Methoden. Eine Methode möchte ich kurz konkreter vorstellen, um kurze Videoausschnitte aus Standbildern zu erzeugen.
Eine Depth Map ist eine Art von Graustufenbild, das Informationen darüber enthält, wie weit Objekte im Bild von der Kamera entfernt sind. Weiße Punkte (Pixel) sind nah an der Kamera, schwarze sind weit weg. Mit dieser Information kann man dann ein (Pseudo-)3D-Modell einer Szene erstellen.
Eine entsprechend trainierte KI kann eine solche Depth Map erzeugen. Die Stable Diffusion WebUI kann das mit einer Depth-Extension. Auch das Video kann das Plugin automatisch erzeugen.
Mit dem 3D-Modell kann man nun eine langsame und kurze Kamerafahrt filmen, z. B. von links nach rechts oder ein Zoom-in. Die Tiefenillusion funktioniert dann sehr gut, solange sich der Kamerawinkel nicht zu extrem ändert. Ansonsten bricht das Bild in Artefakte und die Illusion fliegt auf.
Im Beispiel hängt der Schüsselrand am Ende der Sequenz in der Luft und offenbart ein Loch in der Schüssel. Die Teilsequenzen eignen sich aber (nach etwas Aufbereitung) hervorragend als kurze Shots in Kochvideos, Pinterest-Posts oder Instagram-Stories. Und das ganz ohne Studio und professionelles Video-Equipment.
Es gibt noch andere Wege, um Videos mittels KI zu erzeugen. So kann der Übergang zwischen mehreren Keyframes (Schlüsselbildern) oder anhand von Wegweiser-Bildern (Guide Images) berechnet werden. Die so generierten Videos haben aber noch immer einen sehr künstlerischen und unruhigen Charakter.
Bisher habe ich noch kein nützliches Setup gefunden, um z. B. mit der Stable Diffusion WebUI und der Deforum-Extension ein brauchbares Food-Video zu generieren. Ein saftiges Steak in eine Karotte umzuwandeln, funktioniert sicher super, ist aber für den Alltags-Foodblogger nicht tauglich.
Auf der Seite Stable Diffusion Art gibt es zahlreiche Tutorials, wie man mit Stable Diffusion umgeht, um verschiedene Aufgaben zu erledigen. Ein interessantes Tutorial für die Generierung von AI-Videos findet ihr auf dem Channel von mickmumpitz.
„This Food Doen Not Exist“: Es gibt eigene Modelle zum Erzeugen von Food-Fotos.
Artikel dieser Art sind exotisch auf einem Food-Blog. Aber interessiert euch diese Art von Content? Seid ihr vielleicht sogar interessiert an Hands-On-Tutorials für Midjourney und Stable Diffusion?
Schreibt in die Kommentare, was ihr davon haltet!