Fake Food Fotos: Food-Fotografie mit künstlicher Intelligenz (KI)
Künstliche Intelligenz kann mittlerweile binnen Sekunden prächtige Kunstwerke erschaffen, den Urlaub planen, Empfehlungen für Aktien abgeben, wissenschaftliche Arbeiten verfassen und komplexen Programmcode erstellen. Aber kann künstliche Intelligenz auch bei Foto-Fotografie behilflich sein? Ja, natürlich. Und in diesem Beitrag gebe ich dir einen Überblick über verschiedene Möglichkeiten, wie Food-Fotografen, Food Stylisten und Food-Blogger allgemein künstliche Intelligenz für Bilder (und Videos) einsetzen können.
Weitere Artikel über Food-Blogging mit ChatGPT
In meinen vorherigen Beiträgen habe ich mich bereits mit einigen Aspekten beschäftigt, wie KI mir als Food-Blogger und passioniertem Hobbykoch im Zusammenhang mit Kochen, Essen und Rezepten zur Hand gehen kann. Tatsächlich hätte ich nicht gedacht, dass aus diesem Food-Blog mal ein nerdiger Tech-Blog werden könnte bzw. Food-Tech-Blog. 😉
Im Artikel Kochen mit KI: Wie ChatGPT das Foodbloggen verändert! gebe ich einen groben Überblick, welche Chancen der Einsatz von künstlicher Intelligenz im Zusammenhang mit Food-Blogging bietet, ohne jedoch in Details zu verfallen. In KI meets Kulinarik: Produktivitäts-Booster für Food-Blogger und Kochbuchautoren zeige ich anhand konkreter Anwendungsbeispiele, wie ChatGPT die Arbeit mit Rezepten vereinfachen kann. Und damit meine ich nicht, wie man mit ChatGPT kochen und Rezepte erstellen kann.
Noch etwas konkreter werde ich bei Smarter essen! Mit dem Chatbot zum ausgewogenen Speiseplan. Denn ChatGPT und Co. können tatsächlich dabei helfen, einen Wochenspeiseplan in wenigen Minuten zu erstellen oder zumindest Ideen für einen Speiseplan zu generieren.
Generative künstliche Intelligenz für Food-Blogger, Food-Fotografen und Food-Stylisten
Der Begriff „generative künstliche Intelligenz“ bezieht sich auf eine Art von künstlicher Intelligenz, die in der Lage ist, auf der Grundlage von Daten neue Inhalte zu erstellen. Im Gegensatz zu anderen Arten von KI-Modellen, die auf vorhandenen Daten basieren und Muster erkennen, kann generative KI tatsächlich neue Daten erstellen.
Virtuelles Food Styling mit KI
Durch die Verwendung von generativer KI können Food-Fotografen und Marketing-Teams auf schnelle und kosteneffiziente Weise realistische Bilder von Gerichten erstellen, ohne dass sie tatsächlich ein neues Gericht zubereiten (lassen) oder ein Fotoshooting organisieren müssen. Dies kann zum Beispiel besonders nützlich sein, wenn es darum geht, visuelle Inhalte für Marketingkampagnen oder Menüs zu erstellen.
Jeder weiß, dass (professionalisierte) Food-Fotografie ggf. wenig mit Realität und Authentizität zu tun hat: Rasierschaum statt Sahne, Malfarbe und künstliche Röststreifen mit dem Bunzenbrenner, sowie Retusche im Nachgang. Im seltensten Fall schaut ein nachgekochtes Rezept aus, wie auf dem Bild. Mit künstlicher Intelligenz treiben wir das Ganze nun auf die Spitze.
Food-Fotos mit KI erzeugen
Generative KIs benötigen eine Eingabe, einen sogenannten Prompt, um ein Ergebnis zu erzeugen. Das kann ein Text sein oder ein Bild. Midjourney, DALL-E und Stable Diffusion sind dabei die wohl bekanntesten Vertreter zur Generierung von Bildern. Die beeindruckendsten Bilder kann man meines Erachtens derzeit (Stand Mai 2023) noch mit Midjourney erzeugen. Allerdings ist der Dienst nicht kostenlos und das Probekontingent schnell aufgebraucht. Gleiches gilt für DALL-E. Stable Diffusion Modelle kann man mit etwas Technik-Kenntnis und einem leistungsstarken Computer auf dem eigenen Rechner uneingeschränkt nutzen.
Schauen wir uns ein paar Beispiele an, wie wir mittels Midjourney Food-Fotografie betreiben können. Mehr Details und weitere Prompts gibt es im Folgebeitrag über Food-Fotos mit Midjourney.
Mit dem folgenden Prompt spuckt Midjourney fantastische Bilder von Tandoori Paneer Tikka aus.
/imagine grilled indian tandoori paneer tikka, food photography, depth of field, bokeh, savory, indulgent, smoke, charcoal, super resolution --v 5
Bei den Steaks muss Midjourney noch etwas üben oder ich muss am Prompt feilen. Aber die Variante 2 (rechts oben) schaut wirklich gut aus:
/imagine food photography, steak on a hot grill, smoke and flames, delicious, savory, indulgent, depth of field, bokeh --v 5
Aber auch die ersten Gehversuche mit Stable Diffusion können sich durchaus sehen lassen.
food photography of a grilled burger with juicy beef, fresh salad, tomato, softy molten cheese. The burger was grilled and smoked over open fire and charcoal on a cast iron rust. ultra highly detailed and photo realistic, super resolution, 8k. concept art, product shot, intricate. delicious, gourmet, mouth-watering, dark & dramatic lighting, low key, depth of field, bokeh, frontal low angle shot octane
Ähnliche Beiträge
Upscaling (Erhöhen der Bildauflösung)
Dieser Begriff ist recht bekannt und bezeichnet das Erhöhen der Auflösung eines Bildes. Beim Erhöhen der Auflösung werden aus wenigen Bildpunkten viele Bildpunkte erzeugt und die Farbwerte interpoliert. Eine naive Methode würde z. B. den Durchschnitt der Ausgangspixel berechnen und als Farbwerte für die neuen Pixel verwenden. Ein damit hochskaliertes Bild erscheint dann trotz höherer Auflösung unscharf.
Eine entsprechend trainierte KI betreibt hier mehr Aufwand und kann Details im Bild erhalten oder sogar sinnvolle und detaillierte Strukturen erzeugen. Ich stelle mir das im Grunde so vor: Die KI versucht zu abzuschätzen, wie das große Bild wohl ausgesehen haben muss, bevor die Auflösung verringert wurde.
Für die Food-Fotografie ist das durchaus interessant, um Bilder mit niedriger Auflösung hochzuskalieren. Ausgangsbilder können z. B. spontane Handyfotos sein, die fix in einem Restaurant gemacht wurden oder beim Kochen ohne Profi-Equipment.
Die bekannteste Bildgenerierungs-KI Midjourney generiert derzeit Bilder mit einer maximalen Auflösung von 1024 × 1024 Pixel. Das ist nicht allzu viel. Mit einem separaten AI Upscaler (z. B. R-ESRGAN 4x+) lassen sich daraus wirklich hochauflösende Bilder erzeugen.
Mittlerweile gibt es viele nutzerfreundliche Tools auf dem Markt, viele davon sind aber kostenpflichtig. Wer keine Angst vor Technik und Fachbegriffen hat, sollte sich unbedingt Stable Diffusion WebUI anschauen. Zur Nutzung ist ein leistungsstarker Computer von Vorteil.
Outpainting (Bildrahmen erweitern) und Inpainting (Bildanteile ersetzen)
Die beiden Methoden Outpainting und Inpainting können verwendet werden, um Bilder am Rand zu erweitern oder Bildanteile zu ersetzen bzw. zu erschaffen.
Beim Outpainting versucht die KI, das Bild am Rand sinnvoll fortzusetzen. Mittels Outpainting kann man z. B. versuchen, ein quadratisches Bild zu einem Querformat erweitern.
Mittels Inpainting kann man Teile des Bildes maskieren, d. h. selektieren, und von der KI austauschen lassen. Z. B. eine Orange durch einen Apfel austauschen, ohne lange mit Bildbearbeitungsprogrammen herumzubasteln.
Beide Techniken kann man in mehreren Durchgängen sinnvoll kombinieren. Wenn Outpainting ein suboptimales Ergebnis geliefert hat, kann man Teile am Bildrand maskieren und mittels Inpainting neu berechnen. Auch hier ist ein Blick auf Stable Diffusion WebUI zu empfehlen.
Im Beispiel unten erweitern wir den Bildrand des Tandoori Chicken Tikka mittels Outpainting und ersetzen dann den Becher am Bildrand mittels Inpainting.
Illustrationen erstellen mit KI
Es muss nicht immer „echtes Essen“ sein. Für manche Artikel werden kreative Illustrationen benötigt. Auch diese können mittels KI erzeugt werden.
Für meinen Beitrag über die kulinarischen Regionen Indiens habe ich eine Kombination aus der Landkarte Indiens und indischen Gerichten von Midjourney generieren lassen.
/imagine combine the map of india with delicious indian food
Für meinen Beitrag über Kochen mit KI hat mir Midjourney eine Bleistiftzeichnung mit einem freundlichen Roboter erzeugt.
/imagine a cooking robot in the kitchen, monitor showing the recipes, pencil drawing --aspect 16:9
Kurze Videos erstellen mit KI
Mittels KI lassen sich nicht nur einzelne Bilder erstellen, sondern auch ganze Videos. Das ist naheliegend, weil ein Video selbst im Grunde nur eine schnelle Abfolge einzelner Bilder ist. Viele Videos, die mit KI erstellt wurden, sind ziemlich verrückt. Fürs Foodbloggen brauchen wir subtilere Methoden. Eine Methode möchte ich kurz konkreter vorstellen, um kurze Videoausschnitte aus Standbildern zu erzeugen.
Depth Map (Tiefenkarte)
Eine Depth Map ist eine Art von Graustufenbild, das Informationen darüber enthält, wie weit Objekte im Bild von der Kamera entfernt sind. Weiße Punkte (Pixel) sind nah an der Kamera, schwarze sind weit weg. Mit dieser Information kann man dann ein (Pseudo-)3D-Modell einer Szene erstellen.
Eine entsprechend trainierte KI kann eine solche Depth Map erzeugen. Die Stable Diffusion WebUI kann das mit einer Depth-Extension. Auch das Video kann das Plugin automatisch erzeugen.
Mit dem 3D-Modell kann man nun eine langsame und kurze Kamerafahrt filmen, z. B. von links nach rechts oder ein Zoom-in. Die Tiefenillusion funktioniert dann sehr gut, solange sich der Kamerawinkel nicht zu extrem ändert. Ansonsten bricht das Bild in Artefakte und die Illusion fliegt auf.
Im Beispiel hängt der Schüsselrand am Ende der Sequenz in der Luft und offenbart ein Loch in der Schüssel. Die Teilsequenzen eignen sich aber (nach etwas Aufbereitung) hervorragend als kurze Shots in Kochvideos, Pinterest-Posts oder Instagram-Stories. Und das ganz ohne Studio und professionelles Video-Equipment.
Weitere Möglichkeiten zur Videogenerierung
Es gibt noch andere Wege, um Videos mittels KI zu erzeugen. So kann der Übergang zwischen mehreren Keyframes (Schlüsselbildern) oder anhand von Wegweiser-Bildern (Guide Images) berechnet werden. Die so generierten Videos haben aber noch immer einen sehr künstlerischen und unruhigen Charakter.
Bisher habe ich noch kein nützliches Setup gefunden, um z. B. mit der Stable Diffusion WebUI und der Deforum-Extension ein brauchbares Food-Video zu generieren. Ein saftiges Steak in eine Karotte umzuwandeln, funktioniert sicher super, ist aber für den Alltags-Foodblogger nicht tauglich.
Auch lesenswert
Auf der Seite Stable Diffusion Art gibt es zahlreiche Tutorials, wie man mit Stable Diffusion umgeht, um verschiedene Aufgaben zu erledigen. Ein interessantes Tutorial für die Generierung von AI-Videos findet ihr auf dem Channel von mickmumpitz.
„This Food Doen Not Exist“: Es gibt eigene Modelle zum Erzeugen von Food-Fotos.
Feedback?
Artikel dieser Art sind exotisch auf einem Food-Blog. Aber interessiert euch diese Art von Content? Seid ihr vielleicht sogar interessiert an Hands-On-Tutorials für Midjourney und Stable Diffusion?
Schreibt in die Kommentare, was ihr davon haltet!
Ich bin relativ froh, dass ich kein Food Fotograf bin. Der Handwerker, der sein Können in jahrelanger Arbeit verfeinert hat, wird 2023 durch ein Stück Software ersetzt. Gruselig in der Vorstellung.
Der Burda Verlag hat jetzt ein Sonderheft mit KI erstellt und hat keinem gesagt, dass man KI Ergebnisse sieht: https://www.golem.de/news/99-pasta-rezepte-kritik-an-ki-generiertem-sonderheft-von-burda-2305-174190.html
Auch gruselig.
Richtig geschmacklos wurde es bei der funke Gruppe. Die hatten ein Interview mit Michael Schumacher veröffentlicht. Den Part von Schumacher hat ChatGPT mal eben übernommen.
Ich persönlich würde gerne mit Paul Bocuse auf https://beta.character.ai/ über seine Hühnersuppe „Deko“ sprechen. Er legte den Kopf von dem Huhn auf die Suppe und hat damit verhindert, dass ich jemals in Frankreich in einem Restaurant _Hühnersuppe_ bestellt habe.
Ich möchte seine Kochsendungen. Er wurde in der Sendung, die jetzt gut vor 40 Jahren ausgestrahlt wurde nach seiner Deko gefragt. Und er sagte, das Auge isst mit.
Hi!
Mit dem skandalösen Sonderheft von Burda habe ich mich schon in einem anderen Beitrag (Copy-Pasta: Geniale Pasta-Skandal-Werbung für Genießer?) beschäftigt. Für mich persönlich ist das Skandal-Werbung, um das Heft zu promoten und das aktuelle KI-Momentum zu nutzen. Je mehr Leute sich darüber aufregen, desto größer ist die Welle in den Medien (Heidi Klum hat diese Form des Marketings perfektioniert^^). Und Burda freut sich über kostenlose Publicity.
Allerdings hat uns Food-Fotografie und Food-Styling schon immer betrogen und uns die Fantasie und Illusion von perfektem Essen vermittelt. Und ich glaube, dass vorerst kein Food Fotograf um seinen Job bangen muss. Eine Veränderung im Joballtag muss man jedoch erwarten und die meisten täten wahrscheinlich gut daran, sich mit KI-Tools auseinanderzusetzen, um wettbewerbsfähig zu bleiben.
KI muss auch nicht ausschließlich zur Generierung neuer Inhalte verwendet werden. Sie kann als Werkzeug zur Hand gehen, um lästige Prozesse, wie Verschlagwortung, Bildverbesserung, Kategorisierung und Suche in Bilddatenbanken zu beschleunigen.
Der Umgang mit Tools, wie Midjourney und Stable Diffusion (samt der dahinterliegenden Modelle) ist wiederum eine Kunst für sich, die es zu erlernen gilt.
Wo früher Blende und Belichtungszeit als Parameter eine Rolle spielten, müssen Stylisten nun wissen, wozu Prompts, Modelle, und Parameter, wie Sample Count und CFG Scale wichtig sind.
Als hauptberuflicher Softwareentwickler und -Architekt müsste ich ja auch beunruhigt sein, weil die Maschinen Programmcode erschaffen. Ist mein Handwerk in Gefahr? … nein, eher nicht.
Die Maschinen können „Boilerplate“ (dummen Standard-Code) herunter rattern und Vorlagen erstellen. Dadurch steigern sie meine Produktivität, damit ich mehr Zeit für die wirklich anspruchsvollen Lösungen habe. Außerdem verbringen Entwickler mehr Zeit damit, alten Code zu lesen und zu verstehen, als neuen zu schreiben.
Auch beim Heft von Burda zeigte sich, dass die KI noch geführt werden muss und einen menschlichen Überwacher braucht, um die Inhalte zu beurteilen und veröffentlichungsfähig zu machen.
Der Aufschrei bei Journalisten ist auch enorm groß. Dabei könnten sie die Tools sinnvoll verwenden, um produktiver zu werden und besseren Content zu liefern. Den Umgang müsste man allerdings erst erlernen und alte Muster hinter sich lassen. Damit tun sich sicher viele alteingesessene und technophobe Autoren schwer.
Beispiel: Ein guter Journalist muss bekanntlich recherchieren. Mittels KI kann er relevante Inhalte automatisiert auffinden und kurz aufs Wesentliche zusammenfassen lassen. Das ermöglicht ihm, besser und schneller Informationen zu verarbeiten und als Grundlage seines eigenen Artikels zu verwenden. Ja, sogar Anwendungsfälle für die Verifizierung seiner Quellen wären denkbar.
(mh… vielleicht sollte ich einen Artikel darüber schreiben)
Grüße
Dennis