Einsatz von Text2Image-Generatoren in der Lebensmittelentwicklung
Die rasante Entwicklung der künstlichen Intelligenz (KI) weitet sich auf zahlreiche Branchen aus, darunter die Lebensmittelindustrie. Text2Image-Generatoren sind eine Kategorie von KI-Werkzeugen (Tools), die die Entwicklung neuer Lebensmittelprodukte revolutionieren können. In diesem Blogpost schauen wir uns vier Text2Image-Generatoren an und untersuchen, welche Vorteile sich aus der Nutzung dieser Werkzeuge in der Lebensmittelentwicklung ergeben. Dabei schauen wir uns die Tools “Midjourney”, “DALL - E”, “Stable Diffusion“ sowie Adobe's “Firefly” im Detail an und stellen die generierten Bildergebnisse bei gleicher Texteingabe (sogenannte Prompts) gegenüber.
Der Prompt, den wir für die folgenden Bilder genutzt haben, lautet: "granola bar with nuts, berries and chocolate" Die Tools funktionieren grundsätzlich auch auf deutsch, mit englischen Begriffen konnten wir aber die besseren Ergebnisse erzielen.
Stable Diffusion (via WebUI von Automatic1111)
Stable Diffusion ist ein fortgeschrittener Text2Image-Generator mit einer grafischen Oberfläche (GUI), die eher für erfahrene Benutzer konzipiert ist. Der große Vorteil von Stable Diffusion ist, dass der Code offen auf GitHub verfügbar ist und unter AGPL-3.0 lizenziert ist. Die Software kann lokal, also auf dem eigenen Computer oder einem eigenen Server, gehosted werden. Es bietet eine Vielzahl von Funktionen und Einstellungen, mit denen die erzeugten Bilder angepasst werden können.
Bilder generiert von Stable Diffusion 2.1 und der Aufforderung, Müsliriegel mit Nüssen und Beeren zu zeigen.
- Pro
- Bietet eine Vielzahl von Funktionen und Einstellungen zur Anpassung der Bildgenerierung.
- Neue Funktionen werden dank einer aktiven Community häufig hinzugefügt.
- Bietet eine hohe Qualität und Geschwindigkeit der Bildgenerierung, auch auf Verbraucher-Hardware.
- Durch eigenes Hosting wird die Experimentierfreude gefördert, da man nicht pro Bild zahlt.
- Kontra
- Die GUI kann für Anfänger einschüchternd sein.
- Eigenes Hosting bedeutet Aufwand und erfordert Fachwissen, läuft dann aber sehr gut.
Midjourney
Midjourney ist ein Text2Image-Generator, der auf OpenAIs CLIP-Modell und einem VQ-VAE-2-Modell basiert. Er kann Bildern Textunterschriften zuordnen und aus einem Textprompt Bilder generieren. Es nutzt eine künstlerische Herangehensweise an die Bildgenerierung und ist in der Lage, Abstraktionen und stilisierte Darstellungen zu erzeugen. Midjourney ist in die Chat-Plattform Discord über einen Bot integriert - was am Anfang etwas verwirrend sein kann.
Bilder generiert von Midjourney und der Aufforderung, Verpackungen für Nüssen und Beeren zu zeigen.
- Pro
- Kann eine breite Palette von Bildern generieren, die von realistisch bis abstrakt reichen.
- Stellt durch die Chat-Plattform Discord intuitive Befehle zur Verfügung, was die Erstellung von Bildern relativ einfach macht.
- Kontra
- US Dienst der einen Discord Account erfordert.
- Umständlicher Zugriff auf Midjourney aktuell nur über den Dienst Discord.
DALL-E
DALL-E ist ein von OpenAI entwickelter Text2Image-Generator, der auf einem 12-Milliarden-Parameter-Modell basiert und in der Lage ist, eine Vielzahl von Konzepten zu visualisieren, die in natürlicher Sprache ausgedrückt werden. Es kann auch existierende Bilder basierend auf einer Texteingabe modifizieren. DALL-E 2, eine verbesserte Version, bietet realistischere und genauere Bilder mit 4-facher höherer Auflösung. Mittlerweile ist auch DALL-E 3 in einer Vorschau verfügbar.
Bilder generiert von DALL-E und der Aufforderung, Verpackungen für Nüssen und Beeren zu zeigen.
- Pro
- Fähigkeit, eine breite Palette von Konzepten zu visualisieren.
- Erzeugt Bilder mit hoher Auflösung und Detailgenauigkeit (insbesondere DALL-E 2 und 3).
- Fähigkeit, existierende Bilder basierend auf Textprompts zu modifizieren.
- Kontra
- Kostenpflichtige Nutzung über das US-Unternehmen OpenAI.
- Kostenlose Nutzung in Bing von aktueller Verfügbarkeit und Auslastung abhängig.
Update: Adobe Firefly
Adobe's Firefly ist ein Toolset für KI-Bildwerkzeuge, welches u.a. text-to-image Funktionen anbietet. Die Große Stärke spielt firefly bei der Generierung von fotoähnlichen Bildern aus.
Bilder generiert von Firefly und der Aufforderung, Müsliriegel mit Nüssen und Beeren zu zeigen.
- Pro
- Starke Ergebnisse bei fotorealistischen Bildern
- Spannende andere Werkzeuge, auch abseits von text-to-image
- Hohe Auflösung der Bilder
- Aktuell kostenfrei
- Kontra
- Ergebnisse abseits von fotorealistischen Bildern weniger stark als bei der Konkurrenz
- Teils noch fehlerhafte Ergebnisse (Bild mit bunten Streifen)
- US-Dienst und zukünftig wahrscheinlich kostenpflichtig
Vergleich
- Vielseitigkeit: Sowohl Midjourney, firefly als auch DALL-E und Stable Diffusion bieten eine breite Palette von Bildgenerierungsfähigkeiten
- Benutzerfreundlichkeit: Midjourney, firefly und DALL-E sind relativ benutzerfreundlich, wobei Midjourney eher mit einem Chat-Bot zu vergleichen ist. DALL-E und Firefly bieten intuitivere Benutzeroberflächen. Stable Diffusion hingegen ist eher für fortgeschrittene Benutzer gedacht und kann für Anfänger einschüchternd sein.
- Community-Unterstützung: Stable Diffusion hat eine aktive Community, die bei der Einführung neuer Funktionen hilft, während die anderen beiden Generatoren nicht so stark auf Community-Beiträge angewiesen zu sein scheinen.
Für Newsletter anmelden!
Erhalte regelmäßig Neuigkeiten rund um die Themen Food, AI, und Innovation.
Der Newsletter ist jederzeit durch einen Link in der E-Mail Signatur abbestellbar. Durch die Anmeldung erklärst Du Dein Einverständnis zu unserer Datenschutzerklärung und die Weitergabe der Daten an einen externen Dienstleister.
In welchen Bereichen man die Tools einsetzen kann
Kreative Produktentwicklung
KI-basierte Text2Image-Generatoren können als inspirierende Quellen für die Entwicklung neuer Produkte dienen. Mit Beschreibungen wie “ein Müsliriegel mit Schokolade und Cranberries” könnten Designer visuelle Prototypen generieren, die als Ausgangspunkt für die Produktentwicklung dienen.
Verpackungsdesign
Diese KI-Tools können auch im Verpackungsdesign eingesetzt werden. Durch Eingabe spezifischer Beschreibungen können einzigartige und ansprechende Verpackungsdesigns schnell und effizient erstellt werden, die die Aufmerksamkeit der Konsumenten auf sich ziehen.
Marktforschung
Text2Image-Generatoren können genutzt werden, um Verbraucherreaktionen auf potenzielle neue Produkte zu testen. Visualisierte Konzepte können in Umfragen und Fokusgruppen eingesetzt werden, um wertvolles Feedback zu sammeln, bevor mit der Produktion begonnen wird.
Vorteile von Text2Image-Generatoren
Zeit- und Kostenersparnis
Durch den Einsatz dieser Technologie können Entwicklungszeiten und -kosten erheblich reduziert werden. Die schnelle Generierung von Prototypen ermöglicht es Teams, sich auf die Optimierung und Feinabstimmung der Produkte zu konzentrieren.
Unbegrenzte Kreativität
KI-basierte Text2Image-Generatoren öffnen die Türen zu einer bisher unerreichten kreativen Freiheit. Durch die Kombination verschiedener Geschmacksrichtungen, Texturen und Formen können völlig neue und einzigartige Produkte kreiert werden.
Konsumentenbindung
Innovative Produktentwicklung und kurze Time-To-Market-Zyklen stärkt die Markenbindung und fördert die Kundenloyalität.
Fazit
Die Anwendung von Text2Image-Generatoren in der Lebensmittelindustrie bietet vielversprechende Möglichkeiten für die Produktentwicklung. Diese innovativen Tools ermöglichen nicht nur eine schnellere und kostengünstigere Entwicklung, sondern fördern auch die Kreativität und Kundenzufriedenheit. Damit repräsentieren sie einen signifikanten Fortschritt in der Lebensmittelbranche, der in den kommenden Jahren weiter erforscht und optimiert werden wird.