Konsistente Charaktere (englisch „Consistent Characters“ sind eine der größten Herausforderungen bei der Bildgernerierung mit KI.
Midjourney liefert hier mit der Character Reference schon ganz brauchbare Ergebnisse. Eine Anleitung dazu findest Du hier. Mit vielen anderen Tools ist es schon schwieriger und es ist natürlich klar, dass nicht jeder hunderte Euro im Monat für x verschiedene AI-Tools entbehren kann.
Wenn man sehr detaillierte Prompts verwendet, kann man jedoch auch mit DALL-E halbwegs konsistente Charaktere erstellen. Die mühsame Prompterzeugung kann man dabei ChatGPT überlassen.
Hier erst einmal ein Beispiel, was herauskommen kann, wenn man DALL-E über ChatGPT Quokkas in Belgien, Berlin und Österreich zeichnen lässt und dafür einfach den Prompt verwendet:
XXX steht hier und in weiterer Folge immer für einen Ort nach Wahl, in meinem Fall Berlin, Brüssel und Österreich.
Wie unschwer zu erkennen ist, sind diese Quokkas sehr verschieden.
Charakterdefinition
Ich habe daher ChatGPT 4o verwendet, um erst einmal den Charakter zu definieren und zwar mit folgendem Prompt. Mit Copilot bzw. anderen ChatGPT-Versionen, aber auch mit anderen LLMs wird es sicherlich ähnlich funktionieren.
ChatGPT hat mir dann folgende Beschreibung geliefert:
Koko, das Quokka auf WeltreiseGrundaussehen
- Körperbau: Koko ist ein kleiner, rundlicher Quokka mit einem kompakten und flauschigen Körper. Seine kurzen Arme und Beine wirken etwas tapsig, was ihn besonders niedlich macht. Sein buschiger, kurzer Schwanz reicht knapp bis zum Boden.
- Fell: Sein Fell ist warm braun, mit goldenen und helleren Schattierungen an Bauch, Gesicht und Pfoten. Um seine Augen herum hat er ein dezentes Muster, das wie kleine „Sonnenstrahlen“ aussieht, um seine neugierige und fröhliche Ausstrahlung zu betonen.#
- Gesicht: Kokos Gesicht ist das Highlight – ein breites, immer fröhliches Lächeln, das für Quokkas typisch ist. Seine großen, funkelnden Augen sind dunkelbraun mit einem Hauch von Gold, was seine Abenteuerlust und Aufgeschlossenheit unterstreicht. Seine Nase ist klein, schwarz und glänzend, perfekt, um in neue Welten zu schnuppern.
- Ohren: Seine Ohren sind rund, flauschig und immer leicht nach vorne geneigt, als würde er aufmerksam lauschen.
Kleidung & Accessoires Da Koko auf Weltreise ist, trägt er praktische, farbenfrohe Kleidung, die seinen abenteuerlustigen Charakter widerspiegelt:
- Hut: Ein kleiner, breitkrempiger Strohhut mit einem bunten Band, das mit Federn oder kleinen Anhängern verziert ist. Der Hut schützt ihn vor der Sonne und gibt ihm einen Weltentdecker-Look.
- Rucksack: Ein kleiner, abgenutzter Rucksack, der mit Abzeichen oder Aufnähern verschiedener Länder geschmückt ist. Aus dem Rucksack lugen oft ein Notizbuch, eine Lupe und eine Karte hervor.
- Halstuch:Ein rotes Halstuch, das ihm einen Hauch von Abenteuer und Stil verleiht. Es flattert leicht, wenn er unterwegs ist.
- Schuhe: Kleine Wanderstiefel mit bunten Schnürsenkeln. Oft sind sie ein bisschen staubig von seinen Abenteuern.
Charakterliche Details im Aussehen
- Körpersprache: Koko steht selten still. Er hat eine offene, lebendige Haltung – oft leicht nach vorne gebeugt, als würde er gerade etwas Spannendes entdecken wollen. Seine Pfoten sind oft ausgestreckt, um etwas zu zeigen oder zu greifen.
- Details & Extras: Um Kokos Weltreisen zu betonen, hat er oft kleine Requisiten dabei, die seine Erlebnisse widerspiegeln, z. B.:
- Eine kleine Feder, die er hinter das Hutband gesteckt hat (von einem Vogel, den er getroffen hat).
- Ein Armband aus bunten Perlen, das ihm ein Tierfreund geschenkt hat.
- Ein winziger Kompass, der an seinem Rucksack baumelt.
Farbpalette
- Brauntöne: Warm und einladend, für Fell und Grundausstattung.
- Rottöne: Für sein Halstuch und kleine Accessoires, symbolisieren Energie und Abenteuer.
- Bunt gemischt: Accessoires wie Aufnäher, Abzeichen und sein Armband sind vielfältig und bunt, um seine Weltoffenheit zu zeigen.
Möchtest du, dass ich eine bestimmte Szene mit Koko entwerfe, um ihn weiter in Aktion zu zeigen?
Eine schöne, umfangreiche und sehr detaillierte Beschreibung.
Prompterzeugung
Im nächsten Schritt habe ich ChatGPT noch im selben Chat gebeten, mir auf Basis dieser Beschreibung einen Prompt zu entwickeln.
ChatGPT hat mir sogleich einen Prompt geliefert und zwar auf Englisch, was meiner Meinung nach sehr vorteilhaft ist, insbesondere, wenn man den Prompt vielleicht mit anderen Modellen, die kein Deutsch verstehen, verwenden möchte:
Natürlich hätte ich bereits die Beschreibung ändern können und dann ChatGPT bitten können, mir auf Basis meiner geänderten Beschreibung einen Prompt zu generieren. Ich würde es jedoch vorziehen, dann eher den englischsprachigen Prompt ändern zu lassen bzw. selbst zu ändern.
Ich habe dann im selben Chat den Quokka in Berlin, Brüssel und Österreich darstellen lassen. Da ChatGPT ja iteratives Prompting versteht, habe ich nur folgendes eingegeben:
Das Ergebnis war schon einmal ganz nett:
Ich wollte den Quokka natürlich wieder in Berlin, Brüssel und Österreich sehen, entsprechend habe ich folgendes eingegeben:
Hier nun die Ergebnisse:
Durch das iterative Prompting hat ChatGPT den Prompt selbständig entsprechend angepasst. Der gesamte (von ChatGPT erzeugte) Prompt für Berlin wäre zum Beispiel folgender:
Wenn ich die Zeichnungen mit einem anderen Tool oder einfach nur in einem anderen Chat mit ChatGPT erstellen lassen würde, hätte ich den Prompt folgendermaßen angepasst:
- Aus dem ersten Satz hätte ich 2 Sätze gemacht und die Aufforderung für eine Zeichnung eingefügt und zwar folgendermaßen: „Draw a cheerful and adventurous Quokka in Pixar-style, set in XXX in square format. The Quokka has warm brown fur…
- Den vorletzten Satz hätte ich auf „The Quokka is surrounded by travel-related items and a vibrant, adventurous background.“ reduziert, da das Beispiel mit dem Dschungelpfad und der Savanne in Berlin und Brüssel nicht besonders sinnvoll wäre.
Der gesamte Prompt hätte somit so ausgesehen:
Und natürlich habe ich das gleich ausprobiert und zwar für London:
Fazit:
Wie unschwer zu erkennen ist, sind die generierten Quokkas zwar auch bei der Verwendung von sehr detaillierten Prompts nicht zu 100% konsistent, sich aber doch sehr ähnlich.