KI Prompts Bildgestaltung- Konkrete Tipps zur Umsetzung

13. Februar13. Feb

@Ma Kai Tipp: mach einen neuen Chat auf. Das Kontextfenster ist zu groß geworden.

Bearbeitet (13. Februar13. Feb von Akeem al Harun)

Zitieren

report

13. Februar13. Feb

Vor 54 Minuten, Akeem al Harun schrieb:
@Ma Kai Tipp: mach einen neuen Chat auf. Das Kontextfenster ist zu groß geworden.

Aber dann verliere ich allen Kontext, oder? Ist es nicht besser, den meisten Kontext noch zu haben und das, was er vom Anfang vergessen hat, wieder nachzufüttern? - ich denke, das probiere ich gerade aus...

Zitieren

report

13. Februar13. Feb

Vor 14 Minuten, Ma Kai schrieb:
Aber dann verliere ich allen Kontext, oder? Ist es nicht besser, den meisten Kontext noch zu haben und das, was er vom Anfang vergessen hat, wieder nachzufüttern? - ich denke, das probiere ich gerade aus...

Nein, du musst der Kontext in einem neuen Chat neu herstellen.

Wenn das Kontextfenster einmal voll ist, wird der Chat immer unbrauchbarer.

Zitieren

report

13. Februar13. Feb

Vor 8 Minuten, Akeem al Harun schrieb:
Nein, du musst der Kontext in einem neuen Chat neu herstellen.
Wenn das Kontextfenster einmal voll ist, wird der Chat immer unbrauchbarer.

Nicht nur das. Ein großer Kontext kann auch zu schlechteren Ergebnissen führen. Ist wie die Suche nach der Nadel im Heuhaufen. Je größer der Kontext ist, je schwieriger wird es die passenden Einträge herauszusuchen.

Die Hersteller arbeiten daran das Problem zu lösen. So als Faustregel kann man sagen: Je mehr Kontext je mehr Halluzinationen.

Zitieren

report

13. Februar13. Feb

Vor 7 Minuten, Abd al Rahman schrieb:
Nicht nur das. Ein großer Kontext kann auch zu schlechteren Ergebnissen führen. Ist wie die Suche nach der Nadel im Heuhaufen. Je größer der Kontext ist, je schwieriger wird es die passenden Einträge herauszusuchen.
Die Hersteller arbeiten daran das Problem zu lösen. So als Faustregel kann man sagen: Je mehr Kontext je mehr Halluzinationen.

Siehe der von @Prados Karwan verlinkte Artikel hier: https://www.midgard-forum.de/forum/topic/41037-k%C3%BCnstliche-intelligenz-und-rollenspiel-allgemeine-gedanken-%C3%BCber-eine-zunehmende-verbindung/page/5/#findComment-3859179

Zitieren

1

report

13. Februar13. Feb

1 Stunde her, Ma Kai schrieb:
Es hat mir als nächstes wieder einen Ägypter gemalt - praktisch den gleichen, um genau zu sein. Es hat ihn nur nicht mehr als solchen bezeichnet.
Ich habe ihm jetzt stattdessen eine ausführliche Korrektur gegeben, aber die wird es erst heute Nachmittag umsetzen.

Ähnliche Phänomene habe ich auch erlebt:

Man gibt manchmal sehr konkrete Korrekturanweisungen, die dann aber erstaunlicher Weise keine oder kaum Umsetzung finden.

Beispiel bei mir: Blick in einen Raum in der Diagonale, der Blick erfaßt dabei die beiden gegenüberliegenden Wände, während die restlichen zwei Wände nicht sichtbar sind.

Die Raumbeschreibung hatte dezidierte Anweisungen, an welchen Wänden ein Kamin, die Tür und die Fenster waren. Für die Wände in Blickperspektive waren keine Fenster vorgesehen. Dennoch hat die KI sie hartnäckig dort eingefügt, teils gar die Holztür mit Fenstern versehen...

Mit einem halben Dutzend Iterationen habe ich es nicht geschafft, die Wand "fensterfrei" zu bekommen.

Vermutung:
Wenn man eine komplette Raumbeschreibung hat, die gewissermaßen alle Perspektiven des Raumes umfaßt, dann "will" die KI diese Elemente "unbedingt" auch irgendwie in ihr Bild einfügen - auch dann, wenn der Blickwinkel des Betrachters dies nicht zuläßt.
Das ist mir - rückblickend - auch schon bei anderen Bildern aufgefallen. Insbesondere solchen, wo man vom Standpunkt des Betrachters aus nicht den ganzen Raum "sehen" kann: An anderer Stelle hatte ich beispielsweise einen L-förmigen Raum. Hinter der Ecke vom L stand das Bett, was der Betrachter von seinem Standpunkt aus nicht hätte sehen können. Keine Chance, bei den Bildausgaben das Bett wegzubekommen...
Man muß hier vermutlich die Perspektive des Beobachters "mitdenken" - was dieser nicht sehen kann, sollte man nicht beschreiben, auch wenn es sich im Raum befindet.

Nun zu Deinem Medjise, der zum Ägypter wurde:

Vielleicht könntest Du folgendes probieren: Gib die Anweisung den "Ägypter" (oder den "Medjisen") aus dem Bild zu entfernen. Danach füttere ihn erneut mit der Beschreibung eines "richtigen" Medjisen. Dann gib die Anweisung, den Medjisen wieder ins Bild einzufügen. So kann man vielleicht die KI Assoziationskette durchbrechen.

Mit einer ähnlichen Taktik hatte ich mal bei einer Gesichtsänderung Erfolg: Nach diversen Iterationen hatte sich das Gesicht eines Charakters nach und nach immer mehr verfälscht. Dachte ich mir: Macht nix! Ich bin schlau, lade noch einmal das "Original-Gesicht" hoch mit der Anweisung, im Bild das Gesicht mit dem "Original-Gesicht" zu ersetzen. Ergebnis: Kaum eine Änderung.
Dann bin ich auf folgende Idee gekommen: "Nimm im Bild den Kopf des Charakters weg." Hat funktioniert. Dann habe ich das "Original-Gesicht" hochgeladen mit der Anweisung: "Setzte den hochgeladenen Kopft auf den Charakter ohne Kopf." Dies brachte in meinem Fall den Erfolg.

Zitieren

report

13. Februar13. Feb

Zeit: 9.2.2026 um 11:00, Ma Kai schrieb:
Danke Euch. Probiere ich, wenn ich als nächstes drauf darf. Ich glaube, ich mache für dieses Thema einen neuen Chat mit GPT auf. Eigentlich wollte ich alles, was zu dem Abenteuer gehört, in einem Chat zusammen halten, aber das klappt nicht mehr gut.

Irgendwann wird Umfang ein Problem. Was früh im Chat liegt, verliert dann an Relevanz. Und zuviel Kontext-Menge führt dann zu Unschärfe. Ich kann aber nicht sagen, bis wohin Kontext noch "verbessernd" wirkt, wo der Sweet-Spot liegt, und wo dessen Menge abträglich zu werden beginnt.

"Ich fände es ja schön, wenn ChatGPT mich in den Bezahlplan locken würde, indem es hin und wieder anteasert, "schau her, und wenn Du bezahlst, dann biete ich Dir so viel mehr Qualität". Stattdessen beschneidet es immer mehr. Zuerst konnte ich Textfragen stellen bis zum Abwinken, und es war nur die Anzahl der Bilder pro Tag begrenzt. Nun ist nicht nur die Bildergrenze geblieben - und zwar gefühlt niedriger, im Moment etwa 4 - sondern wird auch durch Textfragen reduziert. Vier Fragen pro fünf Stunden sind eine echte Einschränkung."

Bei mir hat ChatGPT nach einem Tag gesagt:
"Hey, Du bekommst den ersten Monat ChatGPT Plus umsonst, dabei kannst Du jederzeit kündigen und Du wirst erinnert, wann eine Verlängerung nötig wird."
Erstaunlicherweise wurde dabei sogar PayPal als Zahlungsmethode angeboten, wobei ich zuvor gelesen hatte, daß dies nicht funktionieren solle.
Verdammte KI - muß gewußt haben, daß Glücksritter unfähig sind Versuchungen zu widerstehen...
Mit ChatGPT Plus kann man gefühlt sehr gut herumspielen - ich habe es nur ein einziges Mal geschafft, das Limit zu erreichen (die Cool-Down Periode sind da drei Stunden, glaube ich.)

"Außerdem gehen mir die Jugendschutzfilter auf den Nerv. Ich will Informationen darüber, dass bzw. wie eine Gliedmaße abgetrennt werden würde. Das kann im Abenteuer eine recht zentrale Rolle spielen, es ist mit Grund FSK 18, ich will aber wissen, was realistisch ist. ChatGPT befürchtet anscheinend, dass es mir die Anleitung zum Axtmördern gibt. Das ist so weichgespült, damit kann ich nichts mehr anfangen."

Das ist mir auch auf gefallen: Nachdem mein Glücksritter es zunächst "geschafft" hatte, einem Halbling ein Bein zu stellen, damit dieser in Obstkisten fällt und diese herunterreißt, wurde dies plötzlich geblockt, als ich dabei war, lediglich stilistischen Änderungen am Bild (Farbtöne, Malstil) vorzunehmen, nicht aber am Motiv selbst. Danach habe die ChatGPT einfach mal danach gefragt, was das Problem ist und warum ich z.B. den Glücksritter im Duell mit einem anderen samt blutender Wunden problemlos generieren kann, nicht aber beinstellend. Da kam dann eine Erklärung, die für mich allerdings nur teilweise stichhaltig war.

Für Deine Zwecke ist dann vermutlich eine "gewissenlose" KI besser. Enter Elon Musk mit Grok, was ja wegen generierter Pronodarstellungen mit Minderjährigen jüngst in der Kritik stand. Ich war mal neugierig und habe Grok die Anweisung gegeben: "Nimm dieses Bild (Glückritter stellt Halbling ein Bein), aber laß den Glückritter dem Halbling mit voller Kraft ins Gesicht treten." Wenn Kinderpornos für Grok kein Problem sind, dann dürfte dieses Prompt ja nicht einmal ein müdes Lächeln hervorrufen. Da ich dort nicht registriert bin, kam aber die Ausgabe "Grok ist zur Zeit ausgelastet, probier es später noch mal." Das habe ich dann aber nicht verfolgt.

Zitieren

report

13. Februar13. Feb

3 Stunden her, Francesco di Lardo schrieb:
Gib die Anweisung den "Ägypter" (oder den "Medjisen") aus dem Bild zu entfernen.

Es ist ein Portrait. Da ist dann "literally" praktisch kein Bild mehr übrig.

Ich könnte jetzt nicht sagen, dass er meine Korrekturen nicht aufgenommen hätte, aber andererseits gefällt mir das Ergebnis immer noch nicht. Ich versuche es mit einer erneuten Korrektur.

Zitieren

report

13. Februar13. Feb

2 Stunden her, Akeem al Harun schrieb:
Nein, du musst der Kontext in einem neuen Chat neu herstellen.
Wenn das Kontextfenster einmal voll ist, wird der Chat immer unbrauchbarer.

2 Stunden her, Abd al Rahman schrieb:
Nicht nur das. Ein großer Kontext kann auch zu schlechteren Ergebnissen führen. Ist wie die Suche nach der Nadel im Heuhaufen. Je größer der Kontext ist, je schwieriger wird es die passenden Einträge herauszusuchen.
Die Hersteller arbeiten daran das Problem zu lösen. So als Faustregel kann man sagen: Je mehr Kontext je mehr Halluzinationen.

Einen neuen Chat zu erstellen kann helfen, weil dann der Kontext erst einmal wieder auf das wesentliche reduziert wird.
Allerdings ist es natürlich auch lästig, Kontext, den man anderswo im Grunde schon einmal geschrieben und geschaffen hat, wieder erneut zusammenzustellen.
Im Grunde ist dies ja Wiederholung derselben Arbeit.

Wie es der Zufall so will, habe ich mich den Tag und die Nacht gestern genau damit beschäftigt, welche Strategie man wählen sollte, wenn man mit größeren Informationsmengen umgeht.

Ausgangspunkt war folgender:
Ich habe ein Gasthaus, wofür ich old-school per Hand mit Bleistift auf Karopapier sehr detaillierte und konsistente Grundrisse vom Keller bis zum Dach gezeichnet habe. Für jeden der knapp 100 Räume gibt es eine Beschreibung, die teils sehr umfangreich ist. Diese Beschreibung insgesamt umfaßt 40 DIN-A-4 Seiten, wobei darin nicht NSCs, Abenteuer- oder Story-Elemente enthalten sind. Also für eine Spiel-Location, die immer wieder erneut zum Einsatz kommt - quasi als "Basis" der Charaktere in einer städtisch basierten Kampagne - eine verdammt solide Grundlage.

Meine Vision ist:
Ich will "visuell begleiten", was immer sich an Spielsituationen in dem Gasthaus tut. Daher wollte ich als Grundlage Bilder von den relevanten Räumen schaffen, die ich dann archiviere bzw. an die KI füttere. Dazu Bilder der NSCs des Gasthauses (Wirt, Schankmaiden, etc.) nach demselben Konzept. Ebenso für die Spieler-Charaktere. Ziel war die Möglichkeit zu folgenden Prompts, die dann auf die zuvor geschaffenen Bildressourcen zurückgreift und infolgedessen konsistente Bilder erschafft: "Charakter A und C sind in Raum X und brüten über einer Landkarte. Schankmaid 3 kommt herein und bringt Wein." Weil ja Bilder von allen Charakteren, Räumen, NSCs schon existieren, sollte der kurze Prompt reichen, um schnelle, konsistente und gute Ergebnisse zu produzieren.

All dies in einem einzigen Chat zu machen, würde zweifelsohne den Rahmen sprengen - und überdies auch höchst unübersichtlich sein. Also braucht man andere Wege. @Akeem al Harun hat vorgeschlagen, mehrere individuelle Chats zu erstellen. Grundsätzlich gut, aber für jeden muß ich erneut "Kontext" erstellen. Mein naheliegender Gedanke war, daß ich gewissermaßen eine Kontext-Bibliothek (Asset Library) anlege, aus der sich dann die KI bedienen kann in dem sie nur die Elemente automatisch herauszieht, die sie für die neue Szene benötigt. Dadurch würde dann für die neue Szene der Kontext auf ein produktives Maß begrenzt und Überflutung mit den negativen Auswirkungen vermieden.

Dachte ich mir: In ChatGPT Plus machst Du ein "Projekt" Gasthaus auf. Da kann man diverse Chats reinlegen und bis zu 40 Dateien hochladen. Nenne die Chats im Projekt Charakter 1 bis 4, Räume 1 bis 10, NSCs 1 bis 5. Packe dort jeweils die entsprechenden Ressourcen rein (Textbeschreibungen, Bilder, etc.), dann hast Du Deine strukturierte Kontext-Bibliothek: Im Beispiel habe ich in Summe 19 Chats für die Kontexte, für die eingangs beschriebene Situation brauche ich aber nur 4 (2 Charaktere, Raum, 1 Schankmaid), also Kontext begrenzt, Ergebnis prima.

Wenn es doch so einfach wäre...

Ein ChatGPT Projekt erlaubt das Hochladen von 40 Dateien plus die Chats, in denen sich auch Bilder befinden können. Wenn man aber nun langfristig denkt, ist klar, daß sich die Kampagne nicht nur in diesem Gasthaus abspielt, daß es andere Gebäude oder Orte geben wird, viel mehr NSCs usw. usf. Kurz gesagt: man kommt zum Schluß, daß langfristig ein ChatGPT Projekt ein unzureichender Container für die sich kumulierenden Informationen ist. Zudem läßt sich in ChatGPT keine Struktur in Ebenen anlegen, aus der Wissen verzweigt von Schicht zu Schicht wie ein Zweig vererbt wird. All das ist blöd, wenn man eine Kontext-Bibliothek anlegen will. Dafür ist ChatGPT nicht das Tool.

Ich habe also mal ChatGPT selbst gefragt, wie man das angehen muß. Und bin damit auch noch nicht am Ende, wobei ich auch nicht beurteilen kann, ob die Lösungen am Ende tragfähig wären, oder "halluziniertes" Wunschdenken. Dazu fehlt mir persönlich, menschlich, händisch mühsam erworbenes Fachwissen. Doch lassen wir diesen Aspekt für den Augenblick einmal außen vor.

ChatGPT rät, die Kontext-Bibliothek (Asset Library) extern zu speichern, also z.B. lokal auf dem eigenen Rechner. Da gibt es keine Probleme mit Strukturtiefe, Menge an Daten, die man Ablegen kann, Scaling ist kein Problem. Natürlich stellt sich sofort die Frage, welche Struktur man hiefür wählt, oder wie man diese ggf. irgendwann anpassen kann, sollte oder nicht sollte. Das sind Fragen, die man anfangs verdammt gut überdenken sollte, um nachträgliche Schwierigkeiten zu vermeiden.

Nehmen wir mal an, ich hätte eine Stuktur für meine externe Asset Library. ChatGPT kennt diese aber ja gar nicht. Sie befindet sich außerhalb von Chats, außerhalb von ChatGPT. Woher weiß ChatGPT also, was es an Assets (Texte, Bilder, usw.) gibt, die als Kontext doch so nützlich und wertvoll wären, wenn man darauf zugreifen könnte?

Man braucht, so ChatGPT, einen Asset Index. Also eine Liste, die alles beschreibt, was extern verfügbar ist. Dieser Asset Index liegt dann INNERHALB von ChatGPT, z.B. in meinem "Projekt Gasthaus". Prompte ich da meine Szene, durchsucht ChatGPT den Asset Index und sagt mir: "Ich bau Dir Deine Szene zusammen, dafür lade mir folgende Dateien aus Deiner externen Asset Library in diesen Chat: Anchor-Bild der beiden Charaktere und der Schankmaid, Anchor-Bild des Raums." Das führt man aus und gibt ChatGPT damit exakt den Kontext, den es aus der verfügbaren Masse benötigt. Klingt super und schlüssig.

Wenn es doch so einfach wäre...

Ich habe mich erstmal gefragt, wer (ich oder/und die KI) einen Asset Index überhaupt aufbaut. Und was steht für jedes einzelne Asset in diesem Index drin? Theoretisch braucht jedes Asset einen eindeutigen Namen (Identifier) und eine Versionsbezeichnung. Zur Vereinfachung stellen wir uns also einfach mal einen Dateinamen vor. Wichtig dabei ist, daß sich der Identifier nie ändert, um alle möglichen Probleme zu vermeiden. Hier könnte man als Identifier ganz einfach an eine fortlaufende Nummer denken. So wäre "000000000001_v1" hervorragend eindeutig, und ich könnte nach diesem Muster auch genügend Assets schaffen, bevor mir der Zahlenraum ausgeht. Aber der Dateiname ist überhaupt nicht sprechend - er sagt mir als User nichts, der ja seine externe Asset Library irgendwie verstehen will. Vielleicht wähle ich besser "Charakter 1_0000000000001_v1" oder "Peter_Piper_Glücksritter_1_000000000001_v1" oder... Ja, was eigentlich? Optimaler Weise hätte man Fachwissen, wie man so etwas angeht, damit die Namenskonventionen von Anfang an dazu geeignet sind, die Prüfung der Zeit zu bestehen.

Nehmen wir mal an, wir hätten einen geniale Konvention entdeckt, mit der ich meine Assets verständlich und systematisch sinnvoll benennen kann. Kehren wir dann zurück zu unserem Asset Index in ChatGPT. In der aller einfachsten Form hätte ich dann eine Liste mit den genial und eindeutig bezeichneten Assets. Aber auch ChatGPT braucht Kontext, um zu verstehen, welche dieser Assets für die Umsetzung seines Prompts nützlichen Kontext liefert, den es dann von mir aus der externen Asset Library zum Hochladen in den Chat anfordert.

Aber welchen Kontext? Im Falle von Charakteren wäre das Asset z.B. DAS Standard-Bild des Charakters, dem wir für dieses Beispiel mal die "eindeutige Bezeichung"Max_Mustermann_Glücksritter_01_0001_v1" geben. In meiner externen Asset Library liegt das File z.B. unter C://Midgard/Kampagne_1/Visual_Assets/Charaktere/. Kann ich als Mensch so verstehen, nachvollziehen und finden (oder z.B. nach dem Namen des Assets suchen, was ich aufgefordert werde, in den Chat hochzuladen). Soweit so gut - ich als Mensch werde das Asset in meiner externen Asset Library finden, wenn ich danach gefragt werde.

Doch zurück: Woher weiß ChatGPT, um was es sich bei "Max_Mustermann_Glücksritter_01_0001_v1" überhaupt handelt? Ich könnte theoretisch ja auch ein Foto eines abgerosteten PKW-Auspuffs so benennen... Auch der Asset Index muß also eine Struktur haben - und diese Struktur muß ChatGPT verstehen. Dafür braucht ChatGPT neben dem eindeutigen Identifier des Assets Meta-Informationen. Je sinnvoller (aus ChatGPT-Sicht) diese Meta-Informationen sind, desto mächtiger wird der Asset Index innerhalb von ChatGPT, um die richtigen benötigten Kontext-Informationen für den Upload anzufordern.

Ich gebe mal eines von diversen (mich allesamt bisher nicht überzeugenden) Beispielen, was ChatGPT für einen Asset Index-Eintrag ausgespuckt hat. Dabei geht es hier jetzt nicht um einen der Charaktere sondern einen der Räume des Gasthofs:

ID: A017
Name: Heated Single Room – Inn "Goldener Hirsch"
Type: Room Archetype
Building: Inn "Goldener Hirsch"
Features: Fireplace south wall, single arched window east wall
Version: v1

"ID" ist unsere eindeutige laufende Nummer. "Name" bezeichnet einen Zimmer-TYP, nicht ein bestimmtes Zimmer. Das ist wichtig. "Type": Bezeichnet den Typ des Raumes - und hier wird es abermals kompliziert, wie wir noch sehen werden. ChatGPT "denkt" ganz anders als wir. Es handelt sich um einen "Room Archetype", soll heißen einen "Standard-Vorlage" für ein beheiztes Einzelzimmer (von denen es im Gasthof ein Dutzend geben mag...). "Building" sagt ChatGPT, in welchem spezifischen Gebäude sich dieser Raum-TYP befindet. Unter "Features" sollte es maximal fünf Kern-Merkmale geben, an die ChatGPT AUF JEDEN FALL GEBUNDEN ist, wenn es diesen Raum-Typ erdenkt: Kamin bei diesem Zimmertyp IMMER im Süden, genau EIN Bogenfenster bei diesem Zimmertyp IMMER in der Ostwand. Das Bild, welches für diesen Zimmer-TYP in der externen Asset-Library hinterlegt ist, entspricht dabei NICHT etwa dem endgüligen Bild des Zimmers, sondern es ist nur ein Bild, was sich auf die wesentlichsten Merkmale reduziert. Da sind nicht alle Möbel drin, es fehlen die grünen Vorhänge usw. Informationen über derartige Dinge fänden sich dann in einem anderen Asset, was z.B. in Textform die normale Standard-Einrichtung von Zimmern im Gasthof beschreibt.

Im Prinzip muß sich die KI die Struktur des Asset Index meiner Ansicht nach selbst zusammenbauen, da ich ja gar nicht erfasse, mit welcher Struktur sie "arbeiten" kann. Was für eine Struktur sie oben im Beispiel für einen Raum-TYP ausgespuckt hat, mag vielleicht brauchbar sein. Taugt aber so vielleicht weniger für Charaktere, Gegenstände oder sonst was... Doch zurück:

Wir erinnern uns an unseren Prompt:
"Charakter A und C sind in Raum 13 und brüten über einer Landkarte. Schankmaid 3 kommt herein und bringt Wein."

In unserer externen Asset Library gibt es vielleicht eines, was Kontext zu den Raumnummern gibt. Daraus ergibt sich, daß Raum 13 dem Zimmer-TYP "Beheiztes Einzelzimmer" entspricht. Ein anderes Asset in unserer Library beschreibt die Einrichtung in Gästezimmern, weitere die Charaktere und Schankmaiden. Aufgrund des Asset Index IN ChatGPT wird es mir dann sinngemäß sagen: "Ich baue Dir Dein Bild. Lade mir dafür "Max_Mustermann_Glücksritter_01_0001_v1", "Heated Single Room – Inn "Goldener Hirsch" A017 v1", ... hoch. Aus dieser maßgeschneiderten Kontext-Melange wird dann das gepromptete Bild "komplett neu" erschaffen. Weil ich den Kontext dabei jedoch in einer für das "Verständnis" von ChatGPT optimierten Form füttere, bekomme ich "konsistente" Ergebnisse. D.h. der Charakter hat immer das "richtige" Gesicht, die Abmessungen des Raumes stimmen, der Kamin ist an der richtigen Stelle, die richtigen Möbel sind drin und die Vorhänge grün. Dabei ist es dann "egal", ob ich im Prompt Raum 13 oder Raum 19 wähle, solange dies ein beheiztes Einzelzimmer ist.

Wenn es nur so einfach wäre...

Wir haben schon bemerkt: ChatGPT sehnt sich nach eindeutigen Ankern (Anchor) und Schlüsselmerkmalen, um die herum es dann "kreativ ausschmücken" kann. Die Anker sind entscheidend dafür, daß nach jedem "völlig neuen kreativen Prozeß" am Ende halbwegs verläßlich ein fast gleiches Ergebnis herauskommt. Aber woher soll ich denn wissen, was für ChatGPT die entscheidend wichtigen Anker sind, die meine Bilder in meiner Asset Library tunlichst berücksichtigen und beinhalten sollten? Dazu kann man Chat-GPT fragen. Im Falle von Charakteren sind dies vor allem die Gesichtszüge und dabei teils ziemlich spezifische Elemente wie Kieferform, Art/Position der Wangenknochen usw. Bei Assets, die unseren Glücksritter betreffen, habe ich dann z.B. ein Textfile, was haargenau diese Elemente beschreibt (die man ChatGPT zuvor aus einer geeigneten Characterabbildung extrahieren lassen kann). Weil Bilder aber mehr als Worte sagen, ist (am besten) ein Referenzbild mit sehr guter Qualität des Gesichts dabei auch essentiell - der Anchor bzw. DAS "Ankerbild" des Charakters, von exakt diesem er immer wieder bei jedem neuen Bild des Charakters ausgeht bzw. während dessen Erschaffung darauf zurückgreift.

Was bei all dem dahinter zu stehen scheint:
Mir kommt es nicht so vor, als wäre ChatGPT glücklich über ein präzises Bild im Endstadium für jeden Raum des Gasthofs.
Vielmehr wünscht es sich "Muster" (Kernelemente eines Raumtyps, Wiederkehrende Einrichtungsgegenstände in jedem Raum, usw. usf.).
Bilder im Endstadium als Referenz erlauben mit der Fülle an Details mehr Ansatzpunkte zum "hallzuinieren". Eine Reihe von Mustern hält den Kontext in einem kontrollierteren Rahmen und sorgt somit für bessere und replizierbare Konsistenz im Ergebnis.

Für mich ist die (vorübergehende) Erkenntnis, das ChatGPT bzw. generative KI in völlig anderen "Denkstrukturen" unterwegs ist, als ich es als menschlicher Spielleiter wäre, der ein Gebäude zeichnet und erschafft. Um die KI dazu zu bringen, das zu tun, was man möchte, muß man sie mit Informationen in einer Form bedienen, mit denen sie "umgehen" kann. Da die eigenen und die KI "Denkstrukturen" so unterschiedlich sind, ist es in meinen Augen so unheimlich schwer, sie "richtig" zu füttern. Denn dies setzt ja voraus, daß man die "Denkstrukturen" der KI überhaupt erst einmal versteht.

Davon bin ich weit entfernt...
Es kann auch sehr gut sein, daß ich mit manchen meiner hier geschilderten Einschätzungen völlig daneben liege. Ich bin kein Fachmann, sondern beschäftige mich seit einer Woche interessiert mit dem Thema.

Mein Eindruck ist, wenn man es "vernünftig" und "langfristig" angehen will, dann wird es verdammt kompliziert, sofern man kein Fachwissen hat, wie man mit solchen Dingen umgeht.

Könnte ja sein, daß die KI hier in den kommenden Jahren enorme Fortschritte macht und diese Herausforderungen (aus menschlicher Perspektive) besser angeht.

Für's Erste bin ich im Zweifel, ob es den Aufwand lohnt, eine "vernünftige" und "langfristige" Herangehensweise zu entwickeln oder ob man es zunächst einfach mal bei den einfachen Spielereien beläßt in der Hoffnung, daß sich in ein, zwei Jahren das Problem "von selbst löst". Zumindest war die Beschäftigung mit all diesen Problemen, auf die man als Laie und Anfänger dann doch sehr schnell trifft, wenn man Dinge zu hinterfragen beginnt, äußerst interessant - wenn auch nicht befriedigend im Sinne von "instant gratification"...

Bearbeitet (13. Februar13. Feb von Francesco di Lardo)

Zitieren

1

report

13. Februar13. Feb

Vor 48 Minuten, Francesco di Lardo schrieb:
damit die Namenskonventionen von Anfang an dazu geeignet sind, die Prüfung der Zeit zu bestehen.

Ich würde das hierarchisch in der Art eines Datenmodells aufbauen. Also z.B. "Figuren_Gruppe_Name".

Zitieren

report

13. Februar13. Feb

Die zweiten Korrekturen haben es ungefähr da hin gebracht, wo ich hin wollte - oder zumindest, wo ich es ganz akzeptabel finde. Ich hatte auch keine bessere Vorstellung im Kopf und ich muss mich in die Typen ja nicht verlieben. Erfolgreich waren konkrete Anweisungen wie "Die Haut heller" oder "Die Wangen runder".

Zitieren

report

13. Februar13. Feb

Vor 17 Minuten, Ma Kai schrieb:
Ich würde das hierarchisch in der Art eines Datenmodells aufbauen. Also z.B. "Figuren_Gruppe_Name".

Wichtig ist, daß die Bezeichnung Deines Assets (Bild, PDF) auf Dauer unverändert bleibt.

Man kann natürlich einen Pfadnamen gewissermaßen in einen Dateinnamen transferieren. Aber pfadstrukturähnliche Dateinamen haben natürlich ein Problem, wenn Du im nachhinein erkennst, daß Du Dein System verändern willst. Solagen die Bezeichnung des Assets unverändert bleibt, kannst Du Deine externe Pfadstruktur ändern und wirst Dein Asset trotzdem finden. Wenn die Struktur im Dateinamen liegt, den Du nicht ändern kannst, dann kannst Du im Grunde auch keine Strukturänderungen vornehmen, sollten sich diese als nötig erweisen.

Vor dem Hintergrund bin ich zum Schluß gekommen für die Asset-Benennung:
Drei Bestandteile:
a) Etwas "Sprechendes", was mir als Mensch die Identifikation erleichtert.
b) Etwas "Eindeutiges", die laufende ID-Nummer für die Maschine
c) Die Versionsangabe, vor dem Hintergrund, daß ich für die KI einen Anker haben will, auf den sie sich in der Sache bezieht. Wenn dieser sich fortentwickelt, baucht es die Versionsnummer (Also nicht zwei aufgeteilte Mode-Styleguides für ein Adelshaus, sondern genau eines, was zu einem gegebenen Zeitpunkt Gültigkeit hat. Gibt es mehrere Anker oder überholte, dann wird dies im Ergebnis die KI-Resultate verwischen.

Zitieren

report

KI Prompts Bildgestaltung- Konkrete Tipps zur Umsetzung

Hervorgehobene Antworten

Nimm an der Diskussion teil

Kürzlich Online 0

Wichtige Informationen

Konto

Navigation

Suche

Browser-Push-Nachrichten konfigurieren

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)