Budowanie prompta do Stable Diffusion Network
W tym arcie postaram się po krótce wyjaśnić, jak budować promta do Stable Diffusion Network na przykładzie podawania kolejnych charakterystyk dla generowanego obrazka. Pokażę też różnicę w generowanych grafikach poprzez dodawanie nowych elementów prompta. Więc lećmy z koksem i zapraszam do lektury.
Budowanie promptu na podstawie opisu obrazu
Możemy również użyć techniki budowania promta, gdzie będziemy skupiać się na poszczególnych elementach obrazu, i budować prompta stopniowo dodając kolejne jego składniki, czyli:
- tematyka grafiki, kompozycja lub opis rekwizytów, sceny
- w jakiej kategorii lub technice został wykonany obraz
- styl autora lub strona internetowa — bardzo silnie wpływa na sposób generowania grafiki
- rozdzielczość oraz dodatkowe parametry obrazu — ostrość, typ światła, kolor obrazu, itd.
Można np. przygotować sobie zestawienie poszczególnych parametrów i używać ich do generowania prompta:
Temat obrazu / kompozycji / rekwizytów:
- detailed and realistic portrait of a woman with round eyes and short messy
- a inside market with people
- the sunny, snowy winter landscape with a cottage
- historic castle surrounded by a picturesque garden and a stone bridge
- group of animals gathering around a watering hole in the African savanna
- full shot, yellow butterfly resting on a red flower in the green grass field
- photo of a gorgeous blonde female, full body shot
- white-black cat, fluffy fur
- the green tree in the wild field and the sun in background
W jakiej kategorii, technice został wykonany obraz:
- minimalist line-art
- pens on sketch paper
- bold graffiti mural painted
- oil painting
- paper-cutting artwork
- portrait
- digital painting
- concept art
- ultra realistic illustration
- underwater
- steampunk
- cyberpunk
- anime
- modern illustration
Styl, autor (silnie oddziałuje na generowany obraz):
- hyperrealistic
- pop-art
- Modernist
- art nouveau
- mary blair
- vincent van gogh
- pablo picasso
- geometric piece art of Piet Mondrian
- dreamy landscape painting J.M.W. Turner’s
- pop-art of Andy Warhol
- photorealistic, hyper-detailed drawing by Chuck Close
- Frida Kahlo
- John Singer Sargent
- Alphonse Mucha
Rozdzielczość, sposób renderowania:
- unreal engine
- sharp focus
- 8k
- vray
- panoramic landscape
- wildlife documentary
- 4K
- vintage movie poster design
- low-resolution
- pixel art-style
- video game character
- digital painting for print
- superdetailed photography
Kolorystyka, dodatkowe parametry obrazu:
- iridescent gold
- silver
- vintage dramatic light
- de-noise
- sharp contrasts
- dappled light
- soft, monochromatic natural light
- shallow depth of field
- long-exposure night shot
- capturing the movement
- dark tones
- high shutter speed
- freezing action
- vivid colors
- warm colors
- golden hour
- diffused light
- warm hues
- dramatic
- silk
- expansive
- low angle shot
- god rays
- psychedelic
Poniżej kilka przykładów, gdzie do prompta dodajemy poszczególne elementy i jak to wychodzi w praktyce. Parametry generowanej grafiki:
- model: Stable Diffusion v1.5
- rozmiar: 512×512px
- steps: 50
- guidance scale: 7.5
- seed: 99999
Będą same kotki
Zaczynamy od prostego prompta:
white-black cat, fluffy fur
Dodajemy technikę/kategorię:
-
white-black cat, fluffy fur | oil painting
-
white-black cat, fluffy fur | concept art
-
white-black cat, fluffy fur | cyberpunk
-
white-black cat, fluffy fur | modern illustration
-
white-black cat, fluffy fur | portrait
Dodajemy artystę/styl:
-
white-black cat, fluffy fur | portrait | vincent van gogh
-
white-black cat, fluffy fur | portrait | pablo picasso
-
white-black cat, fluffy fur | portrait | pop-art of Andy Warhol
-
white-black cat, fluffy fur | portrait | hyperrealistic
Dodajemy rozdzielczość, sposób renderowania:
-
white-black cat, fluffy fur | portrait | hyperrealistic | sharp focus
-
white-black cat, fluffy fur | portrait | hyperrealistic | wildlife documentary
-
white-black cat, fluffy fur | portrait | hyperrealistic | pixel art-style
-
white-black cat, fluffy fur | portrait | hyperrealistic | superdetailed photography
Jak można zauważyć w tym przykładzie, otrzymaliśmy 3 grafiki podobne do siebie. Wynika to z tego, że konwersja tekstu do latent space przez enkoder dała podobny obraz wejściowy, na który został nałożony taki sam szum.
Dodajemy kolorystykę oraz dodatkowe parametry obrazu:
-
white-black cat, fluffy fur | portrait | hyperrealistic | superdetailed photography | vivid colors
-
white-black cat, fluffy fur | portrait | hyperrealistic | superdetailed photography | long-exposure night shot
-
white-black cat, fluffy fur | portrait | hyperrealistic | superdetailed photography | low angle shot
-
white-black cat, fluffy fur | portrait | hyperrealistic | superdetailed photography | psychedelic
Możliwość komentowania jest wyłączona.