W tym arcie postaram się po krótce wyjaśnić, jak budować promta do Stable Diffusion Network na przykładzie podawania kolejnych charakterystyk dla generowanego obrazka. Pokaże też róznicę w generowanym grafikach poprez dodawanie nowych elementów prompta. Wieć lećmy z koksem i zapraszam do lektury.

Budowanie promptu na podstawie opisu obrazu

Możemy również użyć techniki budowania promta, gdzie będziemy skupiać się na poszczególnych elementach obrazu, i budować promta stopniowo dodają poszczególne elementy promta czyli:
– tematyka grafiki, kompozycja lub opis rekwizytów, sceny
– w jakiej kategorii lub technice został wykonany obraz
– styl autora lub strona internetowa – bardzo silnie wypływa na sposób generowania grafiki
– rozdzielczość oraz dodatkowe parametry obrazu – ostrość, typ światła, kolor obrazu, itd

Można np. przygotować sobie zestawienie poszczególnych parametrów i używać ich do generowania prompta:

Temat obrazu/kompozycji/rekwizytów:
– detailed and realistic portrait of a woman with round eyes and short messy
– a inside market with people
– the sunny, snowy winter landscape with a cottage
– historic castle surrounded by a picturesque garden and a stone bridge
– group of animals gathering around a watering hole in the African savanna
– full shot, yellow butterfly resting on a red flower in the green grass field
– photo of a gorgeous blonde female, full body shot
– white-black cat, fluffy fur
– the green tree in the wild field and the sun in background

W jakiej kategorii, technice została wykonany obraz:
– minimalist line-art
– pens on sketch paper
– bold graffiti mural painted
– oil painting
– paper-cutting artwork
– portrait
– digital painting
– concept art
– ultra realistic illustration
– underwater
– steampunk
– cyberpunk
– anime
– modern illustration

Styl, autor (silnie oddziałowywuje na generowany obraz):
– hyperrealistic
– pop-art
– Modernist
– art nouveau
– mary blair
– vincent van gogh
– pablo picasso
– geometric piece art of Piet Mondrian
– dreamy landscape painting J.M.W. Turner’s
– pop-art of Andy Warhol
– photorealistic, hyper-detailed drawing by Chuck Close
– Frida Kahlo
– John Singer Sargent
– Alphonse Mucha

rozdzielczość, sposób renderowania:
– unreal engine
– sharp focus
– 8k
– vray
– panoramic landscape
– wildlife documentary
– 4K
– vintage movie poster design
– low-resolution
– pixel art-style
– video game character
– digital painting for print
– superdetailed photography

kolorystyka, dodatkowe parametry obrazu:
– iridescent gold
– silver
– vintage dramatic light
– de-noise
– sharp contrasts
– dappled light
– soft, monochromatic natural light
– shallow depth of field
– long-exposure night shot
– capturing the movement
– dark tones
– high shutter speed
– freezing action
– vivid colors
– warm colors
– golden hour
– diffused light
– warm hues
– dramatic
– silk
– expansive
– low angle shot
– god rays
– psychedelic

Poniżej kilka przykładów gdzie do prompta dodajemy poszczególne elementy i jak to wychodzi w praktyce, parametry generowanej grafiki:
– model: Stable Diffusion v1.5
– rozmiar: 512x512px
– steps: 50
– guidance scale: 7.5
– seed: 99999

Będą same kotki

Zaczynamy od prostego promtpa:

  • white-black cat, fluffy fur

Dodajemy technikę/kategorię:
– white-black cat, fluffy fur | oil painting

– white-black cat, fluffy fur | concept art

– white-black cat, fluffy fur | cyberpunk

– white-black cat, fluffy fur | modern illustration

– white-black cat, fluffy fur | portrait

Dodajemy artystę/styl:
– white-black cat, fluffy fur | portrait | vincent van gogh

– white-black cat, fluffy fur | portrait | pablo picasso

– white-black cat, fluffy fur | portrait | pop-art of Andy Warhol

– white-black cat, fluffy fur | portrait | hyperrealistic

Dodajemy rozdzielczość, sposób renderowania:
– white-black cat, fluffy fur | portrait | hyperrealistic | sharp focus

– white-black cat, fluffy fur | portrait | hyperrealistic | wildlife documentary

– white-black cat, fluffy fur | portrait | hyperrealistic | pixel art-style

– white-black cat, fluffy fur | portrait | hyperrealistic | superdetailed photography

Jak można zauważyć w tym przykładzie otrzymaliśmy 3 grafiki podobne do siebie. Wynika to z tego, że konwersja tekstu do latent space przez enkoder dał podobny obraz wejściowy na który został nałożony taki sam szum.

Dodajemy kolorystykę oraz dodatkowe parametry obrazu:
– white-black cat, fluffy fur | portrait | hyperrealistic | superdetailed photography | vivid colors

– white-black cat, fluffy fur | portrait | hyperrealistic | superdetailed photography | long-exposure night shot

– white-black cat, fluffy fur | portrait | hyperrealistic | superdetailed photography | low angle shot

– white-black cat, fluffy fur | portrait | hyperrealistic | superdetailed photography | psychedelic