Budowanie prompta do Stable Diffusion Network

W tym arcie postaram się po krótce wyjaśnić, jak budować promta do Stable Diffusion Network na przykładzie podawania kolejnych charakterystyk dla generowanego obrazka. Pokażę też różnicę w generowanych grafikach poprzez dodawanie nowych elementów prompta. Więc lećmy z koksem i zapraszam do lektury.

Budowanie promptu na podstawie opisu obrazu

Możemy również użyć techniki budowania promta, gdzie będziemy skupiać się na poszczególnych elementach obrazu, i budować prompta stopniowo dodając kolejne jego składniki, czyli:

  • tematyka grafiki, kompozycja lub opis rekwizytów, sceny
  • w jakiej kategorii lub technice został wykonany obraz
  • styl autora lub strona internetowa — bardzo silnie wpływa na sposób generowania grafiki
  • rozdzielczość oraz dodatkowe parametry obrazu — ostrość, typ światła, kolor obrazu, itd.

Można np. przygotować sobie zestawienie poszczególnych parametrów i używać ich do generowania prompta:

Temat obrazu / kompozycji / rekwizytów:

  • detailed and realistic portrait of a woman with round eyes and short messy
  • a inside market with people
  • the sunny, snowy winter landscape with a cottage
  • historic castle surrounded by a picturesque garden and a stone bridge
  • group of animals gathering around a watering hole in the African savanna
  • full shot, yellow butterfly resting on a red flower in the green grass field
  • photo of a gorgeous blonde female, full body shot
  • white-black cat, fluffy fur
  • the green tree in the wild field and the sun in background

W jakiej kategorii, technice został wykonany obraz:

  • minimalist line-art
  • pens on sketch paper
  • bold graffiti mural painted
  • oil painting
  • paper-cutting artwork
  • portrait
  • digital painting
  • concept art
  • ultra realistic illustration
  • underwater
  • steampunk
  • cyberpunk
  • anime
  • modern illustration

Styl, autor (silnie oddziałuje na generowany obraz):

  • hyperrealistic
  • pop-art
  • Modernist
  • art nouveau
  • mary blair
  • vincent van gogh
  • pablo picasso
  • geometric piece art of Piet Mondrian
  • dreamy landscape painting J.M.W. Turner’s
  • pop-art of Andy Warhol
  • photorealistic, hyper-detailed drawing by Chuck Close
  • Frida Kahlo
  • John Singer Sargent
  • Alphonse Mucha

Rozdzielczość, sposób renderowania:

  • unreal engine
  • sharp focus
  • 8k
  • vray
  • panoramic landscape
  • wildlife documentary
  • 4K
  • vintage movie poster design
  • low-resolution
  • pixel art-style
  • video game character
  • digital painting for print
  • superdetailed photography

Kolorystyka, dodatkowe parametry obrazu:

  • iridescent gold
  • silver
  • vintage dramatic light
  • de-noise
  • sharp contrasts
  • dappled light
  • soft, monochromatic natural light
  • shallow depth of field
  • long-exposure night shot
  • capturing the movement
  • dark tones
  • high shutter speed
  • freezing action
  • vivid colors
  • warm colors
  • golden hour
  • diffused light
  • warm hues
  • dramatic
  • silk
  • expansive
  • low angle shot
  • god rays
  • psychedelic

Poniżej kilka przykładów, gdzie do prompta dodajemy poszczególne elementy i jak to wychodzi w praktyce. Parametry generowanej grafiki:

  • model: Stable Diffusion v1.5
  • rozmiar: 512×512px
  • steps: 50
  • guidance scale: 7.5
  • seed: 99999

Będą same kotki

Zaczynamy od prostego prompta:

  • white-black cat, fluffy fur

Dodajemy technikę/kategorię:

  • white-black cat, fluffy fur | oil painting

  • white-black cat, fluffy fur | concept art

  • white-black cat, fluffy fur | cyberpunk

  • white-black cat, fluffy fur | modern illustration

  • white-black cat, fluffy fur | portrait

Dodajemy artystę/styl:

  • white-black cat, fluffy fur | portrait | vincent van gogh

  • white-black cat, fluffy fur | portrait | pablo picasso

  • white-black cat, fluffy fur | portrait | pop-art of Andy Warhol

  • white-black cat, fluffy fur | portrait | hyperrealistic

Dodajemy rozdzielczość, sposób renderowania:

  • white-black cat, fluffy fur | portrait | hyperrealistic | sharp focus

  • white-black cat, fluffy fur | portrait | hyperrealistic | wildlife documentary

  • white-black cat, fluffy fur | portrait | hyperrealistic | pixel art-style

  • white-black cat, fluffy fur | portrait | hyperrealistic | superdetailed photography

Jak można zauważyć w tym przykładzie, otrzymaliśmy 3 grafiki podobne do siebie. Wynika to z tego, że konwersja tekstu do latent space przez enkoder dała podobny obraz wejściowy, na który został nałożony taki sam szum.

Dodajemy kolorystykę oraz dodatkowe parametry obrazu:

  • white-black cat, fluffy fur | portrait | hyperrealistic | superdetailed photography | vivid colors

  • white-black cat, fluffy fur | portrait | hyperrealistic | superdetailed photography | long-exposure night shot

  • white-black cat, fluffy fur | portrait | hyperrealistic | superdetailed photography | low angle shot

  • white-black cat, fluffy fur | portrait | hyperrealistic | superdetailed photography | psychedelic