Tworzenie grafiki AI - Generatywna grafika na lokalnym komputerze

W tym artykule skupie się na tworzeniu grafiki AI przy użyciu generatywnych modeli działających lokalnie na komputerze, takich jak Stable Diffusion (w wersjach 1.5, XL i 3.0) oraz Flux (Flux1.dev i Flux1.schnell). Opisane poniżej informacje oparte są na stanie wiedzy z września 2024 roku.

Czym jest Stable Diffusion i Flux?

Stable Diffusion i Flux to zaawansowane modele głębokiego uczenia, które potrafią generować obrazy na podstawie tekstowych opisów, czyli tzw. promptów. Proces ten polega na tym, że z losowego szumu powstaje obraz zgodny z treścią promptu. Idea tworzenia obrazów z szumu może brzmieć abstrakcyjnie. Jednak istotne jest, że to działa – i to działa dobrze .

Stable Diffusion - Grafika z tekstu.

Wymagania sprzętowe niezbędne do tworzenia grafiki AI

Jedną z głównych zalet Stable Diffusion i Flux jest to, narzędzia te działają na lokalnym komputerze. Dzięki temu mamy większą kontrolę nad procesem generowania grafiki, wyeliminowana zostaje konieczność przesyłania danych przez Internet.  W przypadku modeli XL i 1.5 oraz Flux, możemy uniknąć cenzury. Aby jednak uruchomić te modele, musimy posiadać niezbędne zasoby sprzętowe:

1. Karta graficzna. Stable Diffusion jak i Flux korzysta z VRAM-u i CUDA. Dlatego niezbędna jest karta graficzna GeForce RTX. Im mocniejszy układ, tym lepiej. Niestety produkty AMD i Intela nie bardzo nadają się do tworzenia grafiki AI. Rozsądne minimum w przypadku Stable Diffusion to 8 GB VRAM na karcie. Z mojego doświadczenia wynika, że w przypadku Flux 8GB to absolutne minimum.
Choć teoretycznie (w przypadku Stable Diffusion) możliwe jest generowanie grafiki przy pomocy CPU, czas przetwarzania jest zbyt długi, a jakość obrazu spada, co czyni to rozwiązanie mało praktycznym.

2. Miejsce na dysku. Narzędzia do lokalnego generowania grafik potrzebują sporo przestrzeni dyskowej, 200 GB to minimum, a docelowo należało by poświęcić nawet 500 GB. Dla komfortu pracy wskazane było aby instalację dokonać na szybkim dysku SSD.

3. Zużycie energii. Generowanie obrazów może obciążać komputer w podobny sposób jak granie w zaawansowane gry, co wiąże się z zużyciem energii. Planując dłuższe sesje twórcze, warto pamiętać o wpływie na rachunki za prąd.

Alternatywne rozwiązania chmurowe.

Alternatywą dla baraku odpowiedniej karty graficznej są rozwiązania chmurowe typu Google-Colab oraz komercyjne serwisy umożliwiające generowanie grafiki. Jednak moim zdaniem takie rozwiązanie jest sprzeczne z główną zaletą Flux i Stable Diffusion czyli możliwością generowania grafik na lokalnym komputerze.

 

Tworzenie grafiki AI

Jak rozpocząć - instalacja.

Instalacja modeli takich jak Stable Diffusion lub Flux może być trochę skomplikowana, ale istnieją narzędzia, które ułatwiają ten proces.  Pinokio oraz Stability Matrix są menadżerami pakietów, które umożliwiają instalację praktycznie jednym kliknięciem. Zaletą tych rozwiązań jest eliminacja potencjalnych problemów, które mogą pojawić się przy ręcznej instalacji.
Osobiście preferuję Pinokio ze względu na łatwy dostęp do innych produktów AI, jednak w żadnym wypadku nie twierdzę, że Stability Matrix jest gorsze. Stability Matrix jest „bardziej skupione” na generowaniu grafiki.

Wybór interfejsu

Po instalacji modeli AI kolejnym krokiem jest wybór interfejsu. Oto trzy popularne opcje:

  • Fooocus: Gorąco polecił bym początkującym użytkownikom, ale niestety Fooocus obsługuje tylko Stable Diffusion XL, co czyni trochę przestarzałym. Oferuje prostotę użytkowania, skupiając się bardziej na tworzeniu grafiki niż na technicznych aspektach. Fooocus posiada spore możliwości konfiguracyjne, są one ukryte w Developer Debug Mode. Poza prostotą zaletami Fooocus-a są moim zdaniem nieźle działający Inpaint z obsługą maski (ustawienia dostępne w Developer Debug Mode) oraz doskonały w niektórych zastosowaniach upscaler.

  • Forge (nowsze rozwiniecie Automate1111) jest bardziej „techniczny” niż Fooocus, posiada również o wiele większe możliwości. Forge pozwala na korzystanie ze starszego modelu Stable Diffusion 1.5, na Forge można używać także najnowszego Flux. Jest bardzo dobrze zoptymalizowany, na moim sprzęcie tworzenie grafiki AI trwa ok 30 % krócej niż na Fooocus czy ConfyUI. Gorąco polecam zarówno początkującym jak i zaawansowanym.

  • ComfyUI: to bardzo techniczny interfejs oparty na węzłach (nodach). Jeśli ktoś miał do czynienia z Davinci Resolve lub Blenerem to sama idea nod-ów nie powinna być obca. ConfyUI można ustawić do korzystania praktycznie ze wszystkiego łącznie z Stable Diffusion 3.0 Stable Cascade i Flux. Główną zaletą ConfyUI jest elastyczność, znacząco rozszerzająca możliwości. Jeśli ktoś poświęci czas i zgłębi tajniki ConfyUI to możliwości generowania jak również edycji stają się prawie nieograniczone. Narzędzie to sprzyja wszelkim próbą i zachęca do eksperymentowania. Znakomicie nadaje się do automatyzacji generowania grafik.
    W sieci znajdziemy strony z których można pobrać gotowe szablony (Workflow) dla ConfyUI
Tworzenie grafiki AI . Portrety wygenerowane w Stable Diffusion XL, wykończenie w Adobe Photoshop.

Tworzenie grafiki AI - tworzenie promptów

Kluczowym elementem jest prompt, czyli tekstowe polecenie opisujące to co chcemy zobaczyć  Generowanie grafiki jest szybkie i proste, ale tylko wtedy gdy celem jest stworzenie obrazu o wysokim poziomie ogólności. Na przykład, wprowadzenie promptu “beautiful woman” spowoduje wygenerowanie grafiki przedstawiającej losową kobietę. Taki obraz może przedstawiać kobietę w różnym wieku, o różnym wyglądzie, w różnorodnym stroju i na różnorodnym tle itd. Czyli dostaniemy to o co prosiliśmy, piękną kobietę, pozostałe elementy grafiki będą losowe.

Jednakże, jeśli naszym celem jest stworzenie bardziej spersonalizowanego obrazu, na przykład kobiety w określonym wieku, o specyficznym typie urody, z określonym kolorem włosów, znajdującej się w pomieszczeniu urządzonym w konkretnym stylu, z określonymi przedmiotami w tle, to proces tworzenia prompt-u staje się bardziej złożony. W takim przypadku, zaczynam od napisania bardziej ogólnego promptu, stopniowo dodając do niego więcej szczegółów i sprawdzając po wprowadzeniu zmian, czy wygenerowane obrazy spełniają moje oczekiwania.

Tutaj występuje spora różnica między Stable Diffusion a Flux. Flux zdecydowanie lepiej radzi sobie z bardziej szczegółowymi scenami na przykład gdy zleży nam aby drugi plan grafiki był zgodny z naszymi oczekiwaniami.
Przy pierwszym moim zetknięciu się z Flux, aż się zdziwiłem, przez chwilę nawet wydawało mi się, że Flux potrafi czytać w myślach. Aż tak dobrze nie jest, ale przyznać muszę grafiki których nie udawało mi się wygenerować w Stable Diffusion dla Flux nie stanowiły problemu.

Bardzo istotny jest parametr powiązany z prompt-em to Guidance Scale (występujący też pod nazwą CFG). Wartość tego parametru wpływa na to, jak bardzo generowany obraz będzie odpowiadał wprowadzonemu prompt-owi. Upraszczając parametr ten można nazwać siłą prompt-u. Im wyższa wartość parametru, tym większa zgodność obrazu z prompt-em. Przy wysokich wartościach odbywa się to jednak kosztem jakości i kreatywności grafiki.

Zarówno w Flux jak i Stable Diffusion zasada działania CFG jest taka sama, acz wartości na których operują te modele są różne

Pisanie skutecznych prompt-ów dla wymaga praktyki. Nie jest to zadanie trudne, ale najlepiej jest doskonalić tę umiejętność samodzielnie. Więcej informacji na temat tworzenia prompt-ów znajdziesz w podręczniku, do którego link znajduje się na dole strony.

Tworzenie grafiki AI

Prompt negatywny

W Stable Diffusion obok prompt-ów pozytywnych opisujących pożądane elementy, ważną rolę odgrywają prompty negatywne. Służą one do wykluczenia niepożądanych cech obrazu, znacząco wpływając na końcowy rezultat. Użycie prompt-ów negatywnych nie jest obowiązkowe, ale warto ich używać. Dobrym pomysłem jest stworzenie bazowego promptu negatywnego dla różnych typów grafik, który można następnie modyfikować w zależności od potrzeb. Prompty negatywne często zawierają ogólne zaprzeczenia (np. „worst quality”, „low quality”).  Zawierają też wykluczenia typowych problemów z jakimi boryka się Stable Diffusion (np. „bad proportions”, „fused fingers”,”too many fingers).

Natomiast we Flux promty negatywny nie występuje, rzeczy których nie chcemy należy ująć w prompcie pozytywnym. W przypadku Flux można pominąć różne dolegliwości doskwierające Stable Diffusion np. nie ma potrzeby wpisywania do promptu: fused fingers”,”too many fingers, „worst quality”, „low quality”. Flux jest nowszy i z problemami „nadmiarowych palcu” i złymi proporcjami radzi sobie lepiej.

Tworzenie grafiki AI - Checkpoint

Po zainstalowaniu modelu do generowania grafiki AI i interfejsu użytkownika, otrzymujemy dostęp do „fabrycznie” zainstalowanych checkpoint-ów. Checkpoint to ogromny plik (ponad 6 GB dla modelu SD XL i nawet ponad 20GB dla Flux) zawierający stan modelu AI w konkretnym momencie treningu, czyli jak nazwa wskazuje punkt kontrolny (chceckpoint).
W praktyce oznacza to, że dany checkpoint może być lepiej wytrenowany w jednej dziedzinie, np. architekturze, a gorzej radzić sobie z innymi, jak portrety. Na przykład wraz z instalacją Fooocus standardowo otrzymujemy checkpoint JuggernautXL. Jest wszechstronny model dobry dla różnych rodzajów grafiki, choć w specjalistycznych zastosowaniach istnieją lepsze alternatywy. Dla generowania np. portretów czy grafik fantasy warto pobrać dedykowany checkpoint.

Tworzenie grafiki AI

Tworzenie grafiki AI Lora

Lora jest to najskuteczniejsza metoda modyfikacji charakteru grafiki. Działa jako dodatek (osobny plik) do modelu, który pozwala uzyskać określony styl lub skupić się na wybranych elementach w prompcie. Możliwe jest stosowanie wielu Lora jednocześnie oraz regulowanie intensywności ich wpływu na obraz, co umożliwia kontrolę nad końcowym efektem. Połączenie odpowiedniego checkpointu z dobrze dobranymi Lora może prowadzić do interesujących i unikatowych rezultatów.
Z punktu widzenia użytkownika, zarówno Checkpoint-y jak i Lora w Stable Diffusion i Flux działają tak samo.

Tworzenie grafiki AI

Tworzenie grafiki AI - ograniczenia

Mimo ogromnych możliwości, narzędzia te mają swoje ograniczeni. Oba modele bardzo dobrze się sprawdzą przy generowaniu grafik o ogólnym charakterze. Niestety generowanie konkretnych obiektów – produktów lub miejsc, gdzie istotne są szczegóły, może być problematyczne. W takich sytuacjach najlepszym rozwiązaniem jest połączenie tradycyjnych fotografii jako bazy z możliwościami generatorów AI do dodawania aranżacji lub elementów sceny (metoda InPaint). Zazwyczaj daje dużo lepsze efekty niż wypełniania generatywne z Adobe Photoshop.
W praktyce, jeśli wygenerowana grafika osiąga 60 – 70% zamierzonego efektu, uznaje to za sukces. Pozostałe 10 – 15% można dopracować w programach do edycji grafiki. Brakujące procenty to niestety ograniczenia technologii.
Wygenerowany obraz traktuje się jako półprodukt, podobnie jak zdjęcie RAW, wymagający dalszej obróbki dla uzyskania optymalnego rezultatu końcowego.

Retusz zdjęć portretowych, wygenerowane w Stable Diffusion, zdjęcie po retuszu.

Najważniejsze zagadnienia o jakich nie napisałem

Oprócz najpopularniejszego trybu text to image który głównie tu opisuję każdy z interfejsów posiada inne tryby pracy, są to:

  • Image to image, umożliwiający tworzenie nowych obrazów na podstawie istniejących z użyciem promptów i modyfikatorów.
  • Inpaint, pozwalający na wypełnienie lub zmianę wybranych obszarów grafiki.
  • Outpaint, służący do rozszerzania obrazów poza ich pierwotne granice.

Nie napisałem również o seed -ach. Seed jest liczbą która inicjuje proces generowania obrazu, upraszczając jest numer wersji obrazu. Wykorzystanie tego samego seed-a z identycznymi ustawieniami pozwala odtworzyć tę samą grafikę, co jest szczególnie przydatne przy wprowadzaniu drobnych modyfikacji w wygenerowanym obrazie który nas satysfakcjonuje.

Tematów jakie pomiąłem a wpływających na tworzenie grafik AI jest dużo więcej.

Tworzenie grafiki AI

Przyszłość i kontrowersje związane z tworzeniem grafiki AI

Kontrowersje wokół obrazów generowanych przez AI przypominają mi dawne dyskusje o fotografii mobilnej i potencjale smartfonów do zastąpienia lustrzanek. Wówczas wnioski były dla mnie jasne: oczekiwania wobec fotografii decydują o wyborze narzędzia. Dla jakości i plastyki obrazu niezbędne są duże (fizycznie) matryce i zaawansowana optyka. Smartfony pomimo że fotograficznie coraz lepsze nie są wstanie tego zapewnić bez jakiegoś przełomu technologicznego, którego kila lat temu nie było widać.
AI może stanowić przełom technologiczny w tej dziedzinie.
Jest kwestią czasu, aż jakaś firma dopracuje i umieści już istniejące już technologie w zgrabnym kompaktowym urządzeniu. Po naciśnięciu przycisku „migawki”, AI, przy pomocy smartfon-owego obiektywu, przeanalizuje i opiszę scenę (stworzy prompt) i wygeneruje zdjęcie w stylu foto-realistycznym lub jakimikolwiek innym. Nie będzie potrzebna do tego duża matryca ani wymyślny obiektyw.
Problem mocy obliczeniowej niezbędnej do generowania zdjęć może być rozwiązany przez generowanie obrazów w chmurze lub po przesłaniu do komputera.

Kontrowersje prawne

Prawnikiem nie jestem więc tylko zasygnalizuję temat. Modele takie jak Stable Diffusion 1.5 i XL są trenowane na ogromnych zbiorach danych, które mogą zawierać obrazy chronione prawami autorskimi. W związku z czym wygenerowane grafiki mogą naruszać czyjeś prawa autorskie.

W ramach testu proponuję, utworzyć grafikę na podstawie bardzo ogólnego jednozdaniowego prompt-u mającego wygenerować fotografię popularnej atrakcji turystycznej którą dobrze znamy. Na podstawie wygenerowanej grafiki samemu proszę wyrobić sobie zdanie na ten temat. Wnioski jakie wyciągniemy z tego testu nie będą miały znaczenia dla rozstrzygnięć prawnych.

Z kolei najnowsze modele takie jak Stable Diffusion 3.0 oraz Flux-dev, Flux-Schnell mają ograniczenia licencyjne, dopuszczające użycie grafik jedynie w celach edukacyjnych lub naukowych.
Do zastosowań komercyjnych są obaj producenci oferują płatne modele.
Sytuacja prawna jest niejasna i dynamiczna w w chwili gdy czytasz ten tekst, stan prawny może być inny.

Stable Diffusion - Grafika z tekstu.

Podsumowanie

Systemy do tworzenia grafiki AI stanowią przyszłość i przełomową technologię, której nie da się powstrzymać. Niezależnie od opinii i kontrowersji prawnych technologie te rewolucjonizują świat grafiki i fotografii.
Opór wobec AI w dziedzinie grafiki jest nieuzasadniony. Osoby posiadające wiedzę i doświadczenie w grafice czy fotografii powinny postrzegać te technologie jako cenne narzędzie, a nie zagrożenie. Pojęcia takie jak kompozycja, głębia ostrości, światło i cienie są i będą nadal kluczowe w procesie tworzenia grafik, nawet przy wykorzystaniu AI. Próg wejścia do świata grafiki i fotografii się nie zmieni, acz świat się zmieni.

Stable Diffusion - Grafika z tekstu.

Linki:

Stability AI – twórcy Stable Diffusion.
Pinokio – przeglądarka AI.
Stability Matrix – warte polecenia środowisko dla Stable Diffusion.
Prompt Book – trochę stary, ale dobrze opisuje podstawy.
CivitAI – największy zbiór checkpoint-ów, Lora, grafik z prompt-ami,  workfolows.
ConfyUI workflows – gotowe „szablony” dla ConfyUI

Jeśli jesteście Państwo zainteresowani zapraszam do obejrzenia przykładów, zapoznania się z zasadami współpracy i składania zleceńWięcej przykładowych zdjęć znajduje się tutaj oraz w moim portfolio.

www.fotokrr.pl – Retusz i Szparowanie zdjęć. Tel. +48 519 323 891 mail: info@fotokrr.pl , krrgrafika@gmail.com    Z A P R A S Z A M