Zamiana manekina na awatara AI. Nano Banana i ComfyUI

Cel projektu to zamiana manekina na fotorealistyczną postać oraz lekka modyfikacja tła. Główna trudność polega na nienaruszalności ubrania. Materiał, krój i detale muszą pozostać w stu procentach oryginalne.

Muszę podkreślić różnicę względem klasycznej techniki ghost mannequin: tamta metoda wymaga wykonania zdjęcia ubrania na manekinie, a następnie usunięcia manekina w postprodukcji tak, żeby odzież „unosiła się” jako pusta forma. Tutaj robimy coś odwrotnego – interesuje nas zamiana manekina na modelkę AI, przy czym oryginalne ubranie pozostaje na postaci. Cel jest inny, efekt jest inny, ale wyzwanie dotyczące zachowania odzieży jest identyczne.

W tekście pokazuję, jak powstaje taki awatar. Zestawiam efekty z chmurowego generatora Nano Banana z pracą w środowisku lokalnym (ComfyUI z modelami Z-Image Turbo i Flux). Tekst opisuje stan technologii z kwietnia 2026 roku.

Oryginalne zdjęcie produktowe koszuli i jeansów na plastikowym manekinie, przygotowane do zamiany na awatara AI.

Fotorealistyczna wirtualna modelka wygenerowana w ComfyUI. Oryginalne ubranie z manekina pozostało nienaruszone dzięki użyciu maski i ręcznym korektą.

Fotografia źródłowa i efekt końcowy. Z lewej klasyczny manekin produktowy, z prawej wygenerowany awatar z zachowaniem w 100% oryginalnego kroju i wzoru odzieży.

Nano Banana: wersja podstawowa (2) i Pro

Zanim przejdę do pracy, uporządkujmy kwestię samego narzędzia. Nano Banana to generator obrazów zintegrowany z czatem Gemini od Google (dostępny pod adresem gemini.google.com). Występuje w dwóch wariantach:

wersja 2 (podstawowa) – lekki model zoptymalizowany pod kątem szybkości. Google pozycjonuje go jako rozwiązanie do masowych zadań o mniejszym stopniu skomplikowania. Narzędzie jest darmowe z limitami.
wersja Pro – płatny wariant o większej precyzji działania. Dokładniej analizuje długie prompty i ściśle trzyma się narzuconych wytycznych. Google przeznacza ten model do projektów, w których detal wygrywa z czasem generowania.

W teorii wariant Pro powinien doskonale radzić sobie z detalami i rozumieniem promptu. Opisuję obie wersje.

Dodam jeszcze, że choć Nano Banana radzi sobie z językiem polskim, prompty lepiej jest pisać w języku angielskim. Dla lepszej czytelności tego artykułu prompty napisałem w języku polskim.

Próba 1: Praca z Nano Banana w przeglądarce

Pozornie najszybsza metoda to wgranie zdjęcia do okna czatu i wydanie polecenia:

„Na załączonym zdjęciu zamień manekina na fotorealistyczną modelkę – miłą, sympatyczną, z czarnymi włosami. Ważne: nie zmieniaj ubrań, nie zmieniaj ustawienia postaci w kadrze, nie zmieniaj proporcji zdjęcia„.

Fotografia odzieży damskiej zaprezentowanej na klasycznym manekinie. Materiał bazowy przed rozpoczęciem cyfrowego retuszu produktowego.

Realistyczna wirtualna modelka wygenerowana przez AI, prezentująca tę samą koszulę i jeansy. Efekt zaawansowanej grafiki produktowej e-commerce zachowujący autentyczny wygląd materiału.

Wynik pracy Nano Banana. Mimo instrukcji w prompcie algorytm zmodyfikował detale ubrań, tworząc niezgodny z oryginałem produkt.

Mimo wyraźnych instrukcji w prompcie, Nano Banana – zarówno w wersji 2, jak i Pro – zmodyfikował ubranie. Jest ono bardzo podobne do oryginału, ale różnice widać nawet na „internetowym” rozmiarze zdjęcia.

Klientka, która kupiłaby koszulę na podstawie tak wygenerowanej grafiki, mogłaby mieć uzasadnione pretensje o niezgodność towaru z opisem.

Zbliżenie na oryginalny wzór damskiej koszuli w kwiaty sfotografowanej na manekinie. Wyraźnie widoczne detale materiału.

Zbliżenie na szczegóły koszuli wygenerowanej przez model Nano Banana bez użycia maski. Wzór materiału i układ kwiatów widocznie różnią się od pliku źródłowego.

Powiększenie: Po lewej oryginalna odzież, po prawej wynik pracy generatora. Widać wyraźnie, że algorytm stworzył własną interpretację wzoru na koszuli, co w przypadku e-commerce dyskwalifikuje takie zdjęcie.

Podejście 2: Nano Banana z użyciem maski

Skoro klasyczna próba wygenerowania grafiki skończyła się niepowodzeniem, wypróbuję bardziej zaawansowaną metodę, czyli pracę z maską. Polega ona na obrysowaniu obszaru, który ma zostać poddany edycji. Pozostała część obrazu powinna zostać przez algorytm zignorowana i nie podlegać zmianom.

Praca z maską. Czerwonym kolorem obrysowałem wyłącznie te elementy, które chcę zastąpić. Koszula i spodnie pozostały niezaznaczone, co teoretycznie powinno uchronić je przed ingerencją algorytmu.

Użyłem lekko zmodyfikowanego promptu:

“Na załączonym zdjęciu zamień manekina na fotorealistyczną modelkę – miłą, sympatyczną, z czarnymi włosami. Zmodyfikuj tylko zaznaczony na czerwono obszar. Ważne: nie zmieniaj ubrań, nie zmieniaj ustawienia postaci w kadrze, nie zmieniaj proporcji zdjęcia”.

Z innymi modelami do generowania grafiki, których używam lokalnie, maski zazwyczaj działają poprawnie. Niestety, w przypadku modelu Nano Banana, maska, edycja ubrań i zachowanie oryginalnych detali to wciąż problematyczne połączenie. Ubranie ponownie zostało zamienione. Choć przypomina oryginał, jest to reinterpretacja stworzona przez algorytm, a właśnie tego chciałem uniknąć.

Zamiana manekina na awatara AI. Materiał bazowy przed rozpoczęciem cyfrowego retuszu produktowego.

Wirtualna modelka wygenerowana przez Nano Banana z pomocą maski. Mimo poprawnych proporcji postaci, algorytm zignorował wytyczne i ponownie zmienił wygląd ubrania.

Wynik generowania z maską. Zamiana manekina na modelkę AI wypadła dość poprawnie, ale ubranie ponownie zostało przez model zamienione.

Powiększenie oryginalnej koszuli na manekinie, służące jako punkt odniesienia do weryfikacji pracy algorytmu.

Zbliżenie na koszulę po wygenerowaniu postaci w Nano Banana. Wzór w kwiaty został ponownie zniekształcony mimo użycia maski.

Zestawienie po użyciu maski. Z prawej strony widać, że sztuczna inteligencja zignorowała zabezpieczony obszar. Koszula ma inny wzór.

Podejście 3: Nano Banana z odwróconą maską

Skoro standardowa maska zawiodła, zmieniłem podejście. Utworzyłem maskę wyłącznie na odzieży, aby wymusić na algorytmie zmianę wszystkiego poza ubraniem, które znajduje się pod maską. Takiej metody regularnie używam w ComfyUI oraz Forge (są to środowiska służące do obsługi lokalnie zainstalowanych modeli generujących grafiki) i sprawdza się tam dobrze.

Próba z odwróconą maską. Zaznaczyłem na czerwono wyłącznie odzież, instruując algorytm, aby zmienił wszystko wokół (manekina i tło), ubranie pozostawiając bez zmian.

Zmodyfikowany prompt wyglądał tak:

„Na załączonym zdjęciu zamień manekina na fotorealistyczną modelkę — miłą, sympatyczną, z czarnymi włosami. Ważne: nie modyfikuj zaznaczonego na czerwono obszaru — to jest ubranie. Ważne: nie zmieniaj ubrań, nie zmieniaj ustawienia postaci w kadrze, nie zmieniaj proporcji zdjęcia.„

Efekt pracy Nano Banana 2. Mimo zastosowania odwróconej maski, model całkowicie zignorował wytyczne i po raz kolejny podmienił odzież, tym razem na zupełnie inną.

Efekt pracy Nano Banana Pro. Zamiast precyzyjnej edycji, bardziej zaawansowany model Nano Banana całkowicie się pogubił w interpretacji odwróconej maski.

Sposób z odwróconą maską kompletnie nie zadziałał. Nano Banana 2 zignorował maskę i wymienił ubranie, a wersja Pro całkowicie się pogubiła.

Krótkie podsumowanie pracy z Nano Banana

Opisywane problemy występują niezależnie od tego, czy korzystamy z okna przeglądarki, czy pracujemy przez API (np. w Google AI Studio lub w ComfyUI). Praca przez API jest znacznie wygodniejsza i daje pełną kontrolę nad parametrami i maską, ale wiąże się z dodatkowymi opłatami.

Moja ocena Nano Banana jest skrajnie zróżnicowana i zależy od tego, jak model zinterpretuje polecenia danego dnia. Bywa on pod tym względem mocno chimeryczny. Czasem to potężne narzędzie, innym razem przypomina mało użyteczną zabawkę, a niekiedy odmawia współpracy powołując się na bliżej nieokreślone względy bezpieczeństwa.

Celowo pomijam tu estetykę wygenerowanego awatara. Lepszy prompt zapewne dałby atrakcyjniejszy efekt, do czego wrócę w dalszej części tekstu. Mimo jasnych instrukcji model – zwłaszcza w wersji 2 – miał wyraźne trudności z zachowaniem proporcji zdjęcia, co wymuszało ręczne korekty.

W codziennej pracy przy zleceniach komercyjnych nie korzystam z Nano Banana. W tym tekście użyłem go wyłącznie w celach porównawczych.

Ręczne wycinanie w Adobe Photoshop

Wróćmy do największego wyzwania, czyli zachowania oryginalnego ubrania. Obecnie jedynym rozwiązaniem, które gwarantuje pozostawienie odzieży w stu procentach nietkniętej, jest jej ręczne wycięcie w Photoshopie.

Ręczne wycięcie odzieży w programie Adobe Photoshop to obecnie jedyna metoda dająca 100% pewności, że produkt na finalnym zdjęciu będzie identyczny z oryginałem.

Tak wycięte ubranie to nasz punkt wyjścia. Mając zabezpieczony produkt, możemy przejść do właściwej zamiany manekina na awatara, tym razem z wykorzystaniem zupełnie innych narzędzi.

Praca w ComfyUI i Z-Image Turbo

Do tego zadania użyłem środowiska ComfyUI oraz modelu Z-Image Turbo. Z-Image Turbo nie jest może idealnym wyborem pod kątem jakości wygenerowanych grafik, ale jego ogromną zaletą jest szybkość. Pozwala błyskawicznie wygenerować wiele wariantów do wyboru, a jakość obrazu jest w tym przypadku wystarczająca, tym bardziej, że zdjęcie będzie później dopracowywane w Photoshopie. Z-Image Turbo to tutaj optymalny kompromis.

ComfyUI daje z kolei elastyczność, która jest nieosiągalna dla przeglądarkowej wersji Nano Banana.

Praca w środowisku ComfyUI z modelem Z-Image Turbo. Struktura węzłów daje to, czego brakuje w generatorach chmurowych: pełną kontrolę nad obsługą maski i możliwość użycia mapy głębi (ControlNet depth) do zachowania proporcji ubrań.

W widocznym powyżej przepływie (workflow) uzyskałem to, czego brakowało w Nano Banana: przede wszystkim prawidłowo działającą obsługę maski. Przygotowałem ją jako osobny plik w Photoshopie, oznaczając obszar ubrania na czarno. Zastosowany prompt jest znacznie bogatszy. Opisuje nie tylko modelkę, ale również modyfikacje tła. Dodatkowo użyłem ControlNet z mapą głębi (depth), który pomógł zachować przestrzenną strukturę i proporcje.

Muszę jednak zaznaczyć, że obsługa masek oraz ControlNetu w modelu Z-Image Turbo pozostawia trochę do życzenia, ponieważ model ten nie został zaprojektowany do takich zadań (wrócę do tego za moment). Jego największym atutem pozostaje wydajność: wygenerowanie jednej grafiki (dla potrzeb tego projektu) na moim sprzęcie zajmuje zaledwie ok. 20 sekund, czyli znacznie szybciej niż w przypadku Nano Banana.

Wydajność Z-Image Turbo w praktyce. Grafiki wygenerowane przez ten model będą wymagać poprawek, pozwala on jednak wygenerować sporą pulę grafik w krótkim czasie. Dzięki czemu mam wybór.

Obróbka wybranego wariantu

Z puli wygenerowanych obrazów wybrałem ten, który prezentuję poniżej:

Wirtualna modelka wygenerowana w środowisku ComfyUI. Wariant przed poprawkami, widoczne delikatne zmiany na krawędziach odzieży.

Najlepszy wariant z wygenerowanej puli. Efekt jest obiecujący, ale widać, że algorytm Z-Image Turbo niedokładnie poradził sobie z analizą maski i lekko zmodyfikował odzież.

Efekt nie jest zły, ale do ideału wciąż daleko. Wzór na koszuli uległ pewnej modyfikacji, choć w zdecydowanie mniejszym stopniu niż gdy używałem Nano Banana. Przy odrobinie dobrej woli zmianę tę można by potraktować jako poprawę jakości. Poważniejszym problemem okazały się krawędzie. Potwierdziło się to, o czym wspomniałem wcześniej: Z-Image Turbo radzi sobie przeciętnie z analizą maski.

Głównym założeniem projektu było zachowanie niezmienionego ubrania. Na wygenerowanym obrazie materiał układa się inaczej, widać drobne artefakty i niedokładności. Ten problem najprościej uwidocznić, nakładając w Adobe Photoshop nową grafikę na zdjęcie źródłowe i zmieniając tryb mieszania na „różnica”.

Techniczna weryfikacja pliku w Photoshopie. Zastosowanie trybu mieszania warstw „różnica” obnaża uchybienia generatora. Jasne obszary to miejsca, w których AI zmieniło krawędzie lub całkowicie dodało własne elementy.

Białe obszary wskazują wszystkie różnice między zdjęciami. Miejscami AI przycięło nieco krawędzie, co akurat tutaj nie przeszkadza, ale w innych miejscach algorytm sporo dodał. Mocno zmodyfikowane zostały buty.

Rozwiązałem ten problem w prosty i szybki sposób: w Adobe Photoshop usunąłem wszystkie krawędzie.

Rozwiązanie problemu niedokładnych krawędzi. Zamiast żmudnie korygować krawędzie, po prostu je usunąłem. Tak przygotowany obraz stanowi idealną bazę do nałożenia ubrania z oryginalnego zdjęcia.

Na tak przygotowaną grafikę nałożyłem warstwę z oryginalnym ubraniem, wyciętą wcześniej ze zdjęcia źródłowego.

Kwestia ubrań rozwiązana. Nałożyłem wcześniej wyciętą odzież ze zdjęcia źródłowego. Zgodność z oryginałem to 99,5%, więc produkt jest w pełni bezpieczny do publikacji w e-commerce.

Kwestię ubrania mamy załatwioną — jego zgodność z oryginałem wynosi 99,5%.

Twarz, ręce i nogi

Na koniec pozostał jeszcze jeden problem do rozwiązania, a mianowicie: wygląd modelki.

Na pierwszy rzut oka proporcje wydają się poprawne, jednak twarz jest zbyt idealna i wyraźnie generyczna. To typowy mankament szybkich modeli generatywnych. Taka twarz odwracałaby uwagę od głównego elementu grafiki czyli ubrań.

Wygenerowana twarz jest ładna, może nawet zbyt ładna i wyraźnie generyczna. Ręce pozornie wyglądają poprawnie, ale brakuje im naturalności. Z nogami jest podobnie.
Żeby nadać twarzy bardziej ludzki charakter, wykonałem kolejne podejście z Nano Banana. Pominę opis powtarzania tej procedury. Mimo wielu prób i modyfikacji promptów, efekty końcowe były niezadowalające. Twarze generowane przez Nano Banana mają dość specyficzny wygląd, nie w moim guście.

Alternatywne podejście z użyciem Nano Banana. Niestety, mimo prób i modyfikacji promptów, twarze z tego chmurowego generatora mają specyficzny wygląd, który nie pasuje do mojego stylu pracy.

Połączenie Flux i Photoshopa

Do poprawy wyglądu awatara użyłem modelu Flux1 Dev. Sam w sobie ten model dość słabo radzi sobie z fotorealizmem twarzy, ma silną tendencję do generowania „plastikowej” skóry i sztucznej mimiki.

Jednak przy użyciu zmodyfikowanych checkpointów i odpowiednich LoRA, można uzyskać niezłe rezultaty. Aby nie zburzyć opracowanej wcześniej koncepcji, ustawiłem denoising (siłę działania algorytmu) na zachowawcze 30%. Przy okazji skorygowałem również ręce i nogi.

Twarz wydaje się bardziej naturalna, ale wciąż czegoś jej brakowało — była zbyt symetryczna. W Photoshopie ręcznie poprawiłem kształty i detale, dodałem trochę świateł i cieni. Biorąc pod uwagę małą rozdzielczość pliku, nie wykonywałem pełnego retuszu beauty, były to proste poprawki. Teraz twarz wygląda naturalnie i nie odwraca uwagi od ubrania, które pozostaje głównym elementem grafiki.

Ostateczny wygląd twarzy po korektach we Flux i w Photoshopie. Złamanie idealnej symetrii i praca ze światłem sprawiły, że twarz zyskała naturalny charakter. Stanowi teraz tło dla produktu i nie odwraca uwagi od oryginalnego ubrania.

Wnioski

Ktoś mógłby zapytać: dlaczego po prostu nie nałożyłem oryginalnego ubrania na grafikę z Nano Banana, zamiast budować cały proces w ComfyUI (przy użyciu modeli Z-Image Turbo i Flux)? Odpowiedź to: szybkość, elastyczność i jakość.

Na tej stronie opisuję proces wykonania pojedynczej grafiki. W praktyce tego typu prace realizuję w większych pakietach i wtedy możliwość automatyzacji całego procesu w ComfyUI jest nieoceniona.

W tym wpisie sporo miejsca poświęcam Nano Banana, nie chcę jednak, żeby z tego tekstu wynikało, że uważam ten model za słabe lub złe narzędzie. Niezależnie od wersji, jest nieoceniony przy prototypowaniu i testowaniu pomysłów. Do właściwej produkcji, szczególnie seryjnej, istnieją jednak lepsze rozwiązania.

Ten przykład pokazuje również, że obecnie nie ma jednego uniwersalnego narzędzia do wszystkiego. Kiedy w grę wchodzi AI awatar, modelka, odzież i e-commerce, najbardziej efektywne podejście to wciąż połączenie kilku różnych modeli oraz ręcznych poprawek w Adobe Photoshop.

Jeśli szukasz wsparcia przy obróbce i przygotowaniu materiałów wizualnych, sprawdź szczegóły na stronie poświęconej grafice produktowej dla e-commerce.

Podsumowanie procesu. Z lewej strony oryginalne zdjęcie produktowe, z prawej ostateczny efekt połączenia modeli generatywnych (Z-Image Turbo, Flux) oraz ręcznej korekty w Adobe Photoshop. Awatar zyskał naturalny wygląd, a oryginalna odzież z manekina została zachowana w 100%.

FAQ - Zamiana manekina na awatara AI

Czy zamiana manekina na awatara AI wpływa na wygląd ubrań?

W większości automatycznych generatorów – tak, AI ma tendencję do „poprawiania” rzeczywistości. Jednak w moim procesie pracy najistotniejsze jest zachowanie oryginalnego ubrania. Dzięki zastosowaniu masek i retuszu w Adobe Photoshop, produkt pozostaje w 100% zgodny z oryginałem, a zmianie ulega manekin.

Dlaczego wirtualna modelka AI jest lepszym rozwiązaniem niż manekin typu ghost?

Klasyczny „duch” (ghost mannequin) pokazuje tylko pustą formę ubrania. Wirtualna modelka AI nadaje produktowi ludzki charakter i kontekst, co znacząco poprawia odbiór oferty w e-commerce. Klient widzi, jak materiał układa się na sylwetce, co buduje większe zaufanie do produktu.

Czy do stworzenia grafiki produktowej AI potrzebuję specjalnej sesji zdjęciowej?

W większości przypadków nie ma takiej potrzeby. Ważne, aby produkt był dobrze wyeksponowany, a zdjęcie poprawne technicznie. W razie niedociągnięć, zdjęcie można poddać klasycznemu retuszowi.

Jakie narzędzia są najlepsze do profesjonalnej zamiany manekina na postać?

Jak napisałem w tym tekście, proste rozwiązania chmurowe bywają zawodne. W profesjonalnej pracy najlepiej sprawdza się środowisko ComfyUI (z modelami takimi jak Flux czy Z-Image, Qwen i innymi), które pozwala na pełną kontrolę nad procesem, oraz niezastąpiony Adobe Photoshop do końcowego złożenia całości i poprawek.