Zapomnij o Sorze? Nowy model ChatGPT Images 2.0 może wywrócić wideo i animację do góry nogami

Zapomnij o Sorze? Nowy model ChatGPT Images 2.0 może wywrócić wideo i animację do góry nogami

Nowy model grafiki zamiast Sory – o co w ogóle chodzi i dlaczego to ważne dla twórców

Jeszcze chwilę temu wszyscy dopytywali, kiedy wreszcie „dostaniemy Sorę” i czy wideo z promptu to już za moment. I dokładnie w tym momencie OpenAI wrzuca do gry coś trochę innego: nowy model grafiki ChatGPT Images 2.0, który w praktyce może stać się ważniejszy dla twórców niż pierwsza wersja pełnoprawnego wideo.

W największym skrócie: to zintegrowany z ChatGPT model generowania obrazów, który znacznie lepiej rozumie, co do niego mówimy. Radzi sobie z układem obiektów na scenie, z gęstym tekstem na plakatach, z różnymi formatami kadrów – od super szerokich pod kinowy klimat po pionowe formaty pod Reelsy czy TikToka. Eksperci z OpenAI mówią wprost, że Images 2.0 ma wyraźnie lepiej odwzorowywać złożone polecenia, układ obiektów i gęsty tekst, a do tego utrzymywać spójność całej kompozycji.

Firma podkreśla też, że to nie jest po prostu kolejna wersja DALL·E z nową naklejką. Ten model ma być fundamentem do tworzenia assetów pod wideo, animacje, komiksy, storyboardy, a docelowo też pod generowanie całych scen filmowych. Czyli mniej zabawka do memów, bardziej narzędzie produkcyjne dla studiów kreatywnych.

Jeśli śledzisz rozwój AI w wideo, prowadzisz małe studio kreatywne, działasz w reklamie, gamedevie, ogarniasz indie projekty albo po prostu chcesz mieć przewagę jako freelancer, to ten model prędzej czy później wyląduje w twoim workflow. Tym bardziej że jest osadzony bezpośrednio w ChatGPT, więc nie trzeba żadnych dodatkowych paneli czy skomplikowanych API, żeby go dotknąć.

Cała sytuacja jest trochę komiczna: rynek wciąż próbuje ochłonąć po pierwszych demach Sory, a tu nagle na scenę wjeżdża kolejny „game changer”, który zamiast samego wideo daje coś bardziej przyziemnego – stabilny, przewidywalny generator assetów. To na nim realnie będzie stać produkcja reklam, gier czy animowanych serii, zanim wideo z promptu stanie się codziennością.

W dalszej części tekstu przejdę przez to, jak nowy model zachowuje się z perspektywy zwykłego użytkownika, pokażę konkretne zastosowania w reklamie, grach, mandze i pixel arcie, a na koniec dotknę trudniejszych tematów: deepfake’ów, praw autorskich, etyki i cenzury. Pojawią się też odniesienia do szerszego kontekstu zmian po stronie Microsoft–OpenAI oraz do tekstu o tym, czemu medyczna AI wciąż nie zastępuje lekarza pierwszego kontaktu.

Jak działa nowy model grafiki od OpenAI i co realnie zmienia w wideo, animacji, pixel arcie i mandze

Wyobraź sobie taką sytuację: potrzebuję plakatu do wydarzenia o AI. Chcę bohatera w pozie „bohater shōnen”, dynamiczny kadr, po polsku napis „Noc z AI w Warszawie”, styl mangi z lekkim cyberpunkiem. W poprzednich modelach kończyło się to tak, że tekst był przekręcony, bohater miał trzy dłonie, a napis zamiast polskiego wyglądał jak miks łaciny i losowych robaczków.

Właśnie na tym tle widać różnicę w ChatGPT Images 2.0. Model dużo lepiej interpretuje złożone prompty: rozumie, gdzie ma być postać, gdzie tekst, w jakim stylu ma być cała scena. Układ obiektów przestaje być loterią, a kolejne wersje obrazu są do siebie podobne, zamiast za każdym razem odlatywać w inny klimat.

Drugie duże usprawnienie to języki inne niż angielski. OpenAI przyznaje wprost, że wcześniejsze modele były najmocniejsze w angielskim i innych językach na alfabecie łacińskim. W Images 2.0 deklarują poprawę w renderowaniu tekstu w japońskim, koreańskim, chińskim, hindi czy bengalskim. To od razu przekłada się na świat mangi, anime-style grafik, lokalnych kampanii w Azji czy globalnych produkcji, gdzie jedne materiały muszą być po polsku, inne po japońsku, a wszystko w tym samym stylu.

Model coraz lepiej odwzorowuje nie tylko fotorealizm, ale też konkretne stylistyki. Jeśli proszę o pixel art przypominający oldschoolowe gry z SNES-a, dostaję pikselowe sprite’y, które da się wrzucić do silnika gry 2D i tylko lekko podszlifować. Gdy potrzebuję planszy komiksowej w klimacie seinen, z powtarzającym się bohaterem, ubraniem i mimiką, model jest w stanie utrzymać tę samą postać przez kilka kadrów. Z kolei dla storyboardów czy teaserów wideo mogę wygenerować szerokie kadry filmowe, z sensownym światłem i kompozycją, zamiast później ratować wszystko w postprodukcji.

Ciekawym elementem jest to, że OpenAI opisuje Images 2.0 jako pierwszy model obrazowy z funkcjami myślenia. W praktyce, gdy w ChatGPT wybieram model thinking albo pro, dzieją się trzy rzeczy. Po pierwsze, system może korzystać z wyszukiwania w sieci, żeby lepiej złapać kontekst – na przykład, jak naprawdę wygląda tradycyjna ulica w Kioto nocą. Po drugie, może wygenerować do ośmiu spójnych grafik naraz, utrzymując identycznych bohaterów i setting. Po trzecie, potrafi częściowo sprawdzać własny wynik i poprawiać oczywiste błędy, więc mniej razy trafiam na grafikę, gdzie ktoś ma sześć palców.

To nie znaczy, że model jest magikiem od wszystkiego. W oficjalnych materiałach OpenAI przyznaje, że nadal potyka się przy rzeczach, które wymagają bardzo precyzyjnego modelu świata fizycznego: instrukcje origami, zawiłe łamigłówki przestrzenne, odwrócone powierzchnie, supergęste faktury. Tam, gdzie każda strzałka i podpis muszą być idealne – skomplikowane diagramy techniczne, medyczne schematy – nadal potrzebna jest ręczna kontrola człowieka.

Najważniejsze z perspektywy twórcy jest to, że ten model nie siedzi w jakimś zamkniętym laboratorium. Jest już udostępniany użytkownikom ChatGPT, a bardziej zaawansowane funkcje z myśleniem trafiają do planów Plus, Pro i Business. Czyli jeśli i tak płacisz za narzędzie do pracy z tekstem, grafika zaczyna być naturalnym przedłużeniem tej samej platformy.

Żeby złapać szerszy kontekst, jak integracja ChatGPT z innymi narzędziami – Office, Teams, infrastruktura chmurowa – może przyspieszyć adopcję takich rozwiązań w studiach i agencjach, odsyłam do tekstu o partnerstwie Microsoft–OpenAI i zmianach na rynku pracy z AI. Tam widać, że to wszystko zaczyna się łączyć w jeden ekosystem.

Nowe możliwości dla reklamy, gier i twórców indie – od storyboardów po pełne kampanie

Wyobraźmy sobie małą agencję, która robi kampanię dla hotelu gdzieś w Azji. Klient chce serię kadrów w stylu mangi na social media, pionowe wersje pod Reelsy, poziome pod stronę www i jeszcze kilka ujęć pod mailing. W klasycznym procesie grafik spędza kilka dni na rysowaniu wersji i wariantów. Z ChatGPT Images 2.0 da się w jeden wieczór wygenerować spójny zestaw scen z tym samym bohaterem, kolorystyką i klimatem, a potem tylko wybrać najlepsze.

To zmienia rytm pracy. Storyboardy do produkcji wideo nie muszą powstawać tygodniami – kilka iteracji promptów, szybkie poprawki i całe story leży na stole. Alternatywne koncepcje kampanii do A/B testów nie wymagają angażowania trzech zespołów grafików; wystarczy kilka wariantów ustawień sceny w modelu. Dopasowanie formatów do platform też jest łatwiejsze, bo zamiast ręcznie przekadrowywać scenę, od razu prosimy model o pion, poziom i kwadrat w tej samej stylistyce.

W gamedevie i w świecie twórców indie to może być wręcz game changer. Widzę to po sobie: kiedyś robiłem mały prototyp platformówki i zrobienie kilkudziesięciu sprite’ów w jednym stylu zjadło mi trzy wieczory. Teraz wyobrażam sobie scenariusz, w którym solo-deweloper opisuje styl gry, postaci, świat, a Images 2.0 generuje bazowy komplet: bohater, przeciwnicy, tła, UI. Deweloper potem siada i dopieszcza detale, ale nie startuje od pustego pliku.

Podobnie w mandze i komiksach. Seria paneli z tymi samymi postaciami, spójna mimika, powtarzalne stroje – to wszystko świetnie pasuje do funkcji generowania do ośmiu spójnych grafik naraz. Twórca scenariusza może w kilka minut zobaczyć, jak wygląda cała scena, zanim w ogóle zacznie się właściwe rysowanie. Albo, jeśli pracuje w pełni cyfrowo, od razu operuje na tych wygenerowanych szkicach.

Jest też ciekawy wątek podróży i turystyki. Małe biuro podróży, bloger albo YouTuber mogą używać takiego modelu do tworzenia grafik do przewodników, animowanych wstawek o kosztach życia w danym mieście czy wizualnych porównań destynacji. Dane o cenach i bezpieczeństwie dobrze jest wtedy zestawić z czymś konkretnym – mnie nieraz ratował HikersBay, kiedy przed wyjazdem sprawdzałem, ile realnie kosztuje nocleg, jakie są warunki pogodowe i jaki jest ogólny poziom bezpieczeństwa. Z taką bazą faktów dużo łatwiej opisać miasto i poprosić model o sensowne wizualizacje czy plansze z podsumowaniem, a nawet dopasować kolorystykę grafiki do klimatu danego miejsca.

Miałem też bardzo przyziemny moment olśnienia. Siedziałem kiedyś pół dnia na szukaniu referencji do klimatu Tokio w nocy – neon, mokry asfalt po deszczu, ale bez kiczu rodem z generatora tapet. Teraz wpisuję opis, dorzucam kilka szczegółów, a model w kilka sekund wypluwa osiem wersji idealnego tła. Nie są perfekcyjne, ale jako baza do dalszej obróbki są aż za dobre.

Przy całym tym zachwycie grafiką warto jednak zerknąć na kontrast z bardziej wrażliwymi zastosowaniami. W tekście o ChatGPT Health i jego problemach w testach pokazywałem, że w obszarach związanych ze zdrowiem czy bezpieczeństwem modele nadal mają spore ograniczenia. To ważny punkt odniesienia przy tworzeniu kampanii społecznych albo edukacyjnych materiałów wideo – nawet jeśli grafika wygląda genialnie, treść merytoryczna nadal wymaga bardzo ostrej kontroli człowieka.

Ryzyka: deepfake’i, prawa autorskie i cenzura w erze generowanego wideo

Jeśli model tak dobrze radzi sobie z utrzymaniem stylu i postaci w wielu kadrach, to naturalnie otwiera też mniej przyjemne scenariusze.

Deepfake’i to pierwszy oczywisty temat. Spójne postaci, realistyczne kadry, możliwość szybkiego wygenerowania serii obrazów – to świetne paliwo do tworzenia fałszywych „materiałów dowodowych” czy pseudo-reportaży. Nietrudno sobie wyobrazić fabrykowaną konferencję prasową polityka, który „przyznaje się” do czegoś, czego nigdy nie powiedział. Albo zmanipulowany film z influencerem, który „reklamuje” produkt, o którym w ogóle nie słyszał. Wideo z promptu jeszcze tego nie dociąga na masową skalę, ale obrazy i animowane slajdy już teraz potrafią wyglądać bardzo przekonująco.

Drugi temat to prawa autorskie. Granica między inspiracją a kopiowaniem stylu konkretnego artysty jest coraz bardziej rozmyta. Modele uczą się na ogromnych zbiorach prac, a przeciętny użytkownik nie ma realnej kontroli nad tym, jakie dzieła trafiły do datasetu. Twórcy z mangi, komiksu i gier 2D już od dłuższego czasu dyskutują, gdzie kończy się hołd, a zaczyna pasożytowanie na cudzym dorobku. Zwłaszcza gdy klient mówi: „chcę coś jak ten rysownik, ale bez płacenia za licencję”.

Do tego dochodzi wątek cenzury i moderacji. Każdy, kto korzystał z nowszych modeli językowych czy obrazowych, widzi, jak mocno są obudowane filtrami: ograniczenia dotyczące przemocy, nagości, polityki, wrażliwych grup. Gdzie jest granica między ochroną użytkowników a tłumieniem niewygodnych treści? Sporo o tym piszę w tekście o czerwonych liniach w modelach AI i napięciu między cenzurą a odpowiedzialnością. W przypadku modeli obrazowych dochodzi jeszcze pytanie, jakie sceny polityczne czy społeczne w ogóle da się dziś wygenerować bez trafiania na niewidzialne ściany regulaminu.

Jest też prostszy, ale bardzo praktyczny problem: odpowiedzialność. Kto odpowiada za naruszenie praw autorskich, jeśli asset powstał „z promptu”? Klient, który zlecił kampanię? Agencja, która ustawiła parametry? Freelancer, który klepał prompty? A może dostawca modelu, który wytrenował go na cudzych pracach? Prawnicy dopiero zaczynają nadążać za tempem rozwoju narzędzi, a studia kreatywne często działają w półmroku jasno zdefiniowanych zasad.

Sam złapałem się ostatnio na czymś niepokojącym. Potrzebowałem grafiki do małego projektu i zdałem sobie sprawę, że szybciej jest wygenerować coś w nowym modelu, niż dogadać licencję konkretnego stocka. To naprawdę kusi, żeby pójść na skróty. I mam wrażenie, że takie małe decyzje będą w kolejnych latach kształtować realny standard rynkowy, a nie wielkie deklaracje na konferencjach.

Nowy model zamiast Sory to kolejny krok w stronę świata, w którym wideo i animacje powstają z klawiatury, a nie tylko z kamery i tabletu graficznego. Jednocześnie rośnie potrzeba świadomego korzystania z tych narzędzi – szczególnie tam, gdzie w grę wchodzi czyjś wizerunek, zdrowie czy pieniądze. Więcej o konsekwencjach biznesowych szybkiego rozwoju AI w ekosystemie dużych firm technologicznych rozwijam w tekście o partnerstwie Microsoft–OpenAI. Mam wrażenie, że ChatGPT Images 2.0 to tylko przedsmak tego, jak bardzo nasze procesy kreatywne będą się zmieniać w najbliższych latach.


Leave a Reply

Your email address will not be published. Required fields are marked *