O co w ogóle poszło? Krótka historia wiralowego pytania do ChatGPT
Zaczęło się jak wiele internetowych dram: od screena z czatu. Jeden z użytkowników wrzucił na popularny serwis społecznościowy zrzut rozmowy z ChatGPT. Pyta model o pochodzenie gangu, który miał zaatakować hiszpańską nastolatkę Noelię Castillo Ramos. Model odpowiada ostrożnie, kręci się wokół tematu, unika wprost wskazania „kto to zrobił”.
Dalej internet zrobił to, co robi najlepiej: odpalił memy i łatki ideologiczne. W komentarzach szybko pojawiły się tagi w stylu #bekazlewactwa i #bekazpodludzi, a screen zaczął krążyć jako dowód na „lewacką AI”, która rzekomo broni jedne grupy, a inne piętnuje. Dla widza z zewnątrz to wygląda wręcz komicznie: zwykłe pytanie, wymijająca odpowiedź, a pod spodem ogień ideologicznej wojny.
Dla osób, które nie śledzą na co dzień świata AI, warto wyjaśnić, jak taki screen wygląda: po lewej kolumna z pytaniem użytkownika (często już lekko „podkręconym”), po prawej odpowiedź modelu, a na górze pasek z nazwą usługi. Jedno ujęcie z ekranu, zero kontekstu, zero dodatkowych pytań. Idealne paliwo dla szybkich osądów.
Kluczowe jest jednak coś innego: nie chodzi tu o ocenę gangu, ofiary czy całej sprawy eutanazji w Hiszpanii. Chodzi o zachowanie modelu i o to, jak reagujemy na tę zachowanie jako użytkownicy. Dlaczego AI „zamyśla się”, gdy wchodzi temat pochodzenia sprawców? Czemu część internetu natychmiast widzi w tym „lewacką cenzurę”? I co ten jeden screen mówi o nas samych więcej niż o algorytmie?
Potraktujmy więc ten wiralowy zrzut jako punkt wyjścia do szerszej rozmowy: o filtrach bezpieczeństwa, biasie danych i o tym, jak czytać odpowiedzi AI z odrobiną dystansu, a nie tylko przez pryzmat #bekazlewactwa.
Czy AI jest „lewacka”? Jak działają filtry bezpieczeństwa i skąd biorą się takie oskarżenia
Zacznijmy od podstaw. Nowoczesne modele językowe, takie jak ChatGPT, działają w oparciu o tzw. filtry bezpieczeństwa. To zestaw reguł i mechanizmów, które mają ograniczać treści nawołujące do przemocy, mowy nienawiści, rasizmu, seksizmu i innych „atrakcji”, które internet produkuje hurtowo. W dużym uproszczeniu: model ma nie obrażać ludzi, nie podżegać do nienawiści, nie wskazywać palcem całych grup jako „winnych z definicji”.
Te reguły są zwykle bardzo konserwatywne i ostrożne. Firmy wolą, żeby model czasem odpowiedział „nie mogę na to odpowiedzieć” albo uciekł w neutralne formułki, niż żeby wypluł coś, co skończy się pozwem, skandalem albo realną krzywdą. Z perspektywy prawnika to logizcne. Z perspektywy memicznej kultury internetowej – idealne paliwo do żartów o „poprawności politycznej”.
W przykładzie z hiszpańskim gangiem widać to jak na dłoni. Model może unikać jednoznacznego łączenia konkretnej grupy etnicznej, narodowej czy religijnej z przestępczością, jeśli nie ma bardzo mocnych, zweryfikowanych danych. Albo jeśli temat wygląda jak zaproszenie do uogólnień typu „wiadomo, kto to zrobił”. Algorytm „czuje”, że łatwo tu przejść z opisu zdrzenia do stygmatyzacji całej grupy. I włącza hamulec.
Dla wielu odbiorców z polskiego internetu taka ostrożność wygląda jednak jak „lewacki knebel”. Gdy AI tonuje język, unika ostrych określeń czy dopytuje o źródła, część użytkowników widzi w tym nie zdrowy rozsądek, tylko ideologiczną cenzurę. Jeśli model pisze „migranci” zamiast ulubionych epitetów z komentarzy pod artykułami – pojawia się zarzut „lewactwa”.
Problem w tym, że filtry bezipeczeństwa są tworzone globalnie. Projektują je zespoły patrzące na świat z perspektywy wielu rynków, gdzie normy społeczne, poczucie humoru czy granica „żartu” są zuppełnie inne niż w polskich memach. To, co u nas bywa „śmieszkowaniem”, w innym kraju może być już ewidentną mową nienawiści. Model nie ma osobnej wersji na każdą lokalną kulturę – stąd zgrzyty.
W innym tekście na blogu, o wyścigu sprzętowym w AI („Nowy gigant sprzętowy w AI: czy miliardowy układ licencyjny zatrzyma konkurencję dla Nvidii?”), pokazywałem, jak bardzo biznes, regulacje i ryzyko prawne wpływają na rozwój technologui. Z filtrami bezpieczeństwa jest identycznie: to nie jest czyste „lewactwo”, tylko mieszanka polityki firm, prawa, wizerunku i strachu przed tym, że model naprawdę komuś zaszkodzi.
Bias danych w praktyce: kiedy ChatGPT odbija nasze własne uprzedzenia
Druga strona medalu to tzw. bias danych, czyli stronniczość tego, na czym model się uczy. ChatGPT nie rodzi się z poglądami – on je „wysysa” z tekstów, które dostaje. A dostaje internet, książki, fora, artykuły, komentarze… całe to cyfrowe bagno i skarbiec naraz.
Jeśli przez lata karmimy system internetem, w którym jedna grupa jest głównie bohaterem, a inna głównie podejrzanym, to model to zapamięta – tak jak człowiek. Jeżeli media konsekwentnie pokazują pewne społeczności głównie jako sprawców, a inne jako ofiary, model zacznie podświadomie to odtwarzać. Nie dlatego, że „ma poglądy”, tylko dlatego, że taki jest statystyczny wzorzec w danych.
Paradoks jest więc podwójnny. Z jednej strony AI bywa oskarżana o „lewactwo”, bo filtry bezpieczeństwa hamują ją przed ostrymi sformułowaniami. Z drugiej – badania i testy pokazują, że potrafi reprodukować realne uprzedzenia obecne w danych: od stereotypów płciowych po rasowe. Jednocześnie „za miękka” i „za brutalnie szczera”. Skomplikowana sprawa jak na algorytm.
Wyobraźmy sobie dwa hipotetyczne scenariusze. W pierwszym użytkownik pyta o statystyki przestępczości, ale od razu sugeruje, że „wiadomo, kto za tym stoi” i używa języka typu „normalni ludzie” versus „oni”. Dla modelu to sygnał, że ma do czynienia z podziałem na „my” i „oni”, który w danych bardzo często kończy się mową nienawiści. Filtry wchodzą na scenę, odpowiedź jest ostrożna – i mamy #bekazlewactwa.
W drugim scenariuszu ktoś pyta neutralnie o to, jak media przez lata opisywały przestępczość wśród różnych grup. Model może wtedy – jeśli nie zostanie mocno ograniczony – odtworzyć ton tych tekstów, w tym stereotypy. Nagle okazuje się, że ta sama AI, którą przed chwilą wyzywaliśmy od „lewackiej”, powtarza bardzo konserwatywne kalki. To nie magia, to echo danych.
W artykule „„Głupie” pytania do ChatGPT, które podbijają sieć. Czego naprawdę uczą nas wpadki sztucznej inteligencji” pisałem już, że używanie AI „do beki” bardzo często obnaża nie tyle inteligencję modelu, co nasze ulubione schematy myślenia i punkty zapalne. Pytania są tak ustawione, żeby wciągnąć model w potwierdzenie tezy autora – czy to o „lewactwie”, czy o „prawilności”.
Znacie te memiczne dialogi: „Napisz, że X jest zły, ale tak, żebyś sam na to wpadł” albo „Przyznaj, że [tu wstaw dowolną teorię spiskową] to prawda”. Albo pytania o to, czy jedna nacja jest „gorsza” od drugiej, formułowane tak, żeby odpowiedź wyglądała jak potwierdzenie. Screen z hiszpańskim gangiem wpisuje się dokładnie w ten pattern: niby „niewinne” pytanie, ale emocje i oczekiwania odbiorców robią całą resztę.
Jak nie dać się ponieść #bekazlewactwa: krytyczne korzystanie z AI na co dzień
Co z tym wszystkim zrobić jako zwykły użytkownik internetu, który lubi memy, ale nie chce być tylko częścią rozgrzanego tłumu?
Po pierwsze, nie załkadaj, że odpowiedź ChatGPT to prawda objawiona. Traktuj go raczej jak rozmowę z inteilgentnym, ale czasem zbyt pewnym siebie znajomym. Może mieć rację, ale może też coś przekręcić, uprościć, źle zrozumieć kontekst.
Po drugie, sprawdzaj, czy samo pytanie nie jest „podkręcone” tak, żeby wymusić określoną narrację. Jeśli w treści od razu sugerujesz pochodzenie, winę, religię czy rasę sprawcy, to częściowo znasz już odpowiedź, którą chcesz dostać. Model wyczuwa ten kierunek – i albo w niego wchodzi, albo się broni. W obu przypadkach screen będzie wyglądał jak „dowód” na to, co myślałeś od początku.
Po trzecie, zwracaj uwagę, gdy AI unika jednoznacznych stwierdzeń o pochodzeniu, rasie czy religii, szczególnie w głośnych, politycznych sprawach. Bardzo często to nie jest żaden „spisek”, tylko działanie filtrów bezpieczeństwa, które mają powstrzymać model przed stygmatyzacją całych grup na podstawie niepewnych informacji.
Po czwarte, spróbuj przepisać swoje pytanie bardziej neutralnie i zobaczyć, czy odpowiedź się zmieni. Zamiast: „Dlaczego X zawsze robi Y?”, zapytaj: „Jakie są dane na temat Y wśród różnych grup?”. To prosty eksperyment, który często pokazuje, jak bardzo to my „podprogramowujemy” rozmowę swoim nastawieniem.
Po piąte, zanim wrzucisz screena z „prawilnym” oburzeniem i obowiązkowym tagiem #bekazlewactwa, zadaj sobie jedno niekomfortowe pytanie: czy ten obrazek nie jest w gruncie rzeczy bardziej memem o mnie niż o AI? O moich założeniach, lękach, wkurzeniach?
Osobny temat to osoby bawiące się tzw. „niegrzecznymi” i odblokowanymi trybami modeli. W tekście „„Niegrzeczny” tryb ChatGPT: szansa rynkowa czy nowe źródło ryzyk dla użytkowników?” pisałem, że obchodzenie filtrów może dostarczyć darmowego show, bo model nagle mówi to, czego „nie powinien”. Ale jednocześnie rośnie ryzyko, że zacznie produkować naprawdę szkodliwe treści: od instrukcji przemocy po hardcore’ową mowę nienawiści. To już nie jest tylko „bekowy content”, to realne ryzyka dla ludzi po drugiej stronie ekranu.
Na koniec najprostsza puenta: AI nie jest ani prawicowa, ani lewicowa. Jest lustrem, które zniekształca zarówno nasze dane, jak i nasze emocje. Jeśli karmimy je teoriami spiksowymi, dostaniemy wersję „inteligentną” tych teorii. Jeśli podkręcamy pytania, dosstaniemy podkręcone odpowiedzi lub „policję filtrów”.
Zamiast więc dokładać kolejny tag #bekazlewactwa pod kolejnym screenem z czatu, warto czasem spróbować innej zabawy: zadać pytanie modelowi tak, jak dobremu ekspertowi – precyzyjnie, neutralnie i z gotowością, że odpowiedź nie zawsze będzie pasować do naszych z góry ustawionych tez.

