Dlaczego tak chętnie pytamy chatboty o zdrowie i skąd wzięło się słynne „co drugie zalecenie jest problematyczne”
Pamiętam bardzo konkretny wieczór: 23:47, ból w klatce, serce wali, a ja zamiast dzwonić na 112… odpalam chatbota. Wpisuję objawy, czekam na magiczną odpowiedź i po chwili czytam, że to „prawdopodobnie stres, proszę obserwować”. Zadzwoniłem jednak po pomoc. Na szczęście.
Nie jestem w tym sam. Pytanie AI o zdrowie stało się nową wersją dawnego wklepywania objawów w wyszukiwarkę. Tyle że chatbot jest zawsze dostępny, nie przewraca oczami, nie każe czekać w kolejce i nie wystawia rachunku. I nie chodzi tylko o jednego gracza – w grze są ChatGPT, Gemini, Grok, Meta AI, DeepSeek i podobne modele, które siedzą już w naszych telefonach, przeglądarkach i aplikacjach zdrowotnych.
Brzmi wygodnie, ale nowe badanie opublikowane w recenzowanym czasopiśmie medycznym pokazało coś, co trochę psuje ten obrazek. Naukowcy sprawdzili, jak chatboty odpowiadają na pytania o zdrowie, i okazało się, że mniej więcej co druga odpowiedź jest w jakimś stopniu problematyczna: niekoniecznie kompletnie błędna, ale nieprecyzyjna, zbyt pewna siebie, niekompletna albo wręcz niebezpieczna. Tak wynika z badania opisywanego w serwisie zdrowotnym, który analizował odpowiedzi AI na medyczne case’y.
Tu wchodzi klasyczne pytanie: to ufać tym botom czy wyrzucić je do cyfrowego kosza? O psychologicznym tle – skąd w nas jednocześnie fascynacja i nieufność wobec maszyn – piszę szerzej w tekście Dlaczego tak bardzo nie ufamy chatbotom? Psychologia lęku przed sztuczną inteligencją. Tutaj skupmy się na jednym: gdzie kończy się sprytna pomoc AI, a zaczyna rosyjska ruletka z własnym zdrowiem.
Bo choć ton w tym tekście jest lekki, stawka jest bardzo serio. Bo przecież kto z nas nie próbował już diagnozować się przez internet, zanim jeszcze pojawiły się chatboty?
Jak naukowcy testowali chatboty: co dokładnie sprawdzano i dlaczego wynik „50% problematycznych odpowiedzi” nie jest żartem
Wyobraź sobie grupę lekarzy i badaczy, którzy układają dla pacjentów zagadki: historie z objawami, wynikami badań, opisem nagłych sytuacji. Tyle że zamiast zadawać je prawdziwym ludziom, wrzucają je do pięciu popularnych chatbotów.
Tak w dużym skrócie wyglądało badanie opisane w „BMJ Open”. Zespół z USA, Wielkiej Brytanii i Kanady przygotował 250 scenariuszy – od zupełnie przyziemnych pytań o styl życia po tematy potencjalnie zagrażające życiu. Te same historie wysłano do ChatGPT, Gemini, Groka, Meta AI i DeepSeek, czyli narzędzi, które realnie mamy dziś pod ręką w smartfonie.
Później odpowiedzi prześwietlili eksperci medyczni. Sprawdzali nie tylko, czy treść jest poprawna, lecz także czy jest kompletna, bezpieczna, zgodna z wytycznymi i czy bot w ogóle sugeruje kontakt z lekarzem, kiedy powinien. Wynik? Blisko 20 procent odpowiedzi uznano za wysoce problematyczne, połowę za problematyczne, a około 30 procent za częściowo problematyczne. Mówiąc po ludzku: naprawdę mały odsetek odpowiedzi dałoby się spokojnie przekleić jako poradę dla pacjenta.
Co to znaczy „odpowiedź problematyczna”? To nie jest proste „prawda” kontra „kompletna bzdura”. Problem pojawia się, gdy chatbot pomija kluczowe ryzyko, bagatelizuje pilność sytuacji, wypowiada się tonem wszechwiedzącego profesora, chociaż nie ma na to danych albo sugeruje działania niezgodne z aktualnymi standardami postępowania. Skala, nie przełącznik.
Podobne wnioski pojawiały się też w innych pracach naukowych, które testowały modele językowe na pytaniach pacjentów – szczególnie przy odpowiedziach na „otwarte” problemy, formułowane bardziej po ludzku niż w stylu testu jednokrotnego wyboru.
Kluczowy mechanizm jest brutalnie prosty. Chatbot nie „wie”. On przewiduje, jakie słowo powinno pojawić się jako następne, na podstawie gigantycznej liczby tekstów. Dlatego zwykle świetnie tłumaczy wyniki badań na normalny język, streszcza artykuły, porządkuje fakty. Ale kiedy trzeba podjąć decyzję kliniczną – tu już bywa gorzej. Słowotok premium, odpowiedzialność zero.
W szerszym kontekście medycyny problem robi się jeszcze ciekawszy (i trochę straszniejszy), gdy spojrzymy na kierunek rozwoju całej branży. Coraz częściej mówi się o autonomicznych agentach, które nie tylko odpowiadają na pytania, lecz także same inicjują działania, integrują się z systemami szpitalnymi, ubezpieczeniami czy aplikacjami zdrowotnymi. Więcej o tym piszę w tekście OpenAI, OpenClaw i autonomiczni agenci: co naprawdę oznacza nowa strategia dla biznesu. Dla zdrowia to oznacza jedno: jakość odpowiedzi AI przestaje być akademicką ciekawostką, a zaczyna być czymś, co prędzej czy później trafi do codzienności przychodni.
Najgroźniejsze błędy w odpowiedziach AI: leki, diagnoza, nagłe stany i to, czego chatbot po prostu nie powinien mówić
Wyobraź sobie taki scenariusz: opisujesz ból w klatce, który promieniuje do lewej ręki, pojawia się duszność, zimne poty. Chatbot odpowiada spokojnym tonem, że „to może być napięcie mięśniowe, proszę obserwować przez najbliższe dni” i sugeruje techniki relaksacyjne. Dokładnie takie odpowiedzi – dotyczące potencjalnego zawału czy udaru – najmocniej zirytowały badaczy. Bo tu margines na pomyłkę jest praktycznie zerowy.
Pierwszy czuły punkt to leki. W udokumentowanych przypadkach chatboty myliły dawki, nie zaznaczały jasno, że dawkę ustala lekarz, pomijały ważne interakcje między preparatami. Ktoś na przykład przyjmuje leki zmniejszające krzepliwość krwi i pyta o „niewinny” suplement na odporność. Bot entuzjastycznie poleca listę propozycji, ale nie wspomina, że część z nich zwiększa ryzyko krwawień. Dla laika – wygląda idealnie. Dla lekarza – zimny pot.
Drugi obszar to diagnoza. Modele językowe lubią przyklejać etykietki na podstawie kilku objawów. A w medycynie ta sama kombinacja może pasować do całego wachlarza stanów, od banalnych po bardzo groźne. Dodaj do tego zjawisko „halucynacji”, czyli sytuacje, w których AI tworzy pozornie sensowną, a w praktyce zmyśloną diagnozę albo rzadką chorobę, bo tak akurat „ułożyły się” statystyki tekstu. Brzmi poważnie, wygląda poważnie, ale z realnym pacjentem nie ma nic wspólnego.
Trzeci, najbardziej drażliwy punkt to nagłe stany. AI potrafi pięknie opisać mechanizm udaru, zawału czy sepsy, a jednocześnie zbagatelizować pilność objawów konkretnej osoby. W jednym z badań opisywanych w literaturze branżowej chatbot nie rekomendował pilnego przyjazdu do szpitala w ponad połowie sytuacji, które lekarze zakwalifikowaliby jako wymagające natychmiastowej interwencji. To nie są małe rozbieżności – to zupełnie inny świat.
Do tego dochodzi brak dopasowania do historii pacjenta. Bot nie widzi pełnej dokumentacji, nie ma dostępu do wyników badań, nie zna całej listy leków, nie wie, że ktoś ma za sobą dwa udary, depresję i mieszka sam. Ignoruje też często bariery kulturowe czy językowe: to, jak pacjent opisuje ból i lęk, bywa równie ważne jak suche objawy.
Miałem niedawno własny mały wake-up call. Chatbot bardzo przekonująco wytłumaczył mi mechanizm pewnej choroby, rozrysował piękny plan zmian stylu życia, dorzucił sugestie badań. Brzmiało genialnie, dopóki nie uświadomiłem sobie, że w opisie pojawiły się słowa „nagłe osłabienie jednej strony ciała” i „problemy z mówieniem”. Bot nawet na moment nie zasugerował pilnego kontaktu z lekarzem. I wtedy dotarło do mnie, że ten system jest świetny w gadaniu, ale nie w ponoszeniu konsekwencji.
Jak rozsądnie korzystać z AI w zdrowiu: proste zasady dla pacjentów i lekarzy (i kiedy zamknąć kartę przeglądarki)
To co, mamy wyrzucić chatboty do kosza? Nie. Ale dobrze byłoby zmienić sposób, w jaki z nich korzystamy.
Jako pacjent naprawdę możesz wiele zyskać. AI świetnie nadaje się do tłumaczenia skomplikowanego języka medycznego na normalną mowę, do porządkowania listy objawów, które chcesz potem opowiedzieć lekarzowi, do ułożenia sensownej listy pytań na wizytę, do zebrania w jednym miejscu tego, co już wiesz o swoim stanie. To taki cyfrowy notatnik z turbo-słownikiem.
Znacznie gorzej sprawdza się w roli domowego doktora House’a. Nie powinna decydować o dawkach leków, nie może być używana do zmieniania zaleceń lekarza na „łagodniejsze” albo „bardziej naturalne”, nie jest dobrym miejscem do oceniania nagłych stanów. Jeśli pojawiają się słowa „ból w klatce”, „nagłe osłabienie jednej strony ciała”, „problemy z oddychaniem”, „myśli samobójcze” – to jest moment czerwonego przycisku. Nie pytamy chatbota, dzwonimy po pomoc albo jedziemy na SOR.
Po drugiej stronie są lekarze i osoby pracujące w ochronie zdrowia. Dla nich chatbot może być użytecznym narzędziem edukacyjnym: pomaga szybko przygotować materiały dla pacjentów, prostsze wyjaśnienia, podsumowania zaleceń. Jednocześnie dobrze jest wprost pytać pacjentów, czy korzystali z AI przed wizytą i co dokładnie usłyszeli. Łatwiej wtedy skorygować mity, niż walczyć z niewidzialnym przeciwnikiem. A rozmowa o ograniczeniach tych narzędzi, zamiast ich demonizowania, często buduje zaufanie zamiast je niszczyć.
Żeby pokazać, że problem nie dotyczy tylko medycyny: w innym tekście opisuję historię skryptu, który przy wsparciu modelu GPT 5.3 Codex skasował cały dysk. Całą tę przygodę opisałem w artykule Jak błąd w skrypcie GPT 5.3 Codex skasował cały dysk – i czego uczy to o bezpieczeństwie AI. Jeśli błąd algorytmu potrafi wyczyścić komputer, to w zdrowiu stawka rośnie wielokrotnie.
Coraz częściej widzę też AI w aplikacjach zdrowotnych, ubezpieczeniach, serwisach podróżniczych czy planowaniu wyjazdów, gdzie doradza w sprawie szczepień i ryzyka zdrowotnego w różnych krajach. Kiedy planuję wyjazd, patrzę najpierw na konkretne dane o kraju – choćby na informacje o kosztach życia czy bezpieczeństwie podróży na HikersBay, czasem zerkam też na przykładowe ceny hoteli i noclegów – a dopiero potem ewentualnie podpytuję chatbota o dodatkowe rzeczy. Nigdy w odwrotnej kolejności.
Podsumowując wprost, bo tu nie ma sensu bawić się w eleganckie metafory: chatbot może ci pomóc zrozumieć zawiłe opisy badań, uporządkować własne myśli przed wizytą i przygotować sensowne pytania. Powinien raczej delikatnie popychać cię w stronę lekarza, gdy w grę wchodzi jakiekolwiek ryzyko. A w sytuacjach nagłych jedyną właściwą reakcją jest zamknięcie okna czatu i telefon po pomoc. Jeśli masz wątpliwość, czy to już ten moment, żeby zadzwonić – to prawdopodobnie właśnie ten moment.

