Gorączka AI i zimny prysznic z serwerowni: dlaczego GPU stoją bezczynnie
Przez ostatnie dwa lata nagłówki wyglądają jak z filmu science fiction. OpenAI bije rekordy wycen, Anthropic co chwilę pokazuje nową wersję Claude’a, Google dorzuca swoje modele, a inwestorzy prześcigają się w ogłaszaniu kolejnych „przełomów”. W tle: święty Graal ery AI, czyli karty graficzne Nvidii, o które trwa prawdziwy wyścig zbrojeń.
Tymczasem w serwerowniach – cisza. Najnowsze raporty branżowe pokazują, że wiele dużych firm korzysta z mocy GPU tylko w niewielkim stopniu. Przykładowo, według danych opisywanych przez The Information, xAI Elona Muska wykorzystuje około 11 procent z puli mniej więcej 550 tysięcy układów Nvidii. Podobnie u innych gigantów: Meta i Google mają średnie wykorzystanie GPU na poziomie około 40–50 procent. Reszta leży odłogiem, ale rachunki za prąd i chłodzenie lecą w pełnej wysokości.
Żeby to miało sens, trzeba wyjaśnić, czym w ogóle jest farma GPU. W dużym uproszczeniu: to serwerownia napakowana kartami graficznymi, które normalnie kojarzymy z graniem, ale w świecie AI odpowiadają za ciężką matematykę. Firmy kupują je do trenowania modeli (najbardziej prądożerny etap), do obsługi zapytań użytkowników oraz „na zapas”, żeby mieć rezerwę mocy na przyszłość.
Na prezentacjach wygląda to świetnie: setki tysięcy GPU pracujących 24/7, generujące modele, które automatyzują procesy i przyciągają klientów. Rzeczywistość jest bardziej przyziemna. Z analizy dostępnych danych wynika, że wiele centrów danych kręci się w okolicach kilkunastu–kilkudziesięciu procent realnego obciążenia. I to nie jest wpadka jednego nieogarniętego startupu, tylko szerokie zjawisko obejmujące największych graczy.
Efekt jest dość ironiczny: kupiliśmy serwerownię marzeń, a modele dalej mielą na pół gwizdka. W tym tekście chodzi o pokazanie, skąd wzięła się bańka na infrastrukturę AI, dlaczego software i organizacje nie nadążają za sprzętem i dlaczego to powinno obchodzić menedżerów IT, decydentów i inwestorów – nawet jeśli na co dzień nie grzebią w kodzie.
Bańka na infrastrukturę AI: jak powstał wyścig po karty Nvidii i dlaczego popyt był częściowo iluzją
Rok 2023 zapisał się w historii IT prostym hasłem: „kup GPU, póki jeszcze są”. Kolejki po karty Nvidii, opowieści o tym, że kto dziś nie zamówi sprzętu, ten za rok będzie poza rynkiem. W efekcie zamówienia składały nie tylko firmy typowo technologiczne, ale też banki, software house’y, fundusze VC i przeróżne spółki, które chciały mieć w prezentacji dla zarządu sekcję „strategia AI”.
Mechanika paniki była banalna. Po pierwsze strach, że pociąg odjedzie – zarządy słyszały, że największe modele powstają na setkach tysięcy kart, więc własna farma wydawała się biletem do elitarnego klubu. Po drugie realne problemy z dostępnością – czas oczekiwania na sprzęt liczony w miesiącach sprawiał, że łatwo było przegiąć i „zabezpieczyć moc obliczeniową na lata”. Po trzecie nadmierny optymizm w Excelu: w wielu biznesplanach wpisywano idealne wykorzystanie GPU 24/7, bez przerw, bez przestojów, bez opóźnień projektów.
Niżej, w realu, okazało się, że projekty AI ruszają wolniej, niż obiecywały slajdy. Klienci nie generują tylu zapytań do chatbotów, ile przewidywały prognozy ruchu. Pipeline’y danych dopiero raczkują. Nawet firmy rozwijające najbardziej medialne systemy, od Claude’a rozwijanego przez Anthropic po chatbota Grok, mierzą się z bardzo prozaicznym problemem: żeby setki tysięcy GPU miały co robić, ktoś musi dostarczyć im stabilny strumień sensownej pracy.
Do tego dochodzi jeszcze zderzenie z jakością narzędzi. Marketing obiecywał niemal idealne odpowiedzi i automatyzację wszystkiego. A potem pojawiły się historie w stylu tej, gdzie dziennikarz BBC w kilkanaście minut publicznie sprawdził granice ChatGPT i Google AI Overview i wyszło na jaw, że generatywne modele mają zaskakująco przyziemne ograniczenia. Gdy menedżer widzi taki materiał, nagle trudniej mu uwierzyć, że każdy GPU w serwerowni będzie generował czyste złoto.
Jeden z founderów, z którym rozmawiałem, przyznał pół żartem, pół serio, że „kupił więcej kart na wszelki wypadek, bo wtedy rynek kompletnie świrował”. Potem przez kilka miesięcy patrzył na wykres użycia, który uparcie trzymał się w okolicach 20 procent. „Fajnie, że mamy tę moc, ale księgowy patrzy na to trochę inaczej” – podsumował.
Niewidoczny korek w rurze: bariery software’owe i organizacyjne, które dławią wykorzystanie GPU
Wielu prezesów lubi wierzyć, że skoro sprzęt już stoi w serwerowni, to reszta jakoś się ułoży. Problem w tym, że GPU nie robią nic same z siebie. Potrzebują danych, modeli, procesów i ludzi. I tu pojawia się prawdziwy korek.
Od strony software’u sytuacja jest daleka od ideału. Narzędzia do zarządzania ogromnymi klastrami GPU dopiero dojrzewają. Środowiska do uczenia modeli są złożone, podatne na konflikty wersji bibliotek i sterowników. Skalowanie jednego modelu na dziesiątki tysięcy kart wymaga żmudnego strojenia i specjalistów, o których trwa bój na rynku. W raportach dotyczących centrów danych coraz częściej przewija się ten sam wniosek: wraz ze wzrostem skali klastra średnie wykorzystanie pojedynczego GPU zaczyna spadać.
W praktyce wygląda to trochę jak próba przepchnięcia ruchu całego miasta przez jednopasmową drogę. Sprzęt mógłby pojechać szybciej, ale software i orkiestracja zwyczajnie nie wyrabiają.
Druga sprawa to dane. W wielu firmach zbiory treningowe są rozproszone po działach, zapisane w różnych formatach, podwójnie zanonimizowane, pełne błędów. Zanim trafią na GPU, trzeba je wyczyścić, ujednolicić, zrozumieć. Zespoły spędzają tygodnie na walce z importami z Excela, integracją starych systemów i poprawianiem schematów. W tym czasie farmy GPU stoją grzecznie i czekają na swój moment.
Na koniec dochodzą ludzie i procesy. W wielu organizacjach brakuje osób, które naprawdę wiedzą, jak doprowadzić projekt AI z laboratoriów do produkcji. Pojawiają się wojny o priorytety – dział sprzedaży chce błyskawicznego chatbota, dział prawny prosi o wstrzymanie wdrożenia do czasu wyjaśnienia ryzyk, a zespół bezpieczeństwa widzi w każdym modelu potencjalną bombę reputacyjną.
Strach nie jest abstrakcyjny. Głośne sprawy, w tym opisywana w tekście tragedia nastolatka i pozew przeciwko OpenAI, pokazują bardzo jasno, że ryzyko prawne i reputacyjne nie jest teoretyczną tabelką z prezentacji. Sporo firm wciska hamulec ręczny, zanim modele trafią do klientów. A gdy wdrożenia się ślimaczą, serwerownie świecą diodami statusu, ale nie generują wartości.
Z perspektywy menedżera IT obraz bywa dość schizofreniczny. W jednym pliku Excela widzi tabelę z amortyzacją sprzętu, zużyciem energii i kosztami chłodzenia. W drugim – protokoły z komitetów, które blokują kolejne wdrożenia lub każą „poczekać na regulacje”. W efekcie w wielu firmach GPU stają się droższym odpowiednikiem nieużywanego open space’u: wszyscy widzą, że stoi, wszyscy wiedzą, ile kosztuje, ale realnie mało kto z niego korzysta.
Ryzyka dla firm i inwestorów: kiedy farma GPU staje się gorącym kartoflem, a nie przewagą
Gdy spojrzymy na to z perspektywy bilansu, obraz przestaje być zabawny. Dla dużych korporacji niewykorzystana farma GPU to zamrożony kapitał w betonowych halach, doprawiony rosnącymi kosztami energii i chłodzenia. Do tego dochodzi presja udziałowców, żeby „optymalizować portfel projektów AI”, co często oznacza przycięcie tych najbardziej eksperymentalnych.
Część firm próbuje ratować się wynajmowaniem nadmiarowych GPU na zewnątrz – w formie usług dla innych podmiotów. Brzmi rozsądnie, ale popyt na takie usługi też bywa falujący. Gdy cała branża jednocześnie zaciska pasa, nadwyżka mocy obliczeniowej staje się mało sexy towarem, a nie przewagą strategiczną.
Dla startupów sprawa jest jeszcze bardziej ryzykowna. Pomysł „zbudujemy własną mini-chmurę AI” pojawia się często, zwłaszcza gdy założyciele mają kontakt z infrastrukturą. Kilkanaście czy kilkadziesiąt kart wydaje się w takim ujęciu sprytnym skrótem: będziemy niezależni od dostawców, zaoferujemy lepsze stawki, przyciągniemy klientów. Problem w tym, że jeśli nie ma twardych kontraktów i stałego strumienia zleceń, bardzo szybko zaczyna się wyścig z rachunkami.
Znacznie bezpieczniejszym podejściem na starcie jest korzystanie z usług chmurowych i możliwie elastycznych modeli rozliczeń. To mniej efektowne na prezentacjach, ale pozwala przeżyć pierwsze turbulencje i dopiero później myśleć o własnym sprzęcie. Do planowania takiego projektu warto podejść dość przyziemnie – jak do budżetu rodzinnych wakacji. Serwisy w stylu HikersBay, które pomagają podróżnym porównać koszty wyjazdu, pokazują, jak wiele daje spokojne policzenie scenariuszy. Z farmą GPU jest podobnie: bez liczb łatwo zgubić skalę ryzyka.
Osobny rozdział to indywidualni inwestorzy kuszeni wizją wejścia w „prywatną farmę GPU”, bo znajomy powiedział, że AI to pewna przyszłość. Tu ryzyka układają się w trzy proste kategorie. Po pierwsze technologiczne: karty starzeją się szybciej, niż wynikałoby to z marketingu, a kolejne generacje potrafią dramatycznie zmieniać opłacalność całego biznesu. Po drugie rynkowe: giganci mogą zmienić modele biznesowe, obniżyć stawki za wynajem mocy i nagle lokalny projekt traci sens. Po trzecie regulacyjne: rosnące wymogi energetyczne, środowiskowe i związane z prywatnością danych potrafią nagle podnieść koszty lub wręcz zamknąć część dróg rozwoju.
Ostrożność powinna być tu podobna jak przy korzystaniu z medycznych chatbotów. W tekście Doktor Chat kontra lekarz: jak bezpiecznie korzystać z medycznych chatbotów widać dobrze, że bez zrozumienia ograniczeń technologii bardzo łatwo wyciągnąć zbyt daleko idące wnioski. Z farmami GPU jest dokładnie ten sam problem – nośne hasło „AI” nie zastąpi chłodnej kalkulacji.
GPU nie są magiczną drukarką pieniędzy. Zanim menedżer IT albo founder zatwierdzi kolejne zamówienie na sprzęt, lepiej, żeby zadał jedno przyziemne pytanie: ile realnie pracują karty, które już ma. I dopiero wtedy dopisał cokolwiek do Excela.

