24 000 fałszywych kont kontra Claude: jak wojna o dane zmienia świat sztucznej inteligencji

24 000 fałszywych kont kontra Claude: jak wojna o dane zmienia świat sztucznej inteligencji

Kulisy sporu Anthropic–DeepSeek: co wiemy o 24 000 fałszywych kont i 16 milionach sesji z Claude

Na początku 2026 roku branża sztucznej inteligencji wstrzymała oddech. Amerykańska firma Anthropic, twórca modelu Claude, oskarżyła chińskie podmioty – w tym zespół stojący za modelem DeepSeek oraz kilka powiązanych startupów – o zorganizowaną operację masowego pozyskiwania danych z komercyjnego systemu AI. Według pozwu złożonego w sądzie w USA, miało dojść do założenia około 24 000 fałszywych kont i przeprowadzenia ponad 16 milionów sesji z Claude’em w celu „wydobycia” wiedzy z modelu i wykorzystania wygenerowanych odpowiedzi do trenowania konkurencyjnych systemów.

Stawką w tym sporze są nie tylko konkretne straty biznesowe, lecz także fundamentalne pytania o granice dozwolonego wykorzystywania danych, ochronę własności intelektualnej w erze modeli generatywnych oraz geopolityczny wymiar rywalizacji technologicznej między Stanami Zjednoczonymi a Chinami. Anthropic przedstawia się jako ofiara złożonej, rozproszonej infrastruktury botów, która z naruszeniem regulaminu usług oraz przy użyciu tysięcy fikcyjnych tożsamości miała omijać limity i zabezpieczenia API. Po drugiej stronie znajdują się chińscy gracze, którzy – przynajmniej publicznie – dystansują się od zarzutów lub próbują je bagatelizować jako „intensywne testowanie” publicznie dostępnego narzędzia.

Warto podkreślić, że sprawa jest w toku. Część informacji pochodzi z dokumentów sądowych oraz materiałów, do których dotarły media, a nie wszystkie szczegóły zostały jeszcze zweryfikowane przez niezależne instytucje. Tekst ma charakter analityczny: opisuje znane dziś fakty, możliwe interpretacje techniczne i prawne oraz szerszy kontekst geopolityczny, nie przesądzając o winie którejkolwiek ze stron.

O ile w poprzedniej dekadzie spory wokół danych dotyczyły głównie sieci społecznościowych i tradycyjnych platform internetowych, o tyle dziś punkt ciężkości przesuwa się w stronę modeli generatywnych. To one stają się celem operacji przypominających wojny informacyjne – z tą różnicą, że zamiast manipulować opinią publiczną, próbuje się „wydobywać” z nich jak najwięcej wartościowych treści treningowych.

Jak działa data scraping w epoce dużych modeli językowych

Data scraping w kontekście sztucznej inteligencji to zautomatyzowane pobieranie dużych ilości danych – tekstu, kodu, obrazów, dźwięku – z różnych źródeł, po to aby wykorzystać je jako paliwo do trenowania modeli lub do precyzyjnego dostrajania (fine-tuningu) istniejących systemów. W epoce dużych modeli językowych (LLM) mamy do czynienia z bezprecedensowym głodem danych: aby osiągnąć wysoki poziom rozumienia języka, modele potrzebują bilionów słów oraz milionów przykładów zróżnicowanych zadań.

W klasycznym ujęciu scraping kojarzy się z indeksowaniem publicznie dostępnych stron internetowych – podobnie jak robią to wyszukiwarki. Roboty sieciowe pobierają treść stron, zapisują ją w bazach danych i wykorzystują jako źródło informacji. W tym scenariuszu mówimy o danych dostępnych „na powierzchni” internetu, choć i tu pojawiają się spory o prawo autorskie czy ochronę prywatności.

Znacznie bardziej wrażliwy obszar to pozyskiwanie danych z usług zamkniętych, wymagających założenia konta, użycia klucza API lub płatnej subskrypcji. Modele takie jak Claude, ChatGPT czy Gemini udostępniane są użytkownikom i firmom w ramach jasno określonych warunków korzystania. Z punktu widzenia dostawcy zakłada się, że użytkownik zadaje pytania w celu uzyskania odpowiedzi dla własnych potrzeb, nie zaś w celu przemysłowego kopiowania i odtwarzania modelu.

Typowy pipeline danych treningowych w generatywnej AI można uprościć do kilku etapów:

  • zbieranie danych z różnych źródeł (internet, repozytoria kodu, książki, dokumenty, dane firmowe),
  • czyszczenie i deduplikacja, czyli usuwanie duplikatów, szumu, treści niepożądanych lub niskiej jakości,
  • anotacja i filtracja jakościowa – na przykład klasyfikowanie treści, oznaczanie przykładów toksycznych, ocenianie poprawności odpowiedzi,
  • wykorzystanie danych w procesie treningu lub fine-tuningu modelu, często z dodatkowymi pętlami oceny i poprawy.

W ostatnich latach do słownika branżowego weszły pojęcia „data laundering” i „model laundering”. Oznaczają one wykorzystanie danych lub odpowiedzi generowanych przez istniejące modele (często opracowane przez konkurencję) po to, aby w pośredni sposób „przepuścić” przez nie cudzą własność intelektualną. Przykład: model A odpowiada na pytania, wykorzystując treści objęte prawem autorskim i zakodowane w swoich wagach. Ktoś masowo pobiera te odpowiedzi i wykorzystuje je jako dane treningowe modelu B. Formalnie model B nie trenował bezpośrednio na kontrowersyjnych źródłach, lecz w praktyce odziedziczył znaczną część wiedzy i błędów modelu A.

Właśnie ten wątek – systematyczne i masowe wykorzystywanie komercyjnego API z naruszeniem warunków korzystania, połączone z próbą „oczyszczenia” własnych modeli poprzez zasysanie odpowiedzi Claude’a – stoi w centrum zarzutów Anthropic. Nie chodzi tu wyłącznie o skalę danych, lecz o sposób ich pozyskania: rozproszoną infrastrukturę kont i adresów IP, zautomatyzowane zapytania oraz mechanizmy mające ukryć prawdziwy cel działań.

Co dokładnie zarzuca Anthropic i jak miały działać chińskie firmy AI

Z akt sprawy wynika, że Anthropic zaczęło dostrzegać niepokojące sygnały w logach ruchu już na wczesnym etapie rozwoju Claude’a. Pojawiły się tysiące nowych kont, które zachowywały się w sposób mało przypominający naturalną aktywność użytkowników: bardzo wysoka częstotliwość zapytań, krótkie przerwy między sesjami, powtarzalne schematy pytań technicznych oraz fakt, że konta były aktywne niemal bez przerwy, w różnych strefach czasowych, ale ze skupieniem na tych samych typach zadań.

Według pozwu, analiza logów doprowadziła do identyfikacji sieci około 24 000 kont powiązanych ze sobą wzorcami ruchu, adresami IP oraz powtarzalnymi schematami interakcji. Łącznie miało dojść do ponad 16 milionów sesji z Claude’em, których celem było zbudowanie wysokiej jakości korpusu odpowiedzi, szczególnie w obszarach programowania, zaawansowanego rozumowania i przetwarzania danych. W dokumentach prawnych prawnicy Anthropic argumentują, że takie działanie „nie ma nic wspólnego z dozwolonym, indywidualnym korzystaniem z usługi, lecz przypomina zorganizowaną operację ekstrakcji wartości intelektualnej z naszego modelu, z obejściem zabezpieczeń i ograniczeń komercyjnego API”.

Opisany w pozwie mechanizm miał wyglądać następująco: tysiące kont uruchamiają zapytania do Claude’a, często według wcześniej zdefiniowanych szablonów. Odpowiedzi są automatycznie pobierane, filtrowane i kategoryzowane, po czym trafiają do wewnętrznych baz danych, gdzie służą jako zestaw przykładów treningowych dla modeli rozwijanych przez DeepSeek i inne powiązane podmioty. Dodatkowo część interakcji miała służyć do kalibracji mechanizmów cenzurowania i filtrowania, tak aby chińskie systemy mogły naśladować zachodnie standardy bezpieczeństwa treści – przynajmniej na poziomie powierzchownych odpowiedzi.

Skala operacji ma kluczowe znaczenie. 16 milionów sesji to wolumen, którego nie da się wytłumaczyć ciekawością pojedynczego zespołu badawczo-rozwojowego. Mówimy o infrastrukturze typowej dla zorganizowanych botnetów: zautomatyzowane zarządzanie kontami, rozłożenie ruchu na różne regiony, inteligentne omijanie limitów i mechanizmów wykrywania anomalii.

Strona chińska – w publicznych wypowiedziach cytowanych przez międzynarodowe media technologiczne – stara się dystansować od najpoważniejszych zarzutów, podkreślając brak jednoznacznych dowodów na bezpośrednie zlecenie całej operacji przez władze spółek. Niektóre komentarze sugerują, że nawet jeśli doszło do „intensywnego korzystania” z Claude’a, to mieściło się ono w granicach dozwolonego testowania dostępnego komercyjnie systemu. Na tym etapie postępowania wiele elementów układanki pozostaje jednak niejawnych, a ostateczne ustalenia zależą od sądu oraz ewentualnych porozumień między stronami.

Granica między „dozwolonym treningiem” a nadużyciem: perspektywa prawna i regulacyjna

Spór Anthropic–DeepSeek bardzo szybko przestał być wyłącznie technicznym konfliktem między dwiema firmami. W praktyce stał się poligonem dla prawników technologicznych, regulatorów i polityków, którzy próbują zdefiniować, gdzie przebiega granica między dopuszczalnym treningiem modeli a nadużyciem prawa i regulaminów usług.

Po pierwsze, w grę wchodzi prawo autorskie. Jeżeli odpowiedzi generowane przez model Claude zawierają treści objęte ochroną (np. fragmenty książek, kodu, artykułów), to kopiowanie ich na masową skalę i wykorzystywanie jako danych treningowych dla konkurencyjnego modelu może zostać uznane za naruszenie praw twórców lub licencji. Dyskusja jest o tyle skomplikowana, że modele generatywne same w sobie stanowią pochodną ogromnych zbiorów danych, a granice tego, co jest „istotnym wykorzystaniem” chronionego utworu, nie są jeszcze jednoznacznie określone.

Po drugie, pojawia się kwestia ochrony tajemnicy przedsiębiorstwa. Wagi dużego modelu językowego, procedury jego trenowania, dobór danych i algorytmów to obecnie jedno z najcenniejszych aktywów firm AI. Jeśli poprzez masowe „wydobywanie” odpowiedzi z modelu konkurencji można odtworzyć część jego funkcjonalności, to trudno nie zadać pytania, czy nie mamy do czynienia z nieuprawnioną ekstrakcją know-how, choćby pośrednią.

Po trzecie, centralnym elementem zarzutów są naruszenia regulaminu usług (Terms of Service). Komercyjni dostawcy API zastrzegają zwykle wprost, że nie wolno wykorzystywać ich systemów do trenowania konkurencyjnych modeli, do reverse engineeringu ani do masowego scrapingu. Z punktu widzenia prawa umów, zorganizowane działania z użyciem tysięcy fałszywych kont mogą zostać uznane za czyn nieuczciwej konkurencji, szczególnie jeśli prowadzą do realnej szkody ekonomicznej.

Wiele jurysdykcji dopiero próbuje nadążyć za tymi wyzwaniami. W Stanach Zjednoczonych toczą się równolegle inne postępowania dotyczące treningu modeli na danych z internetu i serwisów online, a wyniki tych spraw będą miały znaczenie precedensowe. W Unii Europejskiej uchwalany AI Act oraz regulacje dotyczące danych (w tym Data Act i przepisy o ochronie prywatności) wprowadzają wymogi przejrzystości co do pochodzenia danych treningowych, audytowalności modeli oraz poszanowania praw właścicieli treści. Dla polskich prawników technologicznych to sygnał, że kwestia „czystości” danych treningowych i zakazu masowego scrapingu powinna stać się stałym elementem umów i polityk zgodności.

Podobne napięcia obserwujemy w innych obszarach zastosowań AI. Dyskusja wokół wykorzystania systemów sztucznej inteligencji w wojsku i kontraktów Big Tech z Pentagonem, opisana szerzej w tekście „AI w wojsku pod lupą: etyczne granice współpracy Big Tech z Pentagonem”, pokazuje, że prawo i etyka AI ścierają się dziś na wielu polach – od bezpieczeństwa narodowego po ochronę danych konsumentów.

Techniczne skutki „oczyszczania” modeli konkurencji: jakość, bezpieczeństwo i efekt kuli śnieżnej

Trenowanie modeli na odpowiedziach innych modeli kusi prostotą. Zamiast samodzielnie budować ogromne bazy danych, można „wypytać” istniejący, zaawansowany system o rozwiązania tysięcy zadań, a następnie użyć tych odpowiedzi jako gotowych przykładów. Z biznesowego punktu widzenia to skrót do wysokiej jakości danych: odpowiedzi są już przefiltrowane, spójne językowo, często merytorycznie trafne.

Taki proces ma jednak ciemną stronę. Model uczący się od innego modelu dziedziczy nie tylko jego mocne strony, lecz także błędy, halucynacje i uprzedzenia. Jeśli źródłowy system ma tendencję do pewnych zniekształceń – na przykład nadmiernego upraszczania złożonych tematów, powielania stereotypów czy generowania fikcyjnych źródeł – to każdy kolejny model trenujący na tych odpowiedziach będzie te zniekształcenia utrwalał, a nawet wzmacniał. To trochę tak, jakby kopiować wielokrotnie zdjęcie z kserokopiarki: z każdą iteracją obraz staje się mniej wyraźny, a szum rośnie.

W literaturze technicznej opisuje się to zjawisko jako model collapse lub data poisoning w szerokim sensie. Jeśli coraz większa część nowych danych, na których trenowane są modele, pochodzi z generatywnej AI, a nie z „prawdziwego świata”, systemy stopniowo tracą kontakt z pierwotną dystrybucją ludzkich tekstów, kodu czy obrazów. Zamiast uczyć się od różnorodnych autorów, kultur i kontekstów, zaczynają krążyć wokół własnych statystyk. Długofalowo może to prowadzić do ujednolicenia stylu odpowiedzi, spadku kreatywności i wzrostu podatności na błędy.

Masowe „oczyszczanie” modeli poprzez zasysanie odpowiedzi takich systemów jak Claude może więc paradoksalnie zubożyć cały ekosystem, zamiast go wzmocnić. Jeśli wiele firm będzie trenować swoje modele na wyjściach kilku dominujących systemów, różnorodność algorytmów i stylów myślenia maszyn zostanie ograniczona. To zaś ma konsekwencje zarówno dla innowacyjności, jak i dla odporności na ataki czy błędy systemowe.

Dochodzi do tego aspekt bezpieczeństwa. Gdy modele uczą się od siebie nawzajem, coraz trudniej ustalić źródło konkretnej halucynacji, uprzedzenia lub toksycznej treści. Łańcuch odpowiedzialności zaciera się: czy winny jest model źródłowy, który popełnił błąd jako pierwszy, czy ten, który się od niego nauczył, czy może firma, która zbudowała pipeline danych? Ten problem przypomina w pewnym sensie dyskusję o wpływie treści generowanych przez AI na nasze procesy poznawcze. W artykule „Czy ChatGPT szkodzi mózgowi? Co naprawdę mówią badania neurobiologiczne i psychologiczne” zwraca się uwagę, że nadmierne poleganie na jednym typie treści może negatywnie wpływać na nasze zdolności krytycznego myślenia. Analogicznie, nadmierne poleganie modeli na wyjściach innych modeli może zaburzać „zdrowie” całego ekosystemu danych.

Wojna danych jako nowy front rywalizacji USA–Chiny w sztucznej inteligencji

Spór Anthropic–DeepSeek nie jest odosobnionym incydentem. Wpisuje się w szerszą rywalizację technologiczną między Stanami Zjednoczonymi a Chinami, w której dane i modele AI stają się zasobem strategicznym, porównywalnym z ropą naftową czy wysokiej klasy półprzewodnikami. Państwa i korporacje walczą dziś nie tylko algorytmami, lecz przede wszystkim dostępem do wysokiej jakości danych oraz zdolnością do ich efektywnego wykorzystania.

Na tę rywalizację nakładają się ograniczenia eksportowe i sankcje technologiczne. Stany Zjednoczone ograniczają sprzedaż zaawansowanych chipów do Chin, a także transfer niektórych technologii AI. W odpowiedzi chińskie firmy inwestują agresywnie w rozwój własnych modeli i infrastruktur, jednocześnie szukając wszelkich możliwych przewag – w tym potencjalnie „szarych” źródeł danych, takich jak intensywne wykorzystywanie zachodnich modeli jako dostawców wiedzy i treści treningowych. Zarzuty wobec DeepSeek można więc odczytywać także jako element szerszej gry o to, kto kontroluje kluczowe zasoby cyfrowe przyszłości.

Jednocześnie ekosystem AI nie jest czarno-biały. Obok sporów i sankcji pojawiają się pojedyncze przykłady współpracy i transakcji ponad granicami. Przykładem jest opisywana szerzej w tekście „Meta kupuje chiński startup Manus AI. Rzadki transakcyjny most między USA a Chinami w wyścigu po sztuczną inteligencję” akwizycja chińskiego startupu przez amerykańskiego giganta. Pokazuje ona, że mimo napięć, tam gdzie interesy biznesowe i regulacyjne na to pozwalają, nadal istnieje przestrzeń dla współdziałania.

Spory takie jak Anthropic–DeepSeek mogą jednak przyspieszyć proces „uzbrajania” danych i modeli w logikę bezpieczeństwa narodowego. Możliwe konsekwencje to zaostrzenie kontroli eksportu zaawansowanych modeli, ograniczenia licencji API dla klientów z wybranych państw, a także rosnące inwestycje w „suwerenne” modele językowe rozwijane w ramach jednego bloku politycznego. Dla globalnego łańcucha dostaw AI oznacza to ryzyko rosnącej fragmentacji i trudniejszego przepływu innowacji.

Co ten spór oznacza dla branży: standardy, compliance i nowe linie obrony

Dla firm technologicznych, działów prawnych i zespołów ds. zgodności spór Anthropic–DeepSeek to ostrzeżenie, że wojna o dane nie jest abstrakcją, ale realnym ryzykiem operacyjnym i reputacyjnym. Nawet jeśli konkretny przypadek zakończy się ugodą lub częściowym oddaleniem roszczeń, branża już teraz zaczyna wyciągać wnioski i projektować nowe linie obrony.

Na poziomie praktyk technicznych można spodziewać się kilku trendów, które z dużym prawdopodobieństwem staną się standardem:

  • zaostrzenie limitów API, w tym ograniczeń liczby zapytań na konto i na adres IP,
  • wprowadzenie silniejszych mechanizmów antybotowych, opartych na uczeniu maszynowym i analizie zachowań, a nie tylko prostych captcha,
  • ciągłe monitorowanie anomalii ruchu oraz automatyczne wyłączanie kont o nienaturalnych wzorcach aktywności,
  • watermarking odpowiedzi modeli lub innych form znakowania treści, które pozwolą zidentyfikować ich źródło w razie wykrycia podejrzanych zbiorów danych treningowych.

Na poziomie regulaminów usług i umów B2B firmy będą dążyć do bardziej precyzyjnego definiowania zakazanych zastosowań, w tym wprost wskazując, że trenowanie konkurencyjnych modeli na odpowiedziach ich systemów jest niedozwolone. Pojawią się też zapewne zobowiązania kontraktowe dotyczące audytów danych treningowych, deklaracji pochodzenia danych oraz mechanizmów weryfikacji ich „czystości”. Wewnętrzne polityki typu „no training on competitor outputs” mogą stać się branżową normą, nawet jeśli nie zawsze będą skutecznie egzekwowane.

Dla prawników technologicznych kluczowe będzie włączanie do umów klauzul dotyczących zakazu masowego scrapingu, sposobów gromadzenia i przechowywania logów oraz innych śladów cyfrowych, które mogą później posłużyć jako materiał dowodowy. Transgraniczny charakter usług chmurowych oznacza, że trzeba brać pod uwagę możliwość sporów sądowych w wielu jurysdykcjach równocześnie, a także różnice w podejściu do takich pojęć jak dozwolony użytek czy tajemnica przedsiębiorstwa.

Specjaliści AI – architekci systemów, inżynierowie danych, liderzy zespołów R&D – stają natomiast przed zadaniem projektowania modeli i infrastruktur „odpornych na pasożytnicze użycie”. Obejmuje to zarówno warstwę techniczną (monitoring, detekcja anomalii, watermarking), jak i procesową (wytyczne dla zespołów, review ryzyka, ocena klientów wysokiego ryzyka). Debata o standardach i kontroli w świecie AI coraz częściej wychodzi poza sferę czysto biznesową i dotyka kwestii bezpieczeństwa narodowego, co dobrze ilustruje wspomniany raport o etycznych granicach współpracy Big Tech z wojskiem amerykańskim.

Scenariusze na przyszłość: dokąd prowadzi nas eskalacja wojny o dane

Spór Anthropic–DeepSeek jest prawdopodobnie jednym z pierwszych, ale z pewnością nie ostatnim głośnym konfliktem wokół masowego pozyskiwania danych z komercyjnych modeli AI. Jak może wyglądać dalszy rozwój sytuacji w skali globalnej? Można zarysować co najmniej trzy realistyczne scenariusze.

Pierwszy to scenariusz regulacyjny. Głośne sprawy trafiają na biurka regulatorów, sądów i organizacji międzynarodowych, przyspieszając prace nad standardami dotyczącymi treningu modeli na danych z usług AI. Pojawiają się przejrzyste zasady co do tego, co wolno, a czego nie – na przykład zakaz masowego scrapingu z komercyjnych API, obowiązek oznaczania danych pochodzących z modeli generatywnych czy wymogi audytów pochodzenia danych. Agresywne praktyki zostają ograniczone nie tylko przez ryzyko reputacyjne, ale także przez jednoznaczne sankcje regulacyjne.

Drugi scenariusz to wyścig zbrojeń. Firmy bronią się przed scrapowaniem danych coraz bardziej zaawansowanymi środkami technicznymi i prawnymi, ale równocześnie same szukają szarych stref, aby nadążyć za konkurencją. Pojawiają się skomplikowane operacje maskowania ruchu, korzystanie z pośredników, „outsourcing” scrapingu do podmiotów w trudno dostępnych jurysdykcjach. W efekcie rośnie spirala działań odwetowych: pozwy, kontrpozwy, agresywne blokady geograficzne, a nawet próby sabotowania modeli konkurencji poprzez świadome wprowadzanie szkodliwych danych do ekosystemu.

Trzeci scenariusz to balkanizacja AI. Pod wpływem narastających napięć geopolitycznych ekosystem dzieli się na kilka bloków – na przykład amerykański, chiński i europejski – z ograniczonym przepływem modeli, danych i talentów między nimi. W takim świecie „wojna o dane” staje się elementem szerszej logiki blokowej, a współpraca transgraniczna staje się wyjątkiem, a nie normą. Taki rozwój wydarzeń może zwiększyć bezpieczeństwo i kontrolę w obrębie poszczególnych bloków, ale jednocześnie ograniczyć globalną innowacyjność i wymianę wiedzy.

Niezależnie od tego, który scenariusz okaże się dominujący – a w praktyce prawdopodobna jest mieszanka wszystkich trzech – sektor sztucznej inteligencji musi zmierzyć się z kilkoma kluczowymi pytaniami. Po pierwsze: skąd pochodzą dane, na których uczą się modele, i jakie są ich prawne oraz etyczne podstawy? Po drugie: kto ponosi odpowiedzialność za nadużycia – od masowego scrapingu po wykorzystanie toksycznych treści – i jak tę odpowiedzialność skutecznie egzekwować? Po trzecie: jak pogodzić potrzebę szybkiej innowacji z ochroną interesów twórców, użytkowników i całych społeczeństw?

Dla specjalistów AI, prawników i decydentów biznesowych spór Anthropic–DeepSeek powinien stać się studium przypadku, które inspiruje do wewnętrznych dyskusji o politykach danych, etyce i strategii. Własne regulaminy usług, praktyki inżynieryjne, wybór partnerów technologicznych i rynków docelowych – wszystko to będzie coraz mocniej kształtowane przez odpowiedź, jakiej udzielimy na te pytania. Wojna botów w świecie AI to nie abstrakcyjna opowieść o odległych gigantach, lecz zapowiedź wyzwań, z którymi prędzej czy później zmierzy się każda organizacja korzystająca z zaawansowanych modeli.


Leave a Reply

Your email address will not be published. Required fields are marked *