Marzec 2021, konferencja FAccT. Cztery autorki ogłaszają, że wielkie modele językowe są niebezpieczne. Dwie z nich nie pracują już w Google - jedna zwolniona w grudniu 2020 za ten właśnie tekst, druga w lutym 2021 za próbę obrony. Pięć lat później kwiecień 2026: niemal cztery tysiące cytowań, ponad pół miliona pobrań, a AI Act cytuje w obowiązkach deployera dokładnie te same troski, które Bender i Gebru wypisały w ośmiu punktach. Tekst, o którym niektórzy mówili wtedy "przesadzony", w 2026 czyta się jak notatka prawnicza.

Model zwraca sygnaturę wyroku SN, której nie ma. Partner podpisuje. Papuga jest stochastyczna dokładnie w tym znaczeniu, które Bender i Gebru pięć lat temu próbowały nazwać.

Kancelaria regionalna, środa, marzec 2026. Junior associate przychodzi z projektem apelacji od wyroku sądu okręgowego. Dwie sygnatury orzeczeń Sądu Najwyższego wplecione w uzasadnienie, cytowane treściwie i przekonująco. Partnerka sprawdza Lex. Jedna sygnatura istnieje i dotyczy zupełnie innego stanu faktycznego. Druga nie istnieje w ogóle. Associate robi się czerwony. "Ale ChatGPT to podał tak przekonująco."

Brzmi jak anegdota, którą się powtarza w kancelariach od dwóch lat. W rzeczywistości jest dokładnie tym, o czym pisały Emily Bender, Timnit Gebru, Angelina McMillan-Major i Margaret Mitchell pod pseudonimem Shmargaret Shmitchell w marcu 2021 - półtora roku przed ChatGPT. Ich papier nie mówił "modele mogą czasami halucynować". Mówił: modele językowe nie rozumieją, co produkują - składają statystycznie prawdopodobne sekwencje słów, a coherence, którą użytkownik widzi, istnieje wyłącznie w jego własnym mózgu. Ta diagnoza brzmiała wtedy akademicko. W 2026 brzmi jak checklista z art. 50 AI Act.

O czym jest ten materiał

Bender, Gebru i zespół strukturyzują argument w sześć osi, każda z nich znajdująca własny rozdział tekstu. Koszt środowiskowy i finansowy treningu wielkich modeli, ze szczególnym uwzględnieniem faktu, że koszty te ponoszą zupełnie inne społeczności niż te, które z modeli korzystają. Niezdiagnozowane uprzedzenia w danych treningowych, które z natury internetowego korpusu faworyzują głosy grup dominujących i marginalizują głosy pozostałych. Dług dokumentacyjny - zbiory treningowe są tak duże, że nikt ich systematycznie nie opisuje, przez co audyt jest strukturalnie niemożliwy. Value lock-in - model wytrenowany na danych historycznych utrwala wartości z momentu ich powstania, nawet gdy świat się zmienił. Koszt alternatywny - skierowanie zasobów na jedną gałąź badań kosztem innych, być może pilniejszych. I wreszcie papuga stochastyczna, która jest sercem całego tekstu.

Teza papugi stochastycznej brzmi w uproszczeniu tak. Model językowy uczy się rozkładu prawdopodobieństwa sekwencji tokenów. Przy generowaniu układa tokeny według tego rozkładu. Nie ma modelu świata, nie ma intencji komunikacyjnej, nie odnosi słów do referentów. Gdy użytkownik czyta wygenerowany tekst i rozumie go, to rozumienie jest aktem użytkownika, nie modelu. Spójność tekstu jest coherence in the eye of the beholder. Model układa słowa. Znaczenie dokleja człowiek.

To nie jest tylko filozoficzna subtelność. Ma praktyczne konsekwencje: tekst wygenerowany przez model może być gramatycznie doskonały i retorycznie przekonujący, a zarazem całkowicie oderwany od faktów. Co gorsza - nie jest błędem w modelu, tylko jego features. Modele są projektowane tak, żeby produkować prawdopodobnie brzmiące sekwencje, nie żeby odnosić się do prawdy.

Autorki nie proponują zakazu modeli językowych. Proponują sześć praktyk, które w 2021 brzmiały akademicko, a w 2026 są już częścią regulacji lub się nią stają: ważyć koszty środowiskowe i finansowe przed podjęciem decyzji o treningu; inwestować w kuratelę i dokumentację danych zamiast zagarniać internet; robić pre-development exercises przed każdym dużym przedsięwzięciem; angażować interesariuszy, na których model będzie wpływał; zachęcać do kierunków badawczych innych niż kolejne powiększenie modelu; przygotowywać dokumentację typu Datasheets i Data Statements.

Jednym zdaniem: Bender i Gebru napisały w 2021 roku konspekt, który w 2026 regulator europejski rozpisał na artykuły.

Recenzja właściwa

Kontekst polityczny, którego nie da się pominąć

Żadna recenzja tego papieru nie jest uczciwa bez wzmianki o kontekście, w którym powstał. Timnit Gebru współkierowała w Google zespołem Ethical AI. Projekt artykułu skonsultowała z wewnętrznymi recenzentami - zgodnie z procedurą. Google zażądał usunięcia artykułu albo usunięcia nazwisk autorek związanych z firmą. Gebru odmówiła. W grudniu 2020 straciła pracę - według Google "rezygnacja", według Gebru zwolnienie. W lutym 2021 Margaret Mitchell, współzałożycielka zespołu Ethical AI, straciła pracę po próbach obrony koleżanki. W samym artykule figuruje jako "Shmargaret Shmitchell, The Aether". Nawet pseudonim zawiera komentarz.

Z perspektywy compliance - i tu pojawia się pierwszy punkt praktyczny dla kancelarii - kontekst Gebru jest ilustracją, dlaczego niezależny audyt AI potrzebuje strukturalnie niezależnej od dostawcy pozycji. Audytor wewnętrzny może być merytorycznie najlepszy w branży, ale jego pozycja kontraktowa sprawia, że ma granicę, za którą nie pójdzie. Dla polskiej kancelarii ta obserwacja rzutuje na strukturę usług AI governance: doradca, który jednocześnie sprzedaje wdrożenia i audytuje ich zgodność, znajduje się w konflikcie interesów, którego nie rozwiązuje żaden kodeks. To nie jest akademickie. Bender i Gebru poprzez własną biografię pokazały, jak wygląda korporacyjne zmuszanie do milczenia. Sklepowi prawnicy AI audit wymagają innej konstrukcji niż "zrobiło nam to samo biuro, które sprzedało".

Co z ostrzeżeń się ziściło

Halucynacja. W 2021 autorki opisywały ją jako teoretyczną konsekwencję statystycznej natury modeli. W 2026 jest zjawiskiem, które wpisano do podręcznika ryzyka każdej kancelarii. Mata v. Avianca w 2023 w Nowym Jorku (prawnik złożył do sądu pismo z halucynowanymi cytatami z orzecznictwa, sankcje dyscyplinarne), kolejne sprawy w Kanadzie i Wielkiej Brytanii, a od 2025 pierwsze w Polsce. W kwietniu 2026 polski adwokat wykłada z własnej kieszeni, jeśli jego System 3 (o tym był TOM 017) podstawi mu sygnatury, których nie ma. Bender miała rację jako lingwistka, zanim halucynacja stała się terminem branżowym.

Dokumentacja danych treningowych. AI Act art. 53 zobowiązuje dostawców GPAI do publicznie dostępnej zagregowanej dokumentacji danych treningowych, z uwzględnieniem copyright i źródeł. Code of Practice dla GPAI doprecyzowuje, jak. To jest, w językowym tłumaczeniu z regulacyjnego na recenzenckie, Bender "documentation debt" przefiltrowana przez dyrektywę parlamentarną.

Koszt środowiskowy. Autorki cytowały Strubella i zespół - trening wariantu BERT generuje emisje CO2 porównywalne z lotem transamerykańskim. W 2026 CSRD i ESRS wymagają od dużych przedsiębiorstw raportowania Scope 3. Jeśli kancelaria korzysta z modelu, którego trening miał znaczący ślad węglowy, ten ślad wędruje do jej raportu ESG, choć nie zawsze w sposób oczywisty. Dostawca SaaS dorzuci to dopiero pod naciskiem. Bender i Gebru tę dyskusję zaczęły pięć lat zanim audytorzy finansowi zrobili z tego pytanie bilansowe.

Uprzedzenia w danych treningowych. Co do tej osi w 2021 trwała burza, w 2026 jest spokojny konsensus. AI Act art. 10 wymaga od dostawców systemów wysokiego ryzyka specjalnej troski o kwestie uprzedzeń w danych treningowych, z uwzględnieniem danych szczególnej kategorii w sensie RODO art. 9. Praktycznie: jeśli kancelaria deployuje model do analizy CV klientów, dokładnie tutaj materializuje się obowiązek deployera z art. 26. Bender, Gebru i zespół nazwali ten problem w pięć lat przed tym, zanim trafił do rozporządzenia.

Czego Bender i Gebru nie dostrzegły, albo dostrzegły niejednoznacznie

Papier miał dwa punkty, w których czas pokazał, że ostrzeżenia były trafne, ale uzasadnienie niekoniecznie. Po pierwsze - teza o kosztach środowiskowych zatrzymała się na 2020 roku, przed znaczącym postępem w efektywności sprzętu i algorytmów. Trening modeli klasy Llama 3 (2024) czy Claude 3.5 generuje na jednostkę zdolności wyraźnie mniej CO2 niż GPT-3 z 2020. To nie unieważnia tezy, ale zmienia skalę. W 2026 dyskusja wróciła do energii jako takiej - zapotrzebowanie centrów danych rośnie szybciej, niż efektywność poprawia rachunek per-token.

Po drugie - "koszt alternatywny" w rozumieniu autorek. Argumentowały, że zasoby skierowane na skalę modeli odwracają je od innych, potrzebniejszych kierunków. W 2026 widać, że skala rzeczywiście przyniosła emergent capabilities (rozumowanie zero-shot, tłumaczenia niskozasobowych języków, kod), których żaden mniejszy model nie miał. Bender i Gebru miały rację, że scale-at-all-costs jest problematyczne etycznie, ale empirycznie scale dał więcej, niż one zakładały. Nie unieważnia to ostrzeżenia, ale stawia je w subtelniejszej pozycji - ostrzegano przed pewną ślepotą, i ta ślepota okazała się połowicznie wypełniona niespodziewaną wartością.

Trzeci punkt, w którym papier milczy: konsekwencje dla pracy wiedzy. W 2021 Bender, Gebru i zespół koncentrowali się na modelach jako produktach. Nie zadawali pytania, co się stanie, gdy prawnik, lekarz, dziennikarz będą używać ich codziennie. Pięć lat później to właśnie jest centralne pytanie w rozmowach MateMatic z kancelariami. Papier założycielski ma legitymację do tego, żeby nie obejmować wszystkiego. Ale jego zakres jest warto zaznaczyć, gdy się go rekomenduje.

Polska kancelaria czyta Stochastic Parrots w 2026

Co z tego wynika konkretnie dla kancelarii, która w kwietniu 2026 ustala własny stosunek do AI. Kilka operacyjnych wniosków.

Po pierwsze: każdy model, który kancelaria używa, jest papugą stochastyczną w rozumieniu Bender. To nie jest krytyka - to stwierdzenie faktu, z którego wynika, co można i czego nie można na niej zbudować. Przygotowanie argumentacji prawnej, brainstorming, pierwsza wersja pisma - tak. Ostateczna weryfikacja cytowań, oznaczenie powagi rzeczy osądzonej, sprawdzenie terminu przedawnienia - nie. Przy obu zastosowaniach model wygląda tak samo, generuje tekst o podobnej jakości, ale ryzyko odpowiedzialności adwokata jest w drugim przypadku nieporównywalnie wyższe.

Po drugie: "documentation debt" nie jest problemem samego dostawcy. Jest też zobowiązaniem deployera. Jeśli kancelaria używa modelu, o którego danych treningowych wie tyle, co w ulotce marketingowej, to nie jest compliance ani z art. 10 AI Act (zarządzanie danymi), ani z zasadami należytej staranności adwokackiej. Pytanie do dostawcy: "jakie dane treningowe, kiedy kuratorowane, jaki audit trail" powinno być w każdym RFP. Odpowiedź "to poufne" jest sygnałem ostrzegawczym.

Po trzecie: value lock-in w prawie ma osobliwy smak. Model wytrenowany na orzecznictwie do 2023 roku nie wie, że TSUE w 2025 zmienił wykładnię artykułu 17 RODO. Klient o to nie pyta. Adwokat, jeśli polega na modelu, też się nie dowie. Cycle update modelu staje się nagle bardzo ważny - a jest, jak pokazuje Bender, strukturalnie powolny.

Po czwarte: tajemnica zawodowa. Bender nie pisała o niej wprost, ale opisany przez nią mechanizm - model uczy się z danych, które widzi - jest źródłem ryzyka. Dane, które kancelaria wysyła do modelu chmurowego bez wyraźnych gwarancji kontraktowych, mogą (albo mogły historycznie) trafić do następnej iteracji modelu. Art. 6 Prawa o adwokaturze nie zna wyjątku "bo dostawca obiecał". Architektura on-prem albo tenant z klauzulą no-training są jedynym uczciwym rozwiązaniem dla większości spraw. Dalej wracamy do TOM 009 i TOM 016.

Pięć lat po FAccT 2021 papuga stochastyczna nie jest już metaforą akademicką. Jest kategorią ryzyka w AI Act, pozycją w polisie OC zawodu, wierszem w dokumentacji technicznej i tematem rozmowy z klientem, który pyta, "a czy wy tego Claude'a to używacie". Kancelaria, która nie umie na to pytanie odpowiedzieć z detalem, nie jest gotowa na drugą połowę 2026.

Co z tego wynika

Bender, Gebru i zespół napisali artykuł, który przetrwał swoje okoliczności. Nie wszystko się zestarzało dobrze - dyskusja o skali się zniuansowała, dyskusja o emisjach rozwinęła - ale trzon tezy jest dziś bardziej aktualny niż kiedy się go ogłaszało. Papuga stochastyczna jest w 2026 modelem mentalnym, który partner w kancelarii powinien mieć, zanim podejmie decyzję o wdrożeniu AI. Nie żeby nie wdrażać. Żeby wdrożyć z właściwym obrazem tego, co wdraża.

Dla kogo ten materiał. Dla partnera zarządzającego, który chce zrozumieć, dlaczego AI Act wygląda tak, jak wygląda, i skąd wziął się język zawarty w art. 10, 50 i 53. Dla compliance officera mapującego obowiązki deployera na konkretne klauzule kontraktu z dostawcą SaaS. Dla DPO, który chce rozmawiać z zarządem o tajemnicy zawodowej bez dryfowania w abstrakcję. Dla każdego prawnika, który chce czytać o AI z książki, która napisała sama siebie w przyszłość.

Dla kogo nie. Dla nikogo, kto szuka checklisty. Bender, Gebru i zespół nie dostarczyli jej w 2021 i nie mieli takiego zamiaru. Dostarczyli ramę myślenia, którą AI Act, RODO i Code of Practice GPAI uzupełniają w operacyjny skład. Sam artykuł trzeba przeczytać nie po to, żeby wiedzieć, co robić - tylko żeby wiedzieć, dlaczego.

Dla zarządu kancelarii w trzech zdaniach

Artykuł Bender i Gebru z 2021 roku jest ideową podstawą większości obowiązków, które AI Act nakłada w 2026 na deployerów GPAI - ważenie kosztów środowiskowych, dokumentacja danych treningowych, identyfikacja uprzedzeń, pre-development due diligence. Papuga stochastyczna nie jest retoryczną figurą, tylko opisem architektury modeli, z których kancelaria korzysta codziennie i za których błędy ponosi osobistą odpowiedzialność. Jeśli kancelaria nie umie wyjaśnić klientowi, na jakich danych trenowany był model, który przygotował projekt pisma procesowego, nie jest gotowa do rozmowy o ubezpieczeniu OC po drugiej połowie 2026.