Styczeń 2018. Gary Marcus z Uniwersytetu Nowojorskiego publikuje dwudziestosiedmiostronicowy tekst, w którym punktuje - dosłownie w dziesięciu numerowanych akapitach - co deep learning robi słabo, a czego w ogóle nie robi. Tekst spotkał się z ostrym sprzeciwem środowiska deep learning. Osiem lat później, w kwietniu 2026, część jego dziesięciu zarzutów skalowanie modeli rozpuściło, część jest dokładnie tak aktualna, jak była wtedy, a część wróciła w regulacji pod imieniem, którego Marcus nie używał.

Model pisze projekt apelacji bez halucynacji. Trzy tygodnie później ustawodawca zmienia trzy artykuły KPC. Model nie wie. Marcus punkt ósmy: "deep learning zakłada stabilny świat, a to bywa problematyczne".

Zimowa środa 2018 roku. Marcus pisze tekst, który środowisko deep learning przyjmuje z mieszaniną irytacji i publicznego lekceważenia. Yann LeCun odpowiada na Twitterze. Kilku mniejszych badaczy wyśmiewa. Marcus nie jest przeciwko sieciom głębokim - używa ich, pisze o nich książki, publikuje w czasopismach. Jest przeciwko temu, żeby myśleć o nich jako o kompletnym narzędziu do osiągnięcia ogólnej inteligencji. Jego teza, w jednym zdaniu: deep learning jest świetnym mnożnikiem wydajności dla zadań klasyfikacyjnych na dużych zbiorach danych, i strukturalnie słaby w dziesięciu innych obszarach, każdy z nich istotny dla tego, co potocznie nazywa się "prawdziwą inteligencją".

Osiem lat później dziesięć zarzutów Marcusa jest przedstawionych w większości podręczników AI jako "klasyczna krytyka głębokiego uczenia". Dla kancelarii w 2026 roku są czymś więcej: to dziesięć punktów ryzyka, które w umowie z dostawcą SaaS lub w polityce compliance powinny być nazwane po imieniu, bo w przeciwnym razie zostaną nazwane dopiero przez sąd.

O czym jest ten materiał

Marcus porządkuje argument w trzy akty. Akt pierwszy: czym deep learning jest i jak doszedł do obecnej pozycji - krótka, nietechniczna synteza, bardzo dobrze napisana, z cytatami Chollet i Hintona, którzy już wtedy (koniec 2017) sygnalizowali, że skalowanie nie wystarczy. Akt drugi: dziesięć zarzutów - numerowanych, każdy na pół strony do dwóch stron, z przykładami. Akt trzeci: dokąd iść - propozycja podejścia hybrydowego, łączącego deep learning z metodami symbolicznymi, wiedzą wrodzoną i rozumowaniem przyczynowym.

Dziesięć zarzutów Marcusa w streszczeniu, z trzech pierwszych liter każdego: głód danych (deep learning potrzebuje dużo przykładów do nauki czegoś, co człowiek łapie z paru); płytkość transferu (wiedza z jednej dziedziny nie przenosi się łatwo na inną); brak struktury hierarchicznej (sieci nie modelują części-całość i relacji kompozycyjnych); problemy z otwartym wnioskowaniem (sieci słabo sobie radzą z pytaniami, których odpowiedź wymaga rozumowania, a nie dopasowania); nieprzejrzystość (czarna skrzynka, nie wiadomo dlaczego model zdecydował tak, a nie inaczej); brak integracji z wiedzą uprzednią (trudno wstrzyknąć model to, co wiemy z innego źródła); niezdolność do odróżnienia przyczyny od korelacji (klasyczny problem statystyczny, w DL strukturalny); założenie stabilnego świata (model działa dopóki świat się nie zmieni - a zmienia się zawsze); przybliżenie zamiast pewności (odpowiedź modelu jest statystyczną aproksymacją, nie logiczną konsekwencją); trudność inżynieryjna (trudno projektować i debugować).

Marcus nie mówi "nie używajcie deep learningu". Mówi: wiedzcie, że te dziesięć jest prawdą, i projektujcie systemy z uwzględnieniem każdego z nich.

Jednym zdaniem: Marcus napisał w 2018 roku dziesięć punktów ryzyka, które dziś powinny być w sekcji "istotne ryzyka" każdej polityki AI w kancelarii.

Recenzja właściwa

Co skalowanie rozpuściło, a co nie

Osiem lat to długo. Osiem lat przyniosło transformery, GPT-3, GPT-4, Claude, chain-of-thought, retrieval-augmented generation. Część zarzutów Marcusa przestała być praktycznym ograniczeniem, część zyskała na aktualności. Spokojna, uczciwa rewizja punkt po punkcie.

Punkt pierwszy - głód danych - pozostał w mocy jako problem strukturalny, ale mniej palący dla użytkownika końcowego. Dostawcy wzięli głód na siebie: trenują na bilionach tokenów, a użytkownik zyskuje model "gotowy do użycia". Dla kancelarii konsekwencja jest taka, że kupuje się nie model, tylko inwestycję treningową dostawcy - z wszystkimi implikacjami dla niezależności i ceny.

Punkt drugi - płytkość transferu - jest ciekawym przypadkiem. Marcus argumentował, że model wytrenowany na jednym zadaniu nie przenosi wiedzy na inne. LLM-y klasy GPT-4 częściowo zaprzeczyły tej tezie poprzez in-context learning i zero-shot reasoning. Częściowo, bo transfer dalej zawodzi tam, gdzie zadanie wymaga strukturalnej nowości, a nie rekombinacji znanych schematów - to dokładnie punkt, który TOM 020 (Chollet) opisuje jako "generalization difficulty". Model przeniesie wiedzę z umowy NDA na list intencyjny. Nie przeniesie z prawa polskiego na estońskie wyłącznie na podstawie analogii.

Punkt trzeci - brak struktury hierarchicznej - utrzymał się. Modele dalej mają problem z reprezentowaniem relacji część-całość w sposób, który pozwalałby na kompozycyjne rozumowanie. Widać to w prawie dokładnie wtedy, gdy trzeba zestawić kilka artykułów ustawy z rozporządzeniem wykonawczym i z orzecznictwem TSUE. Model wytworzy spójną narrację, ale strukturalnie nie buduje grafu zależności - robi to użytkownik, projektując prompt.

Punkt czwarty - otwarte wnioskowanie - znacznie się poprawił dzięki chain-of-thought i instruction tuning, ale nie zniknął. Modele dalej pękają na zadaniach, które wymagają wielokrokowego rozumowania z brakiem jednoznacznej ścieżki - klasyczne sprawy nietypowe w prawie, gdzie trzeba zestawić trzy-cztery źródła i wybrać argumentację.

Punkt piąty - nieprzejrzystość - utrzymał się w pełni. Interpretability research robi postęp (Anthropic mechanistic interpretability, 2024-2026), ale dla praktyki kancelarii model pozostaje czarną skrzynką. To jest bardzo konkretny problem w kontekście art. 14 AI Act (human oversight) i art. 22 RODO (zautomatyzowane decyzje). Kancelaria, która używa modelu do decyzji mających wpływ na klienta, nie umie uzasadnić decyzji w sposób, którego regulator oczekuje. To dokładnie ten moment, gdy zarzut Marcusa stał się zobowiązaniem regulacyjnym.

Punkt szósty - brak integracji z wiedzą uprzednią - jest ciekawy. W 2018 był zarzutem, w 2026 jest ograniczoną odpowiedzią: RAG (retrieval-augmented generation) i fine-tuning domenowy pozwalają model "dozbroić" w wiedzę zewnętrzną. Ale nie jest to taka integracja, o której Marcus myślał - raczej warstwa kontekstu niż głęboka integracja symboliczna. Dla prawa oznacza to, że można dostać model, który "zna" polski KC - ale zna go jako dodatkowy korpus w kontekście, nie jako wbudowaną strukturę pojęciową.

Punkt siódmy - przyczyna kontra korelacja - utrzymał się w pełni i jest prawdopodobnie najważniejszy z dziesięciu. Modele uczą się korelacji, nie struktur przyczynowych. W prawie to ma konsekwencje wprost. Model, któremu pokażemy pięćdziesiąt podobnych rozstrzygnięć sądowych, wyciągnie statystyczne zależności między faktami a wyrokiem, ale nie odwzoruje mechanizmu prawnego, który te wyroki uzasadnia. Dla sprawy rutynowej to może wystarczy. Dla sprawy precedensowej - nie. Kancelaria, która używa modelu do prognozy rozstrzygnięć, powinna mieć to napisane w procedurze: model daje statystykę, nie analizę.

Punkt ósmy - stabilny świat - utrzymał się i powrócił w regulacji pod imieniem "value lock-in" u Bender i Gebru (TOM 018). Model wytrenowany na danych do daty X nie wie nic o zmianach po dacie X. W prawie data X staje się tykającą bombą: każda zmiana ustawowa, każdy nowy wyrok TSUE, każda zmiana wykładni - model ich nie zna, dopóki dostawca nie zrobi update'u. Kancelaria musi mieć procedurę na to, co robi z modelem między update'ami.

Punkt dziewiąty - przybliżenie zamiast pewności - utrzymał się i jest źródłem halucynacji. Model zawsze wybiera najbardziej prawdopodobną sekwencję tokenów, nawet gdy rzeczywistość jej nie obejmuje. Stąd halucynowane sygnatury wyroków, stąd Mata v. Avianca, stąd pierwsze polskie sprawy dyscyplinarne. Marcus to opisał w 2018 bez użycia słowa "halucynacja", które weszło do języka branżowego później.

Punkt dziesiąty - trudność inżynieryjna - utrzymał się, ale zmienił kształt. Teraz inżynier kancelarii nie pisze modelu, tylko prompty i pipeline'y RAG. Trudność pozostała, przesunęła się tylko o warstwę wyżej. Prompt engineering, evaluation, monitoring w produkcji - każdy z nich jest swoją własną dyscypliną.

Dziesięć punktów jako lista compliance

Dla kancelarii 2026 roku najbardziej praktyczną funkcją tekstu Marcusa jest to, że dostarcza gotowej listy dziesięciu pytań, które polityka AI powinna adresować. Rekonstrukcja tej listy w języku compliance.

Pierwsze: ile danych model widział i jakich? Drugie: czy zastosowanie, do którego model wykorzystujemy, wymaga transferu między domenami, którego model nie zrobi? Trzecie: czy zadanie wymaga zestawienia hierarchicznych relacji między wieloma źródłami prawa, co jest dla modelu strukturalnie trudne? Czwarte: ile kroków rozumowania wymaga zadanie? (Im więcej, tym większe ryzyko.) Piąte: czy potrafimy wyjaśnić klientowi, sądowi, regulatorowi, dlaczego model odpowiedział tak, a nie inaczej? Szóste: jak zintegrowana jest wiedza prawnicza domenowa - czy jest w priorach modelu, czy w warstwie kontekstu RAG, czy w promptach? Siódme: czy wyciągamy z modelu tezy przyczynowe, czy tylko statystyczne obserwacje? Ósme: jak kancelaria reaguje na zmianę otoczenia prawnego - kiedy model przestaje być aktualny? Dziewiąte: jakie mamy mechanizmy wychwytywania halucynacji przed przekazaniem wyniku klientowi? Dziesiąte: kto w kancelarii ma kompetencję inżynierską do debugowania pipeline'u, gdy coś przestanie działać?

Polityka AI w kancelarii, która na te dziesięć pytań odpowiada konkretnie - nie ogólnikami - jest w 2026 lepsza niż 90% polityk, które widuję w rozmowach z partnerami zarządzającymi. Większość polityk mówi "używamy AI świadomie i odpowiedzialnie". Marcus pokazuje, co słowo "świadomie" oznacza w praktyce.

Czego Marcusowi brakowało i co dał jego krytykom

Uczciwie. Marcus jest publicznie znany z tego, że bywa polemiczny ponad miarę i że w dyskusji z deep learning mainstream zachowuje się czasem jak prorok, który jako jedyny widzi drogę. Tekst z 2018 jest jednym z jego lepszych, bo polemiczność służy strukturze argumentu, a nie przeciwnie. Ale trzeba pamiętać, że Marcus nie zobaczył tego, co przyniosą transformery - i gdy w 2022-2023 pojawiły się emergent capabilities, jego pierwotna diagnoza okazała się częściowo nietrafiona.

Z kolei krytycy Marcusa zbyt łatwo przechodzili do wniosku "wszystko, co Marcus mówi, jest spóźnione". W kwietniu 2026 widać, że punkty 5, 7, 8, 9 są absolutnie aktualne i nie zostały rozwiązane skalą. Marcus miał rację, że deep learning nie rozwiązuje pewnych problemów samoistnie. Nie miał racji, że skala nie odsunie ich w praktycznie istotny sposób. Prawda jest zniuansowana i w tym sensie właśnie Marcus 2018 pozostaje świetnym punktem wyjścia do rozmowy: bo precyzyjnie nazwał to, co warto sprawdzać przez kolejne lata.

Osiem lat po "Critical Appraisal" mamy możliwość ocenić dziesięć zarzutów Marcusa z perspektywy, której on nie miał. Trzy się rozpuściły (transfer, wiedza uprzednia, inżynieria - każdy częściowo), siedem pozostało w mocy. Dla kancelarii prowadzącej realny pilot AI w 2026 lepszej listy rzeczy do sprawdzenia nie znam.

Co z tego wynika

Marcus napisał w 2018 roku tekst polemiczny, który trzeba było w 2026 roku przeczytać na nowo, z nożyczkami i stoperem. Trzy rzeczy idą do kosza. Siedem trzeba zatrzymać. Tych siedem warto wypisać po imieniu do polityki AI kancelarii, bo za każdym z nich stoi konkretne ryzyko: odpowiedzialność cywilna, postępowanie dyscyplinarne, zarzut z art. 22 RODO, zarzut naruszenia art. 6 Prawa o adwokaturze.

Dla kogo ten materiał. Dla DPO projektującego politykę AI, która wytrzyma pierwszy audyt pod AI Act. Dla CTO kancelarii, który szuka argumentów na rozmowę z dostawcą, że wdrożenie pilotażowe wymaga więcej niż demo. Dla partnera zarządzającego, który chce mieć dziesięć konkretnych pytań, które zada konsultantowi proponującemu wdrożenie AI w poniedziałek rano.

Dla kogo nie. Dla osoby, która oczekuje "wyłomu technicznego" - opisu nowych metod, które zastąpią deep learning. Marcus o tym nie pisze operacyjnie, a jego propozycja hybrydy symboliczno-statystycznej do dzisiaj nie doczekała się pełnej realizacji w produkcji.

Razem z TOM 017 (Shaw i Nave o poznawczej kapitulacji), TOM 018 (Bender i Gebru), TOM 019 (Mitchell) i TOM 020 (Chollet) Marcus zamyka pięcioczęściowy blok retrospektyw klasyki AI, który w Bazie MateMatic spełnia funkcję intelektualnej ramy odniesienia. Shaw i Nave pokazują, co AI robi z głową użytkownika. Bender i Gebru pokazują, czym naprawdę są modele. Mitchell listuje błędy poznawcze o AI. Chollet definiuje, czym jest inteligencja mierzalna. Marcus dostarcza listę operacyjnych słabości. Pięć kątów, jeden portret.

Dla zarządu kancelarii w trzech zdaniach

Marcus wypisał w 2018 roku dziesięć słabości deep learningu - siedem z nich jest w kwietniu 2026 nadal prawdziwych, trzy się rozpuściły. Siedem, które się utrzymało, to dokładnie lista ryzyk, które polityka AI w kancelarii powinna adresować explicite: nieprzejrzystość, brak przyczynowości, założenie stabilnego świata, halucynacje, trudność inżynieryjna, ograniczona struktura hierarchiczna, ograniczone wnioskowanie wielokrokowe. Każde z nich ma w AI Act, RODO i Prawie o adwokaturze swoje odzwierciedlenie - i każde wymaga od kancelarii konkretnej procedury, a nie deklaracji, że "AI jest używana świadomie".