Item: Why AI is Harder Than We Think
Author: Wiesław Mazur

Kwiecień 2021. Melanie Mitchell z Santa Fe Institute opisuje cztery błędy poznawcze, które od siedemdziesięciu lat powodują, że po każdej "wiośnie AI" przychodzi "zima". Pięć lat później, w kwietniu 2026, wiosna trwa dalej, ale te same cztery błędy wracają jak stałe słońce nad północną półkulą - tym razem w deckach dostawców SaaS, RFP kancelarii i ocenach ryzyka pilotów. Mitchell napisała katalog, który w 2021 był akademicki. W 2026 jest listą pytań, które compliance officer powinien zadać przy każdym pilocie.

Dostawca pokazuje demo: model pisze projekt apelacji. "Pierwszy krok do agenta, który prowadzi sprawę." Mitchell na to odpowiedziałaby: pierwsza małpa, która wdrapała się na drzewo, nie zbliżyła się do Księżyca.

W piątek rano, przy drugiej kawie, partner zarządzający pokazuje slajd z prezentacji, którą wczoraj dostarczył dostawca. Slajd mówi: "nasz agent prowadzi całą sprawę procesową - od przyjęcia zlecenia do pisma końcowego". Na demo widać, jak model wypluwa czysty projekt pozwu na podstawie trzech zdań opisu. Partner pyta spokojnie: "To my to kupujemy, czy nie kupujemy."

Odpowiedź, którą Mitchell podaje w swoim artykule z 2021 roku, jest taka: zanim cokolwiek kupicie, sprawdźcie, które z czterech iluzji poznawczych jest w tym decku. Nie będziecie w stanie ich nie znaleźć, bo są w każdym decku. Ale samo ich nazwanie zmienia rozmowę z dostawcą.

O czym jest ten materiał

Mitchell strukturyzuje argument wokół czterech błędów, które od pokoleń wracają w myśleniu o sztucznej inteligencji i prowadzą do cyklu "springs and winters". Pierwszy: wąska inteligencja jest na kontinuum z inteligencją ogólną - czyli założenie, że demo w jednej dziedzinie to "pierwszy krok" do AGI. Drugi: łatwe rzeczy są łatwe, a trudne są trudne - paradoks Moravca, który mówi odwrotnie: dla maszyn łatwe jest to, co trudne dla nas, a trudne jest to, co dla nas tak oczywiste, że nawet nie nazywamy tego myśleniem. Trzeci: pokusa wishful mnemonics - nazywanie funkcji komputerowych słowami człowieka ("UNDERSTAND", "LEARN", "REASON") i potem wierzenie we własne nazwy. Czwarty: inteligencja jest cała w mózgu - ignorowanie tego, co od kilkudziesięciu lat pokazuje embodied cognition, że bez ciała nie ma rozumienia.

Z tych czterech iluzji Mitchell wyciąga jedno przewidywanie, które w 2021 brzmiało jak przestroga, a w 2026 brzmi jak diagnoza: kolejna zima AI nie przyjdzie, bo modele przestaną działać. Przyjdzie, bo obietnice wyprzedzą możliwości tak bardzo, że rynek się cofnie. Artykuł nie jest przeciwko AI. Jest przeciwko okładkom magazynów i deckom inwestorskim.

Jednym zdaniem: Mitchell napisała podręcznik rozpoznawania bullshitu w komunikacji o AI pięć lat przed tym, zanim ten podręcznik stał się codziennym narzędziem compliance officera.

Recenzja właściwa

Iluzja pierwsza: krok, który prowadzi donikąd

Fallacy pierwsza - "first-step fallacy" - w wykonaniu Mitchell brzmi następująco. Deep Blue wygrało z Kasparowem i ogłoszono "pierwszy krok rewolucji AI". Watson wygrał w Jeopardy i IBM ogłosił "pierwszy krok w erę cognitive computing". GPT-3 wygenerował wiersz i media ogłosiły "krok w stronę AGI". Mitchell przytacza Huberta Dreyfusa: to tak, jakby ogłosić, że pierwsza małpa wdrapana na drzewo jest w drodze na Księżyc.

Dla kancelarii w 2026 roku fallacy pierwsza materializuje się w rozmowach o pilotach. Model napisał w pilocie projekt umowy NDA, który partner ocenił jako "taki, jakby napisał to trzeciostażysta". Z tego nie wynika, że model za dwa lata napisze umowę akcjonariuszy, a za pięć poprowadzi sprawę M&A. Wynika z tego tylko tyle, że model napisał NDA. Kontinuum istnieje jedynie w głowie osoby, która przeżyła demo. Każdy kolejny krok w stronę złożonych zadań nie jest rozciągnięciem poprzedniej zdolności, tylko osobnym problemem, który bywa o rzędy wielkości trudniejszy. Mitchell cytuje Gary'ego Marcusa: Go było wyzwaniem dla ludzi, ale dla AI o rząd wielkości trudniejsze są kalambury - wymagają teorii umysłu, aktorstwa i języka jednocześnie.

Praktyczny wniosek dla partnera zarządzającego: każde rozszerzenie zastosowania AI w kancelarii trzeba analizować jako osobny projekt, z własną oceną ryzyka, nie jako naturalną kontynuację pilotu. Pilot na NDA nie uzasadnia wdrożenia w M&A. Regulacyjnie potwierdza to AI Act art. 26 - obowiązki deployera są liczone przypadek po przypadku, zastosowanie po zastosowaniu.

Iluzja druga: co łatwe, co trudne

Paradoks Moravca Mitchell relacjonuje niemal z czułością. Herbert Simon pisał w latach sześćdziesiątych, że "wszystko, co interesujące w myśleniu, dzieje się powyżej stu milisekund - tyle trwa rozpoznanie własnej matki". Czyli: o percepcji nie warto myśleć, liczy się rozumowanie. Andrew Ng w 2016: "jeśli typowy człowiek wykonuje zadanie myślowe w mniej niż sekundę, automatyzujemy je teraz albo w niedalekiej przyszłości". To samo założenie, czterdzieści lat później.

Moravec odpowiada cytatem, który wart jest przytoczenia: "Zakodowana w sensorycznej i motorycznej części ludzkiego mózgu jest miliard lat doświadczenia o tym, jak przetrwać w świecie. Deliberatywny proces, który nazywamy rozumowaniem, jest cienkim nalotem na tej warstwie." Mitchell dokłada Minsky'ego: "Zwykle najmniej zdajemy sobie sprawę z tego, co nasze umysły robią najlepiej."

W kancelarii paradoks Moravca widać codziennie. Model podsumuje trzystustronicową umowę w trzech akapitach bezbłędnie (zadanie dla człowieka wymagające kilku godzin skupienia) i jednocześnie nie wyczuje, że klient, który pyta "czy mogę podpisać", jest w rzeczywistości w stanie emocjonalnym, w którym nie powinien podpisywać nic. Pierwsze zadanie jest dla niego strukturalnie proste. Drugie - strukturalnie niedostępne, bo wymaga ciała, obecności, wrażliwości społecznej. Partner, który to wie, używa AI w pierwszym typie zadań i trzyma się z dala od drugiego. Partner, który tego nie wie, w którymś momencie wysłucha klienta, że adwokat był świetny, ale niezbyt po ludzku. Z perspektywy art. 14 AI Act to jest dokładnie to, co znaczy "human oversight" - nie nadzór nad modelem, tylko utrzymanie tych elementów praktyki, których model strukturalnie nie wykona.

Iluzja trzecia: jak słowa nas okłamują

Mitchell cytuje Drew McDermotta z 1976: jeżeli badacz nazywa główną pętlę swojego programu UNDERSTAND, to popełnia błąd, bo oszukuje publiczność i samego siebie. Powinien ją nazwać G0034 i próbować udowodnić, że G0034 implementuje rozumienie. W 2021 Mitchell pokazuje, że błąd ten jest dziś regułą, a nie wyjątkiem: IBM mówi, że Watson "rozumie kontekst", DeepMind, że AlphaGo "myśli", "ma cel", "chce wygrać". Autorzy to wiedzą, że modele tego nie robią w ludzkim sensie. Ale słowa już żyją własnym życiem.

Najbardziej praktyczny przykład Mitchell: benchmarki w NLP. "Stanford Question Answering Dataset" (SQuAD). "Reading Comprehension Dataset" (RACE). "General Language Understanding Evaluation" (GLUE). Modele przekraczają na nich wyniki ludzi. Nagłówki: "AI rozumie lepiej niż człowiek". Rzeczywistość: benchmarki mierzą bardzo wąskie wersje tych zdolności i często można je rozwiązać przez shortcut learning, nie przez rozumienie.

Z perspektywy compliance fallacy trzecia jest operacyjnym ryzykiem. Dostawca pisze w umowie, że "model rozumie umowy handlowe" - i kancelaria kupuje to w dobrej wierze. Po wdrożeniu okazuje się, że model "rozumie" w sensie: statystycznie pasują tokeny z jego korpusu treningowego. Nic więcej. Art. 50 AI Act w zakresie transparency dla GPAI wymaga, żeby użytkownik końcowy wiedział, że ma do czynienia z systemem AI. To minimum. Maksimum, które powinno być w kontrakcie kancelarii z dostawcą: opis funkcji modelu w języku G0034, nie w języku UNDERSTAND. Jeżeli dostawca nie umie opisać, co jego model robi, bez antropomorfizacji - kancelaria nie kupuje usługi, tylko narrację marketingową.

Iluzja czwarta: mózg w słoiku

Ostatnia fallacy jest filozoficznie najciekawsza i w 2026 pozornie najmniej praktyczna. Mitchell omawia "Physical Symbol System Hypothesis" Newella i Simona: hipotezę, że inteligencja ogólna jest osiągalna w samym cyfrowym komputerze, bez ciała. Współczesne deep learning dziedziczy to założenie - sieci neuronowe są "mózgiem w słoiku", który przyjmuje dane i wypluwa odpowiedzi bez żadnej interakcji ze światem. Mitchell przytacza embodied cognition: nie ma części mózgu odpowiadających za "myślenie oderwane", wszystkie nasze abstrakcje są ugruntowane w ciele.

Dla kancelarii 2026 to nie jest filozoficzna subtelność. Model, który pisze projekt pisma procesowego, nie był w sądzie. Nie widział, jak sędzia reaguje na argument. Nie zna temperatury sali rozpraw. Nie wie, że pełnomocnik strony przeciwnej ma zwyczaj zgłaszać te same zarzuty od piętnastu lat i że sędzia ma tendencję ich nie uznawać. Cała ta "wiedza ucieleśniona" - w sensie Mitchell - jest niedostępna modelowi z zasady, nie z powodu braku danych. To jest granica, której skalowanie nie zlikwiduje. Wniosek: każde pismo wygenerowane przez model wymaga filtra prawnika, który ma doświadczenie ucieleśnione. Odwrotnie nie jest i nie będzie.

Czego Mitchell w 2021 nie przewidziała

Dwie rzeczy, uczciwie. Po pierwsze - Mitchell zakładała, że nadchodzi kolejna zima AI, a tymczasem wiosna trwa już piąty rok i nie widać jesieni. Modele klasy GPT-4, Claude 3.5, Gemini 2.5 wytworzyły zdolności (rozumowanie wielokrokowe, programowanie, obsługa narzędzi), których jej cztery fallacies nie wykluczały, ale też nie przewidywały. To nie znaczy, że fallacies są błędne. Znaczy tylko, że "disappointment" nie musi przyjść jako załamanie rynku - może przyjść jako dyskretne korekty oczekiwań, projekt po projekcie, pilot po pilocie.

Po drugie - Mitchell pisała o AI głównie jako projekcie badawczym. Nie zadawała pytania, co się stanie, gdy jej cztery fallacies będą znajdowały się w deckach każdego dostawcy SaaS, każdego RFP i każdej prezentacji zarządowej jednocześnie. W 2026 fallacies nie są przedmiotem badań - są strukturalną własnością komunikacji rynku AI. Compliance officer nie potrzebuje tych fallacies rozumieć filozoficznie. Potrzebuje ich rozpoznawać operacyjnie.

Pięć lat po "Why AI is Harder Than We Think" cztery fallacies Mitchell są jedynym znanym mi narzędziem, które przenosi niepokój compliance officera z "nie ufam temu dostawcy" do strukturalnych pytań w RFP. Kto pisze prezentację, w której nie ma ani jednej z czterech - niech wskaże rękę. Nikt nie wskaże.

Co z tego wynika

Mitchell nie jest sceptykiem AI. Jest człowiekiem, który prosi, żeby nie mylić narzędzia z człowiekiem, i przy okazji daje operacyjny checklist do rozpoznawania takich myłek. Cztery fallacies to nie lista zakazów. To cztery pytania, które compliance officer może zadać na każdym etapie - przy RFP, przy pilocie, przy wdrożeniu, przy audycie.

Pytanie pierwsze: czy dostawca traktuje ten pilot jako pierwszy krok do czegoś większego, na podstawie tego, co pokazał w demo? (Jeżeli tak - ile kolejnych kroków przygotował osobnymi pilotami? Żaden? Fallacy pierwsza.) Pytanie drugie: czy demo pokazuje model na zadaniach, które są łatwe dla człowieka, czy trudne? (Jeżeli łatwe dla człowieka, a model robi to przekonująco - uwaga, może to być właśnie ten typ zadań, który dla maszyn jest strukturalnie nieosiągalny, tylko nikt jeszcze nie zauważył, gdzie model pęknie. Fallacy druga.) Pytanie trzecie: ile razy w prezentacji pada słowo "rozumie", "uczy się", "myśli", "decyduje"? (Jeżeli więcej niż pięć - dostawca jest w wishful mnemonic. Fallacy trzecia.) Pytanie czwarte: czy zadanie, do którego kupujemy model, wymaga wiedzy ucieleśnionej - obecności, wrażliwości społecznej, doświadczenia sądowego? (Jeżeli tak - model tego nie zrobi i nie zrobi też za pięć lat. Fallacy czwarta.)

Dla kogo ten materiał. Dla compliance officera, który szuka ramy intelektualnej dla rozmów o pilotach AI. Dla partnera, który chce wiedzieć, dlaczego jego intuicja o "przepakowanej obietnicy dostawcy" zwykle się potwierdza. Dla DPO, który mapuje wymagania art. 14 AI Act na konkretne procedury nadzoru człowieka. Dla każdego, kto chce czytać o AI tekst napisany przez osobę, która zna matematykę i zna swoją granicę.

Dla kogo nie. Dla tych, którzy chcą wiedzieć, "jak wdrożyć AI w kancelarii w sześciu krokach". Mitchell nie wdraża. Tłumaczy, dlaczego wdrożenia w sześciu krokach nigdy nie wyglądają jak w sześciu krokach. Jeśli zarząd kancelarii potrzebuje takiej ramy myślenia przed decyzją, ten artykuł jest lepszym zakupem niż większość raportów konsultingowych z 2026.

Czytając Mitchell w kwietniu 2026, razem z Bender i Gebru z TOM 018, z Shaw i Nave z TOM 017, z mapowaniem MIT w TOM 016, widać spójny portret. Modele robią rzeczy. Ludzie projektują na nie więcej, niż one robią. Regulacja próbuje tę różnicę nazwać. Kancelaria, która chce się w tej różnicy poruszać, musi ją najpierw zobaczyć. Mitchell pomaga zobaczyć.

Dla zarządu kancelarii w trzech zdaniach

Cztery fallacies opisane przez Mitchell w 2021 roku są w kwietniu 2026 strukturalną własnością komunikacji każdego dostawcy AI i każdej konsultingowej prezentacji zarządowej - nikt im nie ucieka, bo są głęboko zakorzenione w sposobie, w jaki ludzie mówią o maszynach. Compliance officer, który umie je rozpoznać w tekście RFP, w decku pilotu i w umowie SaaS, ma narzędzie, które pozwala zadać dostawcy pytania, na które dostawca nie jest przygotowany. Każda kancelaria, która planuje wdrożenie AI w drugiej połowie 2026, powinna mieć te cztery pytania wydrukowane obok telefonu osoby, która prowadzi negocjacje z dostawcą.