Zarząd pięćdziesięcioosobowej kancelarii siedzi na wtorkowym posiedzeniu. Na ekranie slajd dostawcy: "nasz model osiąga 91% accuracy w zadaniach Polskiego Prawa Handlowego, 87% w RODO, 82% w KC". Partner zarządzający pyta: "To jest lepiej, czy gorzej niż nasz średni associate?". Nikt nie wie, jak to porównać. Dostawca dorzuca: "To benchmark niezależny, LegalBench-PL, 850 pytań". Partner mówi: "Sprawdźmy pilot". Pilot idzie przez kwartał na sprawach obejmujących coś, co klient prosił nazwać "niestandardowym". Wynik: model robi błędy, których nie robiłby associate, a nie robi błędów, których associate zwykle robi. Benchmark mówił 91%, a rzeczywistość wygląda inaczej.

Chollet w 2019 roku wyjaśnił, dlaczego ten scenariusz jest strukturalnie nieunikniony. Benchmark mierzy umiejętność - skill - w wąsko zdefiniowanym zadaniu. Umiejętność można bardzo łatwo "kupić" trzema sposobami: więcej priorów (model wie więcej z góry), więcej doświadczenia (więcej danych treningowych), węższy zakres (mniej wariantów, na których trzeba sobie radzić). Żaden z tych trzech sposobów nie pokazuje, czy model umie się uczyć. A kancelaria nie kupuje modelu po to, żeby odpowiadał na pytania z benchmarku. Kupuje po to, żeby poradził sobie ze sprawą, której wcześniej nikt mu nie pokazał.

O czym jest ten materiał

Chollet strukturyzuje argument w trzech aktach. Akt pierwszy: historia pomiaru inteligencji - od Spearman'a i czynnika g po benchmarki AI jak ImageNet, Atari i GLUE. Pokazuje dwie historyczne koncepcje: inteligencja jako zbiór konkretnych umiejętności (task-specific) i inteligencja jako ogólna zdolność uczenia się nowych zadań (general). Branża AI de facto zawsze wybierała pierwszą, choć deklarowała drugą. Akt drugi: formalna definicja inteligencji oparta na teorii informacji algorytmicznej. Inteligencja to efektywność nabywania umiejętności - ile umiejętności zyskujesz na jednostkę doświadczenia i priorów, w jak szerokim zakresie zadań, z jaką trudnością generalizacji. Akt trzeci: ARC - benchmark zaprojektowany tak, żeby wymagał jedynie "core knowledge priors" (to, co dziecko umie przed pierwszą lekcją: obiektność, zliczanie, elementarna geometria, sprawczość) i jednocześnie wymuszał rozwiązywanie zupełnie nowych zadań na podstawie trzech lub czterech przykładów.

Kluczowa teza artykułu, którą Chollet wraca w dziesięciu konfiguracjach: skill is not intelligence. Można zbudować system, który bije najlepszego człowieka na świecie w Go, a jednocześnie nie umie zagrać w inną grę planszową, dopóki nikt nie przeleci przez nią miliardem symulacji. Deep Blue, AlphaGo, GPT-3 z 2020 roku - wszystkie są genialne w swojej wąskiej dziedzinie i wszystkie są z Chollet perspektywy raczej rozbudowanymi tablicami lookup niż bytami inteligentnymi.

Z tego wynika kryterium oceny systemu AI. Nie pytaj, jak dobrze robi to, co widział. Pytaj, jak szybko uczy się tego, czego nie widział, mając minimalne priory. To jest pytanie, którego nie zadaje żaden benchmark dostawcy - i którego każdy compliance officer powinien nauczyć się zadawać.

Jednym zdaniem: Chollet napisał w 2019 roku dowód matematyczny na to, że reklama dostawców AI z 2026 roku mierzy nie to, co obiecuje.

Recenzja właściwa

Skill można kupić. Intelligence się zarabia.

Najcenniejszy praktycznie fragment Chollet to obserwacja, że umiejętność w wąsko zdefiniowanym zadaniu jest funkcją trzech zmiennych: ile wiedzy model miał na starcie (priors), ile widział przykładów w treningu (experience) i jak szeroki jest zakres zadania (scope). Każdą z tych trzech można zwiększyć wydając pieniądze: zakupić fine-tuning na korpusie branżowym, kupić większy dataset, zawęzić zakres do tego, w czym model się sprawdza. Umiejętność rośnie i benchmark pokazuje imponujące cyfry. Inteligencja nie rośnie wcale.

Dla kancelarii oceniającej dostawcę to jest bardzo operacyjna diagnoza. Gdy dostawca chwali się "modelem wyspecjalizowanym w polskim prawie handlowym", należy zadać trzy pytania. Pierwsze: ile i jakich danych poszło na fine-tuning - czyli ile priorów domenowych model dostał na talerzu. Drugie: z jakich źródeł pochodzą pytania benchmarkowe - czy przypadkiem nie wyglądają jak pytania, które były w danych treningowych. Trzecie: jak model radzi sobie z zadaniami, które są strukturalnie nowe, ale mieszczą się w domenie. Trzecie pytanie rozstrzyga. Jeśli model spada z 91% do 45%, to co dostawca nazywa inteligencją, jest w rzeczywistości dobrze zaktualizowaną tablicą lookup.

AI Act art. 15 wymaga od dostawców systemów wysokiego ryzyka zapewnienia odpowiedniego poziomu accuracy, robustness i cybersecurity. Co to znaczy w praktyce, pozostawia dyskusji z notified body. Chollet dostarcza operacyjnej definicji, której w rozporządzeniu zabrakło: "accuracy" deklarowana na benchmarku z którego zadania były w danych treningowych, to nie jest accuracy w sensie Chollet. To jest bezpieczeństwo pozorne. Robustness w rozumieniu Chollet to zdolność modelu do utrzymania poziomu umiejętności na zadaniach, które nie były w treningu. Dla compliance officera: jeżeli dostawca nie oddziela zbioru treningowego od testowego w sposób, który można skontrolować, każda deklarowana liczba jest podejrzana.

Priors, czyli co model wie, zanim zacznie

Chollet ma przekonujący rozdział o priors. Prior to wiedza, którą system ma przed rozpoczęciem nauki - architektura, wstępne wagi, dane treningowe. Prior nie jest niczym złym sam w sobie, odwrotnie - ludzie też mają priors (Chollet je nazywa core knowledge: obiektność, agentność, liczba, elementarna geometria). Różnica polega na tym, że core knowledge u człowieka jest oszczędny i uniwersalny, a u modelu bywa ogromny i specyficzny dla zadania. Model, który ma w priorach przeczytany internet, ma niemal wszystko, co benchmark może go zapytać, widzianie wcześniej.

W kontekście prawnym: model wytrenowany na korpusie prawnym ma w priorach dziesiątki tysięcy projektów umów, pism procesowych i komentarzy. To, że taki model napisze "podobny" dokument, nie świadczy o tym, że rozumie mechanizmy prawa. Świadczy o tym, że widział dużo podobnych dokumentów. Test Chollet byłby taki: postawić przed modelem zadanie strukturalnie nowe - umowa regulująca stan prawny, który nie pojawiał się w literaturze (bo dotyczy np. specyficznej konfiguracji biznesowej między trzema jurysdykcjami) - i zobaczyć, jak sobie radzi. Dostawcy tego testu nie robią, bo wynik jest dla nich kłopotliwy. Kancelaria, która zrobi własny odpowiednik tego testu w pilotażu, w 2026 jest w przewadze konkurencyjnej nad tą, która kupiła na podstawie pdf-a z benchmarkami.

Generalization difficulty

Kluczowym parametrem w formalnej definicji Chollet jest "trudność generalizacji". Chollet rozróżnia kilka poziomów: zero generalizacji (system robi dokładnie to, co widział), lokalną generalizację (nowa instancja w widzianej klasie), szeroką generalizację (nowa klasa w widzianej domenie), ekstremalną generalizację (nowa domena). Każdy wyższy poziom to kwalitatywnie inna zdolność, nie ilościowe rozszerzenie poprzedniego.

W prawie ta skala jest bardzo czytelna. Model zwrócił poprawną klauzulę NDA - to generalizacja zerowa (skopiował coś, co miał w treningu). Model zmodyfikował klauzulę NDA pod konkretnego klienta - to lokalna generalizacja. Model napisał kompletną umowę handlową w schemacie, którego nie widział wprost, ale dostał dwa podobne przykłady - szeroka generalizacja. Model zaproponował strukturę prawną dla transakcji w obszarze, którego nikt przed nim nie opisał (np. nowe regulacje o cyfrowym euro) - ekstremalna generalizacja. Chollet argumentuje, i doświadczenie z lat 2022-2026 to potwierdza, że modele klasy GPT-4 czy Claude 3.5 świetnie sobie radzą na poziomach zero i lokalnym, dobrze na szerokim, i strukturalnie pękają na ekstremalnym. Partner kancelarii, który wie to z góry, projektuje piloty tak, żeby odzwierciedlały ten właśnie rozkład - nie testować modelu tylko na NDA, testować na zadaniach, które nie były we wnioskach rozliczeniowych kancelarii w zeszłym roku.

ARC, czyli benchmark, który nie kłamie

W trzecim akcie Chollet proponuje Abstraction and Reasoning Corpus - ARC. Zestaw zadań wizualnych (kolorowe siatki), każde z dwoma-czterema przykładami, na podstawie których trzeba wywnioskować regułę i zastosować ją na nowym przykładzie. Zadania są zaprojektowane tak, żeby wymagały wyłącznie core knowledge (to, co dziecko wie przed szkołą) i żeby nie było możliwości "nauczyć się" korpusu treningiem - bo każde zadanie jest jedyne w swoim rodzaju. Człowiek dorosły rozwiązuje ARC na poziomie ~85%, modele z 2019 roku rozwiązywały na poziomie 0%.

W grudniu 2024 pierwszy raz model (OpenAI o3) przekroczył próg 85% na ARC-AGI-1, ale kosztem ~3400 dolarów za zadanie i milionów FLOPs. Chollet skomentował: "dowód, że skill można kupić". W 2025 pojawiła się ARC-AGI-2, trudniejsza, i do dzisiaj nie została rozwiązana. ARC Prize jest od 2024 roku konkursem z milionową pulą nagród. Z perspektywy kancelarii ARC jest mniej ważny jako benchmark, a bardziej jako paradygmat: jeśli chcesz wiedzieć, czy model jest inteligentny, zaprojektuj zadanie, które jest strukturalnie nowe i wymaga tylko wiedzy podstawowej, a potem zobacz, czy model je rozwiąże bez podpowiedzi.

W praktyce dla kancelarii: ARC-równoważny test prawny wygląda tak. Stwórzcie przypadek zupełnie fikcyjny, na wzór egzaminu adwokackiego, ale z elementami, których w polskim prawie nie ma (np. wymyśloną ustawę z trzema artykułami). Pokażcie modelowi dwa rozstrzygnięcia w analogicznych sprawach. Zapytajcie, jak rozstrzygnąć trzecią. Jeśli model odpowiada sensownie - być może jest coś w nim poza lookup. Jeśli odpowiada schematami z prawdziwego KC - jest lookupem, który nie rozumie, że ta fikcja nie jest ciągiem z jego korpusu treningowego.

Czego Chollet w 2019 nie docenił

Trzeba uczciwie przyznać. Chollet pisał w 2019, zanim skalowanie modeli wyprodukowało efekty, których teoria niespecjalnie oczekiwała. Emergent capabilities w modelach powyżej pewnego rozmiaru - zero-shot reasoning, chain-of-thought, in-context learning - są zjawiskami, które częściowo kwestionują jego ostrą dychotomię "skill vs intelligence". Modele klasy GPT-4 potrafią rozwiązać zadania, których nie widziały w treningu, i nie wygląda to wyłącznie na lookup. Chollet sam w publikacjach z 2024 i 2025 przyznaje, że in-context learning jest częściowo mechanizmem "rozumowania w czasie rzeczywistym", choć ograniczonym.

Drugi brak. Chollet nie rozpatruje konsekwencji swojej definicji dla przemysłu. W jego ramie sensowne wdrożenie modelu w kancelarii jest właściwie niemożliwe - każda wąska domena jest "kupioną umiejętnością", a inteligencja jako taka nie istnieje w gotowych do wdrożenia systemach. W praktyce kancelarie korzystają z AI mimo wszystko i się to opłaca, o ile robią to świadomie. Czyli: rama Chollet jest świetnym narzędziem sceptycyzmu, gorszym narzędziem decyzji wdrożeniowej. Trzeba ją uzupełnić pragmatyzmem.

Sześć lat po "On the Measure of Intelligence" podstawowa teza Chollet pozostaje w mocy: benchmark mierzy umiejętność, nie inteligencję. Kancelaria, która kupuje model na podstawie benchmarków, kupuje dokładnie to - umiejętność w zadaniach podobnych do benchmarkowych. Nie kupuje zdolności do generalizacji. Czy to problem, zależy od tego, jakie zadania powierzy modelowi. Chollet pomaga odróżnić, co się powierza.

Co z tego wynika

Chollet napisał artykuł teoretyczny o inteligencji, ale dostarczył operacyjny framework oceny dostawcy AI, który żadna firma konsultingowa nie oferuje. Cztery pytania z tego frameworka, które compliance officer powinien wpisać w RFP każdego pilota AI w kancelarii.

Po pierwsze: jakie priors ma model, którego kupujemy? Czyli: co było w danych treningowych, co w fine-tuningu domenowym, jakie ograniczenia architektoniczne. Dostawca, który odpowiada "to poufne" - odpowiada "nie wiem".

Po drugie: jak oddzielony jest zbiór testowy od treningowego? Jeśli benchmark, którym dostawca się chwali, miał jakiekolwiek fragmenty w danych treningowych (a w modelach opartych na internecie prawie zawsze miał) - deklarowana liczba jest iluzją. To jest dokładnie problem, który w 2026 nazywa się data contamination, i który dostawcy bardzo niechętnie dyskutują.

Po trzecie: jak model radzi sobie z zadaniami o wysokiej generalization difficulty? Czyli: zadaniami, które są w domenie prawnej, ale strukturalnie nowe. Pilot nie powinien testować modelu na tym, co już w kancelarii jest codziennością - powinien testować na tym, co się kancelarii zdarza raz na dziesięć zleceń.

Po czwarte: jaka jest relacja ceny do efektywności nabywania umiejętności? Jeśli model rozwiązuje zadanie kosztem niewspółmiernym do wartości zadania (o3 rozwiązywał zadanie ARC kosztem 3400 USD), dostawca sprzedaje ci moc obliczeniową przebraną za inteligencję. To też jest wynik, ale trzeba umieć go rozpoznać.

Dla kogo ten materiał. Dla CTO kancelarii, który projektuje piloty AI i chce ramę teoretyczną za zdroworozsądkową praktyką. Dla compliance officera, który mapuje art. 15 AI Act na operacyjne testy dostawców. Dla partnera zarządzającego, który chce zrozumieć, dlaczego cyfra 91% w prezentacji dostawcy potrafi w praktyce oznaczać coś zupełnie innego niż w kancelarii przewidywaliśmy.

Dla kogo nie. Dla kogoś, kto szuka ostatecznej odpowiedzi "kup albo nie kupuj". Chollet odpowiedzi nie daje. Daje narzędzie do zadawania właściwych pytań. To jest więcej warte niż czystość odpowiedzi, bo decyzja zakupowa w kancelarii jest zawsze kwestią ryzyka i sytuacji, nie cyfry w benchmarku.

Razem z TOM 019 (Mitchell o czterech iluzjach), TOM 018 (Bender i Gebru o papudze stochastycznej) i TOM 017 (Shaw i Nave o poznawczej kapitulacji) Chollet tworzy czwarty narożnik intelektualnej ramy, z której kancelaria 2026 może oceniać to, co jej sprzedają. Mitchell dostarcza listę błędów poznawczych. Bender i Gebru dostarczają diagnozę, czym naprawdę są modele. Shaw i Nave pokazują, co modele robią z głową ich użytkownika. Chollet dostarcza formalnego narzędzia do rozdzielenia tego, co dostawca obiecuje, od tego, co sprzedaje.

Dla zarządu kancelarii w trzech zdaniach

Chollet w 2019 roku udowodnił, że benchmark mierzy umiejętność, nie inteligencję - i że umiejętność można kupić większymi priorami, większymi danymi treningowymi albo węższym zakresem testu, co dokładnie robi każdy dostawca AI prezentujący kancelarii swoje cyfry. AI Act art. 15 wymaga accuracy, robustness i cybersecurity, ale nie definiuje, czym są - Chollet dostarcza operacyjnej definicji, której w rozporządzeniu zabrakło. Kancelaria, która przed każdym pilotem zadaje cztery pytania Chollet (co było w treningu, jak oddzielono test, jaka jest generalizacja, jaki jest stosunek kosztu do trudności) kupuje świadomie; kancelaria, która tego nie robi, kupuje PDF-a z benchmarkami.