Czy AI rozumuje krok po kroku? Stanford zmierzył to twardo: najlepszy model 0,46

Kupujesz narzędzie AI, które ma „przeanalizować sprawę", czyli wykonać ciąg kroków: ustalić strony, ich role, terminy, zależności, a potem wyprowadzić z tego wniosek. To jest rozumowanie strukturalne: utrzymać w głowie relacje (kolejność, hierarchię, powiązania) i poprawnie nimi manipulować. Stanford właśnie zbudował pierwszy benchmark, który mierzy dokładnie tę zdolność, w oderwaniu od wiedzy dziedzinowej i od narzędzi. Wynik jest trzeźwiący: na trudniejszych zadaniach najlepszy z trzynastu czołowych modeli osiąga 0,46 na 1. Nie 46 procent „mniej więcej dobrze", tylko 46 procent w pełni poprawnych odpowiedzi tam, gdzie odpowiedź jest jedna i sprawdzalna mechanicznie.

To nie jest paper o halucynacjach w cytatach. To paper o czymś głębszym: czy pod spodem w ogóle jest rozumowanie wielokrokowe, na którym opierasz wniosek. Odpowiedź autorów brzmi: jeszcze nie.

Adaptacja AI do realnej pracy w coraz większym stopniu opiera się na rozumowaniu wieloetapowym: model nie tyle przypomina sobie fakt, ile prowadzi ciąg kroków, w którym każdy następny zależy od poprzedniego. To jest rdzeń tego, co badacze nazywają rozumowaniem strukturalnym, czyli zdolnością do rozumienia i poprawnej obróbki relacji: kolejności, hierarchii, powiązań. Pytanie, jak dobrze LLM-y to potrafią, jest dla każdego, kto wdraża AI do poważnych zadań, znacznie ważniejsze niż to, czy model ładnie pisze.

Zespół ze Stanford i Abacus.AI postawił to pytanie wprost i, co rzadkie, zbudował narzędzie, które daje na nie twardą odpowiedź. DSR-Bench jest dla mnie ciekawy nie dlatego, że pokazuje, jak modele się mylą (pokazuje), ale dlatego, że robi to deterministycznie, bez miejsca na „mniej więcej dobrze", i diagnostycznie, czyli wskazuje, gdzie dokładnie pęka rozumowanie. A to są dwie rzeczy, których governance AI potrzebuje najbardziej.

O czym jest ten materiał

DSR-Bench bierze fundamentalne struktury danych jako soczewkę do badania rozumowania algorytmicznego. Pomysł jest elegancki. Struktury danych to klocki, z których złożone są algorytmy: tablica to sekwencja, kolejka to porządek czasowy, drzewo to hierarchia, graf to sieć powiązań, hashmapa to mapowanie klucz-wartość. Jeśli chcesz sprawdzić, czy model umie rozumować o relacjach, każ mu wykonać operacje na tych strukturach: dodaj element, usuń, przejdź drzewo, znajdź ścieżkę w grafie. Odpowiedź jest jednoznaczna i da się ją wyliczyć programem, więc ocena jest deterministyczna, bez sędziego-człowieka i bez sędziego-LLM.

Skala jest poważna: 20 struktur danych, 35 operacji, 4140 instancji zadań, trzy poziomy długości wejścia (krótkie, średnie, długie), trzynaście czołowych modeli (instrukcyjne i rozumujące, otwarte i zamknięte), każde zadanie liczone trzykrotnie, razem 161 460 ocen. Wszystkie dane generowane syntetycznie, co minimalizuje ryzyko, że model „widział to w treningu" (skażenie zbioru testowego). Do tego pięć komponentów ewaluacji: main (zadania kanoniczne), challenge (struktury złożone, dłuższe wejścia), spatial (dane wielowymiarowe), realistic (te same zadania ubrane w język narracyjny) i code (czy generowanie kodu pomaga).

Główne wyniki, podane z kontekstem:

Na zbiorze głównym najlepszy model (GPT-5 z średnim wysiłkiem rozumowania) osiąga 0,79, a stawka rozjeżdża się drastycznie w dół: najsłabsze modele instrukcyjne schodzą poniżej 0,1.
Na zbiorze challenge najlepszy model osiąga zaledwie 0,46. To jest sufit czołówki na trudniejszych przypadkach.
Rozumowanie wieloatrybutowe leci o 30 do 50 procent. Modele radzą sobie z prostą kolejką, ale na kolejce priorytetowej (gdzie każdy element ma dodatkowo priorytet) dokładność spada o jedną trzecią do połowy. W zadaniu na hashmapę modele mylą klucze z wartościami, kasują nie te elementy i halucynują wpisy.
Rozumowanie wieloskokowe pada na strukturach hierarchicznych i sieciowych. Modele są niezłe na prostym drzewie BST, ale na drzewie czerwono-czarnym dokładność spada o ponad 30 procent, a dalej na drzewach B+ i na przechodzeniu grafu z wieloma powiązaniami. Analiza śladów pokazuje, że modele gubią węzły w krokach pośrednich.
Modele ignorują reguły zadane przez użytkownika. Gdy autorzy zmienili regułę rozstrzygania remisów z porządku leksykograficznego na normę euklidesową, o4-mini straciło ponad 0,40, bo dalej stosowało stary porządek mimo wyraźnej instrukcji. Zapytane wprost, przyznało, że zakłada porządek leksykograficzny „domyślnie".
Modele nie potrafią rozumować nad własnym kodem. W trybie, w którym model ma napisać kod i sam prześledzić jego wykonanie bez interpretera, wynik jest taki sam jak bez kodu, mimo że pisany kod jest wysokiej jakości (gdy puścić go przez zewnętrzny interpreter, wynik skacze). Model umie napisać poprawną procedurę i nie umie jej w głowie wykonać.
Spadek na języku narracyjnym. Te same zadania ubrane w realistyczną opowieść (dzieci ustawiające się w kolejce po lody zamiast formalnego „enqueue") wypadają gorzej niż w formie formalnej, mimo identycznego rozkładu trudności. Model musi najpierw wydobyć strukturę z bałaganu języka, a przy tym halucynuje nazwiska i daty, których w treści nie było.

Jednym zdaniem: to nie jest „AI, która czasem się myli w faktach". To pomiar pokazujący, że zdolność do utrzymania i poprawnej obróbki relacji w wielu krokach jest u czołowych modeli krucha.

Recenzja właściwa

Dlaczego prawnika ma obchodzić benchmark struktur danych

Bo praca prawnika to w dużej części rozumowanie strukturalne, tylko nazwane inaczej. Ustalenie stanu faktycznego to budowa sekwencji zdarzeń i sieci powiązań między podmiotami. Analiza terminów to kolejka priorytetowa. Łańcuch precedens, wyjątek, zastosowanie do faktu to przejście po hierarchii. Sprawa z wieloma stronami, z których każda ma swoje role, terminy i warunki, to dokładnie ten „byt wieloatrybutowy", na którym modele się sypią. Paper nie mierzy prawa, mierzy klocki, z których prawnicze rozumowanie jest złożone. I pokazuje, że klocki są słabym punktem.

Trzy ustalenia przekładają się wprost na ryzyko w kancelarii.

Wieloskokowość. Jeśli model gubi węzły w przechodzeniu grafu na piątym kroku, to nie ma powodu zakładać, że nie zgubi strony albo warunku w piątym kroku analizy umowy. Im dłuższy łańcuch rozumowania, na którym opierasz wniosek, tym większa szansa, że gdzieś po drodze coś wypadło, a wniosek i tak brzmi pewnie.

Ignorowanie reguły. Najbardziej niewygodne ustalenie dla każdego, kto liczy na promptowanie jako mechanizm kontroli. Model, który ma wyuczony domyślny sposób działania, potrafi go stosować mimo wyraźnej instrukcji przeciwnej, i jeszcze potwierdzić, że tak robi. Przełożenie: napisanie w prompcie „stosuj polską jurysdykcję", „nie cytuj orzeczeń sprzed nowelizacji", „trzymaj się tej definicji" nie jest gwarancją, że model się do tego zastosuje. Reguła w prompcie to prośba, nie wymuszenie.

Przepaść między formalnym a realistycznym. To ustalenie powinno zaboleć każdego, kto widział demo legaltechu na czystym, sformatowanym przykładzie. Realne pismo, mail klienta, zeznanie to narracja, bałagan, niedopowiedzenie. Benchmark pokazuje, że dokładnie ten skok, z formalnego opisu do języka narracyjnego, obniża wynik, bo dochodzi krok wcześniejszy: model musi najpierw poprawnie wyłowić strukturę z opowieści, zanim cokolwiek na niej policzy. A przy okazji dorzuca nazwiska i daty, których nie było.

Co tu jest najmocniejsze metodologicznie

Determinizm oceny. To jest dla mnie drugi, równie ważny wkład tego papera, obok samych liczb. Autorzy świadomie unikają sędziego-LLM i sędziego-człowieka, bo dla struktur danych odpowiedź jest jedna i wyliczalna programem. Na 1620 prób z dziewięcioma modelami zero naruszeń schematu wyjścia. To jest wzorzec, jak powinno wyglądać mierzenie zdolności AI: jednoznaczna prawda podstawowa, automatyczna weryfikacja, brak miejsca na „mniej więcej dobrze". W świecie, w którym dostawcy chętnie pokazują benchmarki oceniane miękko, deterministyczny pomiar jest sam w sobie wartością.

Diagnostyczność. Benchmark jest tak zbudowany, że nie mówi tylko „model dostał 0,46", ale pokazuje, gdzie dokładnie pęka: na której strukturze, na którym typie operacji, przy której długości wejścia. To różnica między termometrem a tomografem.

Pewny ton modelu nie mówi nic o poprawności jego wielokrokowego rozumowania. DSR-Bench mierzy to wprost: tam, gdzie odpowiedź jest jedna i sprawdzalna, czołowe modele i tak gubią po drodze elementy, a wynik podają z tą samą pewnością co odpowiedź poprawną.

Czego ten paper nie rozstrzyga

Tu trzeba być uczciwym, bo łatwo nadinterpretować.

Po pierwsze i najważniejsze: to benchmark struktur danych, nie zadań prawnych. Przełożenie na prawo, które robię wyżej, jest analogią, mocną i moim zdaniem trafną, ale analogią. Paper nie mierzy dokładności na polskich wyrokach ani na umowach. Mierzy klocki. Twierdzenie „skoro model gubi węzeł w grafie, zgubi stronę w sprawie" jest hipotezą popartą strukturalnym podobieństwem, nie pomiarem na materiale prawnym.

Po drugie, sami autorzy są ostrożni z pojęciem „rozumowanie". Wprost piszą, że używają go w sensie operacyjnym i behawioralnym: czy model utrzymuje poprawne stany pośrednie i stosuje się do reguł zadania. Nie rozstrzygają sporu „prawdziwe rozumowanie kontra dopasowanie wzorca", bo ta granica nie jest dobrze zdefiniowana. DSR-Bench najlepiej czytać jako pomiar generalizacji strukturalnej, nie jako ostateczny werdykt, czy AI „myśli".

Po trzecie, modelom dawano pełny opis zadania, żeby uczciwie testować samo wykonanie, a nie wiedzę. To znaczy, że benchmark nie sprawdza tego, co w praktyce często najtrudniejsze: czy model sam rozpozna, jakiej struktury i jakiego algorytmu użyć, mając tylko cel. Autorzy to przyznają i zostawiają jako kierunek na przyszłość.

Po czwarte, badanie celowo bada model bez narzędzi, w izolacji. To świadomy wybór, żeby zmierzyć rozumowanie wewnętrzne. Ale realna kancelaria używa narzędzi: RAG, wyszukiwarki orzeczeń, kalkulatory terminów. Komponent code pokazuje zresztą, że zewnętrzny interpreter pomaga na zadaniach standardowych. Wniosek z papera nie brzmi więc „AI jest bezużyteczna", tylko „nie polegaj na samym wewnętrznym rozumowaniu modelu w wielu krokach".

Jak to się składa z tym, co już wiemy

Ten paper domyka pewien obraz, który Baza Wiedzy buduje od dawna. TOM 066 (Magesh, Stanford) pokazał, że komercyjne narzędzia legal AI halucynują od 17 do 33 procent, a najgroźniejsza jest odpowiedź źle ugruntowana: prawdziwy cytat pod fałszywą tezą. DSR-Bench wchodzi warstwę niżej i pyta, dlaczego: bo pod spodem rozumowanie wielokrokowe, które miałoby tę tezę poprawnie wyprowadzić, jest kruche. TOM 017 (Shaw-Nave) opisał cognitive surrender, czyli dlaczego prawnik przyjmuje błędną odpowiedź AI z większą pewnością niż własną. Tu dochodzi mierzalny powód, żeby tego nie robić: pewny ton modelu nie koreluje z poprawnością wielokrokowego wnioskowania. TOM 057 (LEGIT) i TOM 052 (HAI) dotykały pomiaru rozumowania prawnego od strony metodologii i wyników. DSR-Bench dokłada deterministyczny, dziedzinowo-neutralny fundament tego samego pytania.

Co z tego wynika

Dla kancelarii i dla każdego, kto wdraża AI do zadań wieloetapowych, płyną z tego trzy konkrety.

Po pierwsze, traktuj długość łańcucha rozumowania jako ryzyko, nie jako funkcję. Im więcej kroków model ma wykonać samodzielnie między wejściem a wnioskiem, tym większa szansa na cichy błąd w środku. Punkty, w których łańcuch jest długi (analiza wielostronnej umowy, ustalenie stanu faktycznego z wielu dokumentów, wyliczenie kaskady terminów), to dokładnie te punkty, w których nadzór człowieka z art. 14 AI Act musi być realny, a nie formalny. Benchmark daje temu obowiązkowi mierzalną podkładkę: oto, gdzie maszyna pęka.

Po drugie, nie traktuj reguły w prompcie jak wymuszenia. Skoro model potrafi zignorować wyraźną instrukcję na rzecz wyuczonego nawyku, to „napisaliśmy w prompcie, żeby stosował polskie prawo" nie jest zabezpieczeniem. Kontrola, na której można polegać, siedzi poniżej promptu: w architekturze (ograniczenie tego, co model w ogóle dostaje i może zrobić), w weryfikacji wyjścia (mechaniczne sprawdzenie cytatu, terminu, strony) i w człowieku w punkcie krytycznym. To ta sama lekcja, która wraca w Bazie Wiedzy: kontrola egzekwowana, nie deklarowana.

Po trzecie, testuj na bałaganie, nie na czystym przykładzie. Skoro skok z formalnego opisu do języka narracyjnego obniża wynik, to demo dostawcy na wygładzonym przykładzie nic nie mówi o zachowaniu na realnym piśmie klienta. Przy ocenie narzędzia żądaj testu na materiale tak nieuporządkowanym, jak Twoja realna praca, łącznie z tym, jak narzędzie radzi sobie z brakami i niedopowiedzeniami. I sprawdź, czy nie dokłada faktów, których nie było.

Dla kogo ten materiał. Dla osoby oceniającej lub wdrażającej narzędzie AI do zadań wieloetapowych, która chce zrozumieć, gdzie leży techniczny sufit. Dla compliance i AI Act, bo to konkretny, mierzalny argument za nadzorem w punktach wieloskokowych i za weryfikacją wyjścia. Dla każdego, kto słyszy „nasze AI analizuje sprawę" i chce wiedzieć, jak krucha jest ta analiza pod spodem.

Dla kogo nie. Dla partnera, który szuka porady o konkretnej sprawie, to lektura zbyt techniczna i odległa od biurka. To paper inżynierski, nie prawny. Bierzemy z niego dwie rzeczy: twardy dowód, że rozumowanie wielokrokowe czołowych modeli jest kruche, zwłaszcza na realnym, narracyjnym wejściu, oraz wzorzec, jak takie rzeczy mierzyć deterministycznie, zamiast wierzyć modelowi na oko.

Dla zarządu kancelarii w trzech zdaniach

Stanford zbudował pierwszy deterministyczny benchmark mierzący, czy AI umie rozumować krok po kroku na fundamentalnych strukturach (kolejki, drzewa, grafy), w oderwaniu od wiedzy i narzędzi: na trudniejszych zadaniach najlepszy z trzynastu czołowych modeli osiąga 0,46 na 1, gubi elementy w krokach pośrednich, ignoruje wyraźnie zadaną regułę na rzecz wyuczonego nawyku i wypada gorzej, gdy zadanie jest ubrane w język narracyjny zamiast formalnego. Dla kancelarii to mierzalna podstawa pod trzy decyzje: długi łańcuch rozumowania AI traktować jako ryzyko wymagające realnego nadzoru (art. 14 AI Act), reguły w prompcie nie mylić z zabezpieczeniem, bo kontrola siedzi w architekturze i weryfikacji wyjścia, nie w instrukcji, a narzędzie testować na realnym bałaganie, nie na wygładzonym demie. To nie jest argument przeciw AI, tylko przeciw zaufaniu do jej wewnętrznego, wielokrokowego rozumowania bez bramki.

Czy AI rozumuje krok po kroku? Stanford zmierzył to twardo: najlepszy model 0,46 na trudnych zadaniach

O czym jest ten materiał

Recenzja właściwa

Dlaczego prawnika ma obchodzić benchmark struktur danych

Co tu jest najmocniejsze metodologicznie

Czego ten paper nie rozstrzyga

Jak to się składa z tym, co już wiemy

Co z tego wynika