Czy prawne AI może się samo poprawiać? Cambridge i NVIDIA: tak, pod jednym warunkiem.

Pytanie, które słyszy dziś niemal każdy prawnik in-house: czy AI do pracy prawnej może faktycznie stawać się lepsze samo z siebie, skoro prawo rzadko ma jedną dowiedzioną poprawną odpowiedź? Nowy preprint z Cambridge i NVIDIA odpowiada twierdząco, ale stawia warunek ważniejszy dla kancelarii niż sam wynik: system poprawia się tylko tak długo, jak długo jego sędzia pozostaje przywiązany do twardej kotwicy w rzeczywistości. To, kto kontroluje tę kotwicę, decyduje o wszystkim.

Generujący agent jest wymienny. Warstwa, która odmawia przyklepania nieistniejącego cytatu, jest trwałym aktywem. A kotwica, do której się odwołuje, jest lokalna - jedna na każdą jurysdykcję.

Pytanie wraca na każdym szkoleniu i w każdej rozmowie z działem prawnym: skoro prawo rzadko ma jedną dowiedzioną poprawną odpowiedź, to na czym właściwie miałoby się uczyć narzędzie, które obiecuje, że samo się poprawia? Dla kodu jest prosto - test przechodzi albo nie. Dla pisma procesowego nie ma takiego testu. Standard jakości sam się przesuwa w miarę, jak praca robi się lepsza, a najgroźniejszy jest wynik pewny siebie i błędny zarazem.

Preprint z Cambridge i NVIDIA atakuje dokładnie ten problem. Autorzy pokazują, że samodoskonalenie da się przedłużyć poza zadania z gotowym benchmarkiem, jeśli ocenę uczyni się częścią pętli uczenia - pod jednym twardym warunkiem. To badanie wstępne, nie ostatnie słowo, ale warunek, który stawia, jest dla kancelarii istotniejszy niż którakolwiek liczba w tabeli.

O czym jest ten materiał

Trzydzieści siedem stron preprintu (arXiv, czerwiec 2026). Większość samodoskonalących się agentów AI optymalizuje względem stałego miernika: benchmarku, weryfikatora albo oznaczonego zbioru danych, który się nie zmienia. To wystarcza dla kodu i załamuje się wszędzie tam, gdzie kryterium jakości nie jest stałe - a więc w pracy prawnej. Red Queen Gödel Machine (RQGM) zmienia jedną rzecz: pozwala oceniającemu ewoluować razem z agentem. Trzy pytania, na które autorzy odpowiadają:

Czy ocena może być częścią pętli uczenia? Czyli: czy da się pozwolić ewaluatorowi zmieniać razem z agentem, zamiast zamrażać go raz na zawsze?
Czy da się to zrobić bez utraty gwarancji? Czyli: czy ruchomy cel nie rozsadza dowodów zbieżności, na których stoi całe samodoskonalenie?
Czy to działa poza kodem? Czyli: czy metoda przenosi się na zadania bez czystego benchmarku - pisanie i recenzję tekstów, dowodzenie twierdzeń?

Odpowiedź na wszystkie trzy jest twierdząca, choć z zastrzeżeniami, które autorzy stawiają uczciwie i które dla prawnika są najważniejszą częścią pracy. Wyniki są wstępne (preprint), a zysk przychodzi kosztem rozluźnienia gwarancji zbieżności względem oceny statycznej.

Recenzja właściwa

Mechanizm: ewaluator, który ewoluuje, ale nie dryfuje

Rdzeń to coś, co autorzy nazywają controlled utility evolution. Wyszukiwanie dzieli się na epoki. W obrębie jednej epoki ocenia jeden zamrożony ewaluator i to on dostarcza stałego sygnału jakości; cel może się zmienić dopiero na granicy epoki. Równolegle system hoduje pretendentów do roli ewaluatora i sprawdza ich na wydzielonym zbiorze prawdy bazowej (ground truth).

Na granicy epoki pretendent zastępuje urzędującego ewaluatora tylko wtedy, gdy statystycznie go pobije na tej prawdzie bazowej. Wtedy następuje selective erasure - system kasuje tylko te oceny, które zależały od wymienionego sędziego, a resztę dorobku zostawia. Ponieważ każda epoka jest problemem o stałym kryterium, wcześniejsze gwarancje samodoskonalenia obowiązują w jej obrębie, a cel i tak ewoluuje między epokami.

Praktyczny obraz: agent dostaje coraz trudniejszego egzaminatora, ale egzaminator co krok udowadnia na twardych danych, że nadal mierzy rzeczywistość, a nie własne widzimisię. Sędzia rośnie. Kotwica się nie rusza.

Wyniki, które warto zapamiętać

Na weryfikowalnych zadaniach kodu RQGM osiąga 71,7% zdawalności na zbiorze testowym wobec 69,9% poprzedniego stanu sztuki - dokładając tani sygnał recenzji kodu i zużywając przy tym od 1,35 do 1,72 raza mniej tokenów. Tańszy sędzia, lepszy wynik.

Na zadaniach otwartych, bez czystego benchmarku, efekt jest wyraźniejszy. W pisaniu i recenzji artykułów naukowych współewoluujący autorzy podnieśli akceptowalność swoich prac z 21,8% do 40,5%, a współewoluujący oceniający osiągnął wyższą trafność wobec prawdy bazowej przy trzykrotnie niższym koszcie wyszukiwania niż poprzedni stan sztuki.

I wynik najważniejszy dla każdego, kto myśli o "AI sprawdzającym AI": najsilniejszy bazowy recenzent akceptował teksty wygenerowane przez maszynę nawet 1,91 raza częściej niż prace ludzi. To stronniczość, nie szybkość. Autorzy skorygowali ją celem kontradyktoryjnym - zebrali próbki, które zamrożony recenzent błędnie akceptował, i odtworzyli je jako materiał trudny w kolejnych epokach. Efektem był recenzent równie surowy wobec pracy maszyny i człowieka.

To jest problem halucynacji prawnej opisany językiem badań: pewny siebie, dobrze wyglądający output, oceniany przez sędziego równie skłonnego dać się nabrać.

Jak to czytać od strony kancelarii - interpretacja MateMatic

Czy prawo jest deterministyczne? Nie. Ale nie jest też bez kotwicy. Mamy wiążący precedens, brzmienie przepisu w wersji, która faktycznie weszła w życie, oraz rozstrzygnięcie, które realnie ostało się w apelacji. To jest kotwica. To, jak nowy argument trafia do końca, to część, która ewoluuje. Stąd teza, którą powtarzamy od dawna: warstwa weryfikacji jest fosą w prawnym AI. Generujący agent jest wymienny. Trwałym aktywem jest to, co decyduje, czy output jest dobry, i co odmawia przyklepania ładnie wyglądającego cytatu, którego nie ma.

Dwie rzeczy, których sam paper nie rozwija, a które są codziennością budowania takiego narzędzia.

Pierwsza: najtańsza wersja ewaluatora już dziś zabija najgroźniejszy błąd. Zanim w ogóle dojdzie do współewoluującego sędziego, wystarczy deterministyczny check, czy cytowany przepis albo fragment wyroku w ogóle istnieje w źródle. Ładnie wyglądający cytat, którego nie ma, nie powinien docierać do recenzenta w ogóle. To podłoga, nie szczyt - i ta podłoga powinna być standardem już teraz. Współewoluujący sędzia z paperu to dopiero piętro wyżej.

Druga: gwarancje są lokalne, nie globalne. Sami autorzy zastrzegają, że ich zysk przychodzi kosztem rozluźnienia gwarancji zbieżności względem oceny statycznej, i że ewaluator jest tak dobry, jak jego prawda bazowa. Dla prawa znaczy to rzecz konkretną: zaufana kotwica nie przenosi się między porządkami prawnymi. Polskie orzecznictwo, niemiecka ustawa i prawo UE potrzebują każde własnej prawdy bazowej i własnego oceniającego. "Posiadanie zaufanej kotwicy" znaczy więc naprawdę "posiadanie jednej kotwicy na każdy system prawny" - a to jest ta nieefektowna robota, którą większość rynku pomija. Słaba albo stronnicza prawda bazowa rodzi pewnego siebie, stronniczego agenta.

Czego paper nie twierdzi

To preprint i badanie wstępne - autorzy sami zapowiadają dłuższe horyzonty wyszukiwania w kolejnych wersjach. Nie jest to dowód, że AI rozwiąże osąd prawny. Jest to dowód, że samodoskonalenie da się przedłużyć poza zadania z gotowym benchmarkiem, jeśli ocenę uczyni się częścią pętli - i że cena za to jest realna: słabsze gwarancje zbieżności i ewaluator tak dobry, jak jego kotwica. Wyniki dotyczą kodu, pisania i recenzji artykułów oraz dowodzenia twierdzeń, nie pism procesowych. Przeniesienie wniosku na prawo jest uzasadnione, ale pozostaje interpretacją, nie ustaleniem autorów.

Co z tego wynika

Paper daje kancelarii jedną rzecz ważniejszą niż liczby: język, w którym można rozmawiać z dostawcą o tym, co naprawdę trzyma jakość. Nie "czy macie AI", tylko "czym jest wasza kotwica i kto ją kontroluje". Generator można wymienić w każdej chwili. Prawda bazowa i warstwa, która jej pilnuje, to jest to, w czym przechodzą lata pracy - i to jest realny powód, dla którego jedna kancelaria może zaufać narzędziu, a druga nie.

Trzy pytania do dostawcy LegalTech, które ten paper uzasadnia (interpretacja MateMatic). Czym jest wasza prawda bazowa i kto ją kontroluje - jeśli odpowiedzią jest "model wie", to nie ma kotwicy. Czy weryfikacja cytatu jest mechaniczna, czy ocenia ją inny model - a jeśli model, to jak radzicie sobie z tym, że recenzent bywa równie łatwowierny co autor. Czy kotwica jest osadzona w mojej jurysdykcji - bo narzędzie świetne w prawie amerykańskim niekoniecznie ma jakąkolwiek prawdę bazową dla polskiego postępowania.

Generujący agent jest wymienny. Kotwica - prawda bazowa, do której przywiązany jest sędzia - jest tym, czego nie da się skopiować z dnia na dzień. I jest lokalna: jedna na każdy system prawny.

Dla zarządu kancelarii w trzech zdaniach

Preprint z Cambridge i NVIDIA (arXiv, czerwiec 2026) pokazuje, że samodoskonalące się AI da się przedłużyć poza zadania z gotowym benchmarkiem, jeśli oceniający współewoluuje z agentem, ale pozostaje przywiązany do stałej kotwicy ground truth - kosztem słabszych gwarancji i pod warunkiem, że kotwica jest wiarygodna. Konsekwencja dla kancelarii: o jakości prawnego AI decyduje nie generujący model, lecz warstwa weryfikacji i prawda bazowa, do której się odwołuje, a ta jest lokalna - osobna dla każdej jurysdykcji. Praktyczny wniosek: oceniając dostawcę, pytaj nie "czy macie AI", tylko czym jest wasza kotwica, kto ją kontroluje i czy obejmuje polskie prawo.