O czym jest ten paper
Pięcioro autorów z czterech ośrodków (Illinois Urbana-Champaign, LBOX, Stanford, Yale, Illinois ponownie). Pierwszy autor - Jinu Lee - prowadzi badania nad legal reasoning w LLM. LBOX to koreańska firma legal-tech, która udostępniła zbiór anonimizowanych wyroków sądowych. Simeng Han ze Stanforda i Arman Cohan z Yale - znani z prac nad reasoning evaluation. Julia Hockenmaier (Illinois) - corresponding author po stronie akademickiej. Praca opublikowana 1 maja 2026 jako preprint arXiv (2512.01020v2), licencjowana na warunkach pozwalających cytowanie.
Centralna teza pracy jest prosta i zarazem niewygodna. Dotychczasowe benchmarki legal reasoning - od BertLaw 2016, przez Hwang i in. 2022, do LegalBench i CaseLaw v2 z 2025-2026 - oceniają LLM tylko po finalnej odpowiedzi. Czy model przewidział właściwy wyrok, czy nie. To, co działo się po drodze - jakich argumentów dotknął, jakie pominął, jakie pomylił - nie wchodzi w score. Autorzy LEGIT pokazują, dlaczego to nie wystarcza, i co zamiast.
Zbiór danych - 24 tysiące instancji - pokrywa cywilne i administracyjne sprawy z koreańskich sądów. To jest istotny szczegół: większość poprzednich datasetów skupiała się na sprawach karnych (Hwang i in. 2022) lub na minimalnych zbiorach binarnych (Aletras i in. 2016). Tymczasem cywilne i administracyjne stanowią do 84,1 procent wszystkich spraw sądowych - i to jest typ pracy, który polska kancelaria gospodarcza, kontraktowa i administracyjna wykonuje codziennie. Test split LEGIT zawiera 300 starannie ręcznie zweryfikowanych przykładów, podzielonych równo na łatwe (do 25 percentyla liczby kwestii), średnie (25-75) i trudne (powyżej 75).
Licencja jest ciekawym przypadkiem brzegowym. Koreańskie wyroki sądowe nie są chronione prawem autorskim (Copyright Act of Republic of Korea, art. 7) - dokładnie tak jak polskie wyroki sądów powszechnych. Wszystkie sprawy w LEGIT są zanonimizowane (przez sąd albo przez LBOX). To kontrastuje z klasyfikacją PDF Kenneya czy paperów akademickich, gdzie przeważa klauzula proprietary. LEGIT można replikować w polskim systemie z polskich publicznie dostępnych wyroków - z poszanowaniem RODO i uprawnień osób, których dane występują w wyrokach.
Recenzja właściwa
Drzewo argumentów jako struktura - methodology
Pomysł centralny: każdy wyrok zamienić w hierarchiczne drzewo. Korzeń to żądanie pozwu (purpose of claim). Każdy węzeł zawiera argument jednej ze stron i wniosek sądu co do tego argumentu (przyjęty lub odrzucony). Węzły wyższego poziomu opierają się na konkretnych przepisach prawa: "jeżeli wypadek był nagły, fortuitous i zewnętrzny, ubezpieczyciel jest zobowiązany do wypłaty świadczenia". Węzły niższego poziomu wymagają wnioskowania commonsense na faktach: "jeżeli zmarły wcześniej kilkukrotnie tracił przytomność po piciu, prawdopodobnie pre-existing condition jest przyczyną śmierci". Korzeń kończy się wnioskiem sądu - to jest finalny order.
Konstrukcja drzewa odbywa się przez Gemini-2.0-Flash z trzema starannie kuratorowanymi przykładami (3-shot). LLM jest wywoływany dwukrotnie: pierwsze wywołanie tworzy drzewo, drugie waliduje i poprawia błędy. Autorzy ręcznie inspekcjonowali pipeline na losowej próbce. To, czego im się nie udało zrobić, to one-shot bezbłędnej generacji drzewa - i to jest uczciwe zastrzeżenie, które flagują w Appendix B.
Kluczowa observacja teoretyczna: legal judgment prediction można rozumieć jako backward chaining (top-down traversal) drzewa argumentów. Iteracja między dwoma operacjami - decomposition (identyfikacja child issues z given issue) i deduction (wnioskowanie z faktów i konkluzji child issues). To pozwala oceniać LLM nie tylko na correctness finalnego order, ale też na jakości obu tych operacji - czyli issue coverage i issue correctness. Dla polskiej kancelarii to jest precyzyjna definicja tego, czego adwokat oczekuje od asystenta AI: nie tylko "czy doszedł do wniosku", ale "czy uwzględnił wszystkie istotne kwestie po drodze, i czy każdą z nich rozumował poprawnie".
LEGIT score - 10 punktów w trzech wymiarach
Maksymalny score to 10. Rozkład punktów jest celowy. Najwięcej - 5 punktów - dostaje finalny order. To jest fundament: jeśli model nie przewiduje właściwego wyniku sprawy, reszta jest akademicka. Issue correctness dostaje 3 punkty - rozumowanie poprawne na każdym węźle (3/N punktów per issue, gdzie N to liczba węzłów non-root). Issue coverage dostaje 2 punkty - czy odpowiedź obejmuje każdą istotną kwestię (2/N punktów per issue covered).
| Wymiar | Maks. punktów | Co mierzy |
|---|---|---|
| Final order correctness | 5 | Czy prediction zgodny z wyrokiem sądu |
| Issue correctness | 3 | Czy każda omówiona kwestia rozumowana poprawnie |
| Issue coverage | 2 | Czy odpowiedź obejmuje wszystkie istotne kwestie |
| Razem | 10 | LEGIT score |
Logika rozkładu jest prosta: rozumowanie na każdej kwestii (3 pkt) jest ważniejsze niż samo wymienienie kwestii (2 pkt), bo właściwa konkluzja na issue wymaga znalezienia właściwych rationales i wnioskowania - nie tylko zaznaczenia tematu. Final order pozostaje najważniejszy, ale - i to jest punktem - nie jest jedyny. Łącznie issue coverage + correctness dają 5 punktów, czyli tyle samo co finalny order. Model, który trafił w wynik nie omawiając połowy kluczowych kwestii, dostanie 5 z 10. Model, który omówił wszystkie kwestie poprawnie ale popełnił błąd w finalnym orderze, też dostanie około 5. Score odzwierciedla, że oba błędy są równie poważne dla audytora.
Czego CaseLaw v2 i LegalBench nie pokrywały
Wracamy do tego, co recenzowaliśmy 4 maja 2026 w TOM 052 i co rozwijaliśmy w dzisiejszej Aktualności Stanford HAI LegalTech overlay. CaseLaw v2 testuje real-world litigation z amerykańskich i kanadyjskich sądów na siedmiu wymiarach reasoning - GPT-5.1 prowadzi z 73,4 procent. LegalBench obejmuje sześć zadań prawniczych - top 15 modeli powyżej 83 procent w wąskim 4-punktowym przedziale. Oba mierzą finalny output. Oba pomijają to, co LEGIT explicite waży: czy model po drodze rozważył wszystkie kwestie i czy każdą z nich rozumował poprawnie.
Przykład praktyczny z paperu: dwa modele predykują "oddalić powództwo", oba trafiają. Pierwszy szczegółowo analizuje warunki kontraktowe wypadku objętego polisą (czy wypadek był zewnętrzny). Drugi wypisuje słowa "oddalić" bez argumentacji. Dla CaseLaw v2 oba dostają tę samą ocenę za final answer. Dla LEGIT - pierwszy dostaje pełne 5 punktów za final order plus pełne punkty za coverage i correctness. Drugi dostaje 5 za final order i zera za pozostałe wymiary - łącznie 5 z 10. Polski adwokat patrzący na output asystenta AI rozróżnia te dwa przypadki natychmiast. Benchmark LEGIT to formalizuje.
Empirycznie autorzy pokazują, że strong LLMs (Gemini, GPT) osiągają wysoką zgodność z licencjonowanymi koreańskimi prawnikami w ocenach LEGIT - to znaczy, że rubrics można używać jako LLM-as-a-judge zamiast ręcznej weryfikacji adwokata. Słabsze open-source LLMs (mniejsze modele Gemma, EXAONE) mają ograniczoną zgodność. Implikacja praktyczna: do oceny reasoning trace asystenta AI w kancelarii potrzebujesz modelu sędziowskiego klasy Gemini 2.5 Pro lub GPT-4.1 - mniejsze modele, które polska kancelaria mogłaby uruchomić lokalnie, nie nadają się jako automatyczny sędzia. Do generacji odpowiedzi - tak; do oceny tej odpowiedzi - mniej.
Final-answer-only RL nie działa w prawie - obalenie paradygmatu
To jest fragment, który zasługuje na uważną lekturę. DeepSeek-R1 z grudnia 2024 i jego następcy popularyzują paradygmat: trenuj LLM przez reinforcement learning z prostą funkcją nagrody - +10 jeśli finalna odpowiedź jest poprawna, 0 w przeciwnym razie. Ten model trenowania zrewolucjonizował matematykę i programowanie - bo tam finalna odpowiedź jest jednoznaczna i sprawdzalna. LEGIT pokazuje, że w prawie ten paradygmat zawodzi.
| Model trenowany | Trening reward | LEGIT score (test) |
|---|---|---|
| Gemma-3-4B (baseline) | brak | 4,02 |
| Gemma-3-4B | final-answer-only | 4,31 |
| Gemma-3-4B | LEGIT rubric reward | 4,77 |
| Gemma-3-27B (baseline, dla porównania) | brak | 4,82 |
Gemma-3-4B wytrenowana z LEGIT rewards dochodzi do 4,77 - prawie tyle co Gemma-3-27B bez treningu (4,82). Sześciokrotnie mniejszy model dorównuje większemu, jeśli trenujesz go na właściwej funkcji nagrody. Tymczasem ten sam Gemma-3-4B trenowany z final-answer-only rewards dochodzi tylko do 4,31. Co więcej, finalny order correctness u tego modelu jest niższy niż u modelu trenowanego z LEGIT rewards - mimo że final-answer reward był trenowany dokładnie na tej metryce. To wynik kontrintuicyjny i autorzy go uczciwie podkreślają: optymalizacja jakości całego rozumowania okazuje się lepsza niż optymalizacja samego finalnego wyniku, nawet z punktu widzenia tego finalnego wyniku.
To jest emipiryczne podważenie jednego z najmocniejszych paradygmatów post-DeepSeek-R1. W matematyce final-answer-only RL działa. W prawie - nie. Domena, w której rozumowanie ma swoją własną strukturę i wartość, wymaga rubric reward. Polska kancelaria, która rozważa fine-tuning modelu open-weight pod własne potrzeby, dostaje dziś nową, twardą rekomendację.
RAG dorzuca dodatkowy gain 0,1-0,4 punktu do LEGIT score, niezależnie od kombinacji generator/retriever. Trzy retriever-y testowane (BM25, Contriever, fine-tuned Contriever) plus ground-truth citations jako oracle - wszystkie poprawiają wynik, ale skala jest mniejsza niż gain z RL z rubric. RAG i RL to complementary - obie poprawy są dodatne, nie zastępują się. Dla polskiej kancelarii pojawia się jasna implementacyjna mapa: lokalna inferencja + retrieval polskich aktów (kotwica RODO i tajemnica zawodowa) + opcjonalne fine-tuning na polskich rubric tree.
Czego autorzy nie powiedzieli, a co musi powiedzieć polski compliance
Pięcioro autorów pisze o ogólnej metodologii oceny i koreańskich sprawach cywilnych. Nie piszą o KPC, KPA, art. 22 RODO, art. 14 EU AI Act ani o tajemnicy zawodowej adwokackiej i radcowskiej. Pomost zbudują polscy prawnicy.
Pierwsza linia. Adaptacja Issue Tree do polskiego porządku procesowego. Korzeń to żądanie pozwu albo wniosek - tu bez różnicy. Węzły wyższego poziomu to przepisy prawa materialnego (Kodeks cywilny, ustawa o podatku VAT, ustawa o samorządzie gminnym). Węzły niższe to commonsense inference na faktach sprawy. Adaptacja jest mechaniczna, nie strukturalna - drzewo argumentów to uniwersalny abstract dla każdej tradycji prawnej, która rozróżnia żądanie, podstawę prawną, fakty i konkluzję. Common-law versus civil-law różnica jest tu drugorzędna. Polski adwokat może wziąć metodologię LEGIT i zacząć budować polskie drzewa od dziś.
Druga linia. Art. 22 RODO i low-friction oversight. Wracamy do wątku z TOM 001 i TOM 002. Trybunał Sprawiedliwości UE w sprawie SCHUFA (C-634/21) traktuje rubber-stamp review jako brak nadzoru. Asystent AI, który generuje pismo procesowe ze poprawnym wnioskiem ale wadliwym rozumowaniem (omijając jedną z kluczowych kwestii), wygląda dla partnera tak samo jak asystent z poprawnym rozumowaniem. Bez metryki LEGIT-podobnej, partner nie ma narzędzia do rozróżnienia. Z metryką LEGIT - ma. Dla DPIA wymaganego przez art. 35 RODO to jest twarde, mierzalne wejście (interpretacja MateMatic, nie stanowisko NRA ani KRRP).
Trzecia linia. Art. 15 EU AI Act i accuracy. AI Act wymaga dla high-risk systems określonego poziomu accuracy. Dotąd brakowało praktycznej metodologii pomiaru, dostosowanej do prawa. CaseLaw v2 i LegalBench dawały finalny score. LEGIT daje trzy. Polski compliance officer, który przygotowuje dokumentację zgodności z art. 9 AI Act dla narzędzia legal-tech używanego w kancelarii, może dziś sięgnąć po LEGIT-style rubric jako baseline metodologiczny - z trzema wymiarami zamiast jednym.
Czwarta linia. Tajemnica zawodowa. Asystent AI, który pomija jedną z kluczowych kwestii w streszczeniu opinii biegłego albo zeznania świadka, daje partnerowi niepełny obraz - który partner może wykorzystać w piśmie procesowym. Bez metryki coverage, niepełność jest niewidoczna. Z metryką - widoczna. To jest dokładnie ta linia, którą Stanford HAI flagował dziś rano przez KaBLE benchmark dla first-person false belief. LEGIT dorzuca drugi wymiar - issue coverage - który dla streszczeń materiału procesowego jest równie krytyczny jak rozróżnienie wiary od faktu.
Co z tego wynika
LEGIT jest pierwszą publikacją akademicką, która oferuje polskiej kancelarii konkretną metodologię audytu reasoning AI - nie jako benchmark "który model jest najlepszy", tylko jako narzędzie operacyjne do oceny jakości rozumowania asystenta na konkretnej sprawie. Drzewo argumentów jest uniwersalnym abstraktem, który działa na koreańskich, polskich, amerykańskich wyrokach. Trzywymiarowy score (5+3+2) jest precyzyjnym formalizmem tego, czego adwokat oczekuje od asystenta - nie tylko trafność wniosku, ale też kompletność i poprawność ścieżki dojścia.
Empiryczny wynik o RL jest bonusem - i to bonusem, który zmienia rachunek dla polskich kancelarii rozważających fine-tuning modelu open-weight pod własne potrzeby. Final-answer-only RL, kuszący prostotą i powodzeniem w matematyce, w prawie zawodzi. Inwestycja czasu w skonstruowanie polskiego LEGIT-style rubric (kilka tysięcy zanonimizowanych spraw, drzewa generowane przez Gemini-2.0-Flash z polskimi przykładami 3-shot) jest dziś argumentem za, nie przeciw. Otrzymujesz rubric reward, który da modelowi 4B parametry wynik klasy 27B baseline.
Materiał polecam w trzech grupach. Partnerom kancelarii rozważającym wdrożenie asystenta AI - jako konkretną mapę do tego, jak audytować jakość output, nie tylko obserwować wyniki. Compliance officerom przygotowującym DPIA zgodne z art. 9 AI Act i art. 35 RODO - jako baseline metodologiczny pomiaru accuracy w trzech wymiarach. Zespołom legal-tech w dużych kancelariach rozważających fine-tuning modelu open-weight - jako empiryczny argument za RL z rubric reward zamiast final-answer-only.
Pierwsza poważna metodologia oceny jakości reasoning asystenta AI w prawie - drzewo argumentów jako rubric, trzy wymiary scoringu, empiryczny dowód że final-answer-only RL nie wystarcza. Adaptacja do polskich realiów wymaga zbioru zanonimizowanych spraw i polskich przykładów 3-shot - prac mierzalnych w tygodniach, nie miesiącach, ze skalą zależną od reprezentatywności korpusu. Wartość: konkretne narzędzie dla audytora, mierzalne wejście dla DPIA, argument za rubric-based fine-tuningu zamiast final-answer-only RL przy własnym modelu open-weight.