Dostawca obiecał koniec halucynacji. Stanford zmierzył od 17 do 33 procent.

LexisNexis i Thomson Reuters sprzedawały swoje narzędzia AI do badań prawnych z obietnicą, że technika RAG "eliminuje" halucynacje i daje cytaty "wolne od halucynacji". Stanford RegLab przeprowadził pierwszą preregistrowaną, empiryczną ocenę tych produktów. Dwieście kilka zapytań, ręczne ocenianie każdej odpowiedzi przez prawników. Wynik: Lexis+ AI, Westlaw AI-Assisted Research i Ask Practical Law AI halucynują od 17 do 33 procent czasu. RAG obniża halucynacje względem zwykłego czatbota, ale ich nie usuwa. A najgroźniejsza halucynacja to nie zmyślona sprawa, tylko prawdziwy cytat, który nie potwierdza tezy, pod którą został podstawiony.

Marketing mówił "zero". Pomiar mówi "jedna na trzy". Różnica między nimi nazywa się obowiązek weryfikacji cytatu.

Jest pewien gatunek obietnicy, który w marketingu legal techu powtarza się od dwóch lat. Brzmi mniej więcej tak: "nasze narzędzie używa RAG, więc nie halucynuje". W lutym 2024 dyrektor Thomson Reuters powiedział, że RAG w Westlaw AI-Assisted Research "redukuje halucynacje niemal do zera". LexisNexis reklamował "połączone cytaty prawne wolne od halucynacji". To brzmi jak rozwiązanie problemu, który Chief Justice Roberts wymienił w swoim raporcie o sądownictwie jako główną barierę dla AI w prawie, a który polski czytelnik kojarzy z nowojorskim adwokatem ukaranym za powołanie zmyślonych przez ChatGPT spraw.

Zespół ze Stanford RegLab, kierowany przez Daniela E. Ho, postanowił sprawdzić te obietnice. Nie anegdotą, tylko pierwszym preregistrowanym pomiarem. To ważne, bo systemy są zamknięte, a dostawcy nie publikowali żadnych liczb. Recenzja, którą tu omawiam, jest dla mnie jedną z najistotniejszych pozycji o realnym ryzyku narzędzi prawnych AI, jakie ukazały się w recenzowanym piśmie. I jest pozycją niewygodną dla wszystkich stron naraz.

O czym jest ten materiał

RAG, czyli retrieval-augmented generation, to technika, w której model językowy najpierw wyszukuje dokumenty w bazie (orzeczenia, ustawy, komentarze), a dopiero potem generuje odpowiedź opartą na tym, co znalazł. Zamiast odpowiadać "z pamięci" wytrenowanego modelu, pracuje w trybie otwartej książki. Na papierze to lekarstwo na halucynacje: model ma przed sobą prawdziwe źródło. Branża sprzedaje RAG właśnie jako to lekarstwo.

Autorzy zbudowali zbiór 202 zapytań odwzorowujących realne sytuacje badawcze: pytania o doktrynę common law, o rozbieżności między okręgami i sprawy uchylone, pytania z fałszywą przesłanką (gdzie użytkownik myli się co do prawa) oraz pytania o czysty fakt (kto napisał uzasadnienie w danej sprawie). Każdą odpowiedź ocenił prawnik, ręcznie, czytając przytoczone źródła i sprawdzając, czy faktycznie potwierdzają tezę. Zgodność między oceniającymi była wysoka (Cohen's kappa 0,77), co oznacza, że kryteria były dobrze zdefiniowane, a nie uznaniowe.

Najważniejszy wkład pracy jest pojęciowy. Autorzy rozkładają halucynację na dwa wymiary: poprawność (czy odpowiedź jest merytorycznie trafna) i ugruntowanie (czy przywołane źródło rzeczywiście popiera twierdzenie). Odpowiedź jest halucynacją, gdy jest niepoprawna albo źle ugruntowana, czyli cytuje źródło, które nie mówi tego, co model mu przypisuje. Ta druga kategoria jest sednem całej recenzji.

Liczby. Lexis+ AI okazał się najlepszy: 65 procent odpowiedzi dokładnych. Westlaw AI-Assisted Research: 42 procent, przy czym halucynuje prawie dwa razy częściej niż pozostałe i fałszuje co trzecią odpowiedź. Ask Practical Law AI udziela odpowiedzi niepełnych (odmowa albo brak cytatu) na ponad 60 procent zapytań, najwięcej z całej stawki, a dokładny jest tylko w 19 procentach. Dla porównania, wcześniejsze badania pokazały, że ogólne modele (jak GPT-4) halucynują na pytaniach prawnych od 58 do 82 procent czasu. Wniosek jest więc dwuczęściowy i autorzy nie chowają żadnej z części: RAG naprawdę pomaga, a mimo to halucynacje zostają na poziomie, którego żaden prawnik nie może zignorować.

Jednym zdaniem: technika, którą sprzedano jako koniec halucynacji, schodzi z poziomu katastrofalnego do jednej na sześć w najlepszym narzędziu i jednej na trzy w najgorszym. To realny postęp. To nie jest zero.

Recenzja właściwa

Halucynacja, która linkuje do prawdziwej sprawy

Gdyby halucynacja zawsze polegała na zmyśleniu nieistniejącej sprawy, problem byłby prosty. Wystarczyłoby kliknąć w cytat i sprawdzić, czy sprawa istnieje. Najgroźniejszy przypadek opisany w recenzji jest subtelniejszy: model przywołuje prawdziwe orzeczenie, które jednak nie popiera tezy, a czasem wręcz jej przeczy. Autorzy nazywają to odpowiedzią źle ugruntowaną.

Ich własny przykład: Lexis+ AI twierdzi, że pewna zasada jest "dobrym prawem", i podpiera to cytatem ze sprawy, która tę zasadę właśnie uchyla. Inny: model opisuje standard z wyroku w sprawie aborcyjnej (Casey), linkując do realnej, nieuchylonej sprawy, która jednak omawia ten standard tylko po to, by odnotować jego obalenie w Dobbs. Cytat jest prawdziwy. Teza jest fałszywa. To dokładnie ten rodzaj błędu, w którym hasło "cytaty wolne od halucynacji" bywa technicznie prawdziwe i merytorycznie bezużyteczne. Bo gdyby kryterium było tylko "czy link prowadzi do istniejącej sprawy", to narzędzie odsyłające na każde pytanie do Brown v. Board of Education spełniałoby tę obietnicę co do joty.

Dlaczego to ważne dla polskiej kancelarii, która Lexisa nie używa. Bo wyłapanie takiej halucynacji wymaga otwarcia cytowanego źródła, przeczytania go ze zrozumieniem, oceny jego mocy i porównania z tezą. To jest pełen akt Systemu 2, nie odhaczenie "cytat się świeci na niebiesko". Każde narzędzie oparte na wyszukiwaniu i generowaniu, także polskie nakładki na LEX czy Legalis, podlega tej samej mechanice. Marka się zmienia, ryzyko źle ugruntowanego cytatu zostaje.

Dlaczego RAG nie jest srebrną kulą w prawie

Autorzy tłumaczą, czemu prawo jest dla RAG trudniejsze niż typowe pytania-odpowiedzi. Po pierwsze, samo wyszukanie właściwego źródła wymaga rozumowania prawniczego. Prawo nie składa się z atomowych faktów. To, która norma jest właściwa, zależy od jurysdykcji, czasu, stanu sprawy i tego, czy precedens nie został przełamany. Po drugie, dokument tekstowo podobny bywa prawnie nieadekwatny, a model wytrenowany na ogromnej masie tekstu o regule ogólnej może być wierniejszy tej regule niż wąskiemu wyjątkowi z dostarczonego źródła. Po trzecie, generowanie sensownego tekstu prawnego to nie streszczanie, tylko synteza faktów, tez i reguł z wielu źródeł.

Z tego autorzy budują typologię błędów: naiwne wyszukiwanie (model nie znajduje najlepszego źródła), nieadekwatna podstawa (cytuje dokument z innej jurysdykcji, dotyczący innej ustawy albo uchylony), błąd rozumowania (dostaje dobre źródło, ale wyciąga z niego zły wniosek) i służalczość (zgadza się z błędną przesłanką użytkownika). W Westlaw dominują błędy rozumowania, aż 61 procent halucynacji tego systemu. Osobno autorzy opisują niepokojące zachowanie: Westlaw potrafi sformułować tezę opartą na sprawie uchylonej, nie podając jej cytatu, prawdopodobnie dlatego, że system tłumi cytowanie spraw z "czerwoną flagą" KeyCite. To tłumienie utrudnia weryfikację dokładnie tam, gdzie jest najbardziej potrzebna.

Dylemat prawnika: weryfikować wszystko albo ufać w ciemno

Tu recenzja staje się operacyjna. Autorzy stawiają sprawę bez owijania. Wobec zmierzonego poziomu halucynacji prawnik ma do wyboru dwie drogi. Albo weryfikuje ręcznie każdą tezę i każdy cytat, które wypluło narzędzie, i wtedy traci zysk z wydajności, dla którego w ogóle po nie sięgnął. Albo używa narzędzia bez pełnej wiedzy o jego konkretnych słabościach, i wtedy zaniedbuje obowiązek kompetencji i nadzoru.

Obietnica "RAG eliminuje halucynacje" miała znieść właśnie ten dylemat. Pomiar pokazuje, że dylemat został w całości. Tyle że teraz jest ukryty pod hasłem reklamowym, które usypia czujność, zamiast ją wyostrzać.

Po polskiej stronie ten dylemat ma twardą podstawę normatywną. Art. 14 AI Act wymaga, by człowiek nadzorujący system wysokiego ryzyka był w stanie krytycznie ocenić jego wyniki. Tajemnica zawodowa i art. 6 Prawa o adwokaturze nie znają wymówki "tak napisała AI". Adwokat podpisujący pismo bierze odpowiedzialność za jego treść, nie za narzędzie. Jeśli pod tezę podstawiono źle ugruntowany cytat, a prawnik go nie sprawdził, mamy realne ryzyko dyscyplinarne, realne ryzyko odszkodowawcze wobec klienta (art. 471 KC) i realny problem dla ubezpieczyciela OC. Recenzja Stanford dostarcza temu ryzyku liczby.

Marketing kontra odpowiedzialność dostawcy

Autorzy nie zatrzymują się na użytkowniku. Drugą połowę implikacji kierują do dostawców. Pokazują, że firmy używają słowa "halucynacja" niespójnie: raz jako wyłącznie zmyślenie nieistniejącej sprawy, raz jako "odpowiedź, która brzmi wiarygodnie, a jest całkowicie fałszywa". Ta nieprecyzyjność nie jest niewinna. W warunkach amerykańskich autorzy wskazują na ryzyko odpowiedzialności za wprowadzające w błąd twierdzenia reklamowe (Lanham Act, ostrzeżenia FTC i SEC o "AI washing") oraz rodzącą się odpowiedzialność deliktową za szkody wyrządzone przez AI, z kanadyjską sprawą Air Canada (linia lotnicza odpowiedziała za błędną informację swojego czatbota) jako pierwszą jaskółką.

W polskim i unijnym kontekście ta sama logika prowadzi do nieuczciwych praktyk rynkowych, do reżimu odpowiedzialności za produkt i do art. 5 AI Act oraz wymogów przejrzystości. Wniosek dla kancelarii kupującej narzędzie jest twardy: hasło dostawcy "bez halucynacji" nie jest specyfikacją, tylko obietnicą marketingową, dopóki nie towarzyszy jej zmierzony, przejrzysty dowód. Kupując narzędzie, kupuje się też jego oświadczenia, a te bywają papierowe.

Czego recenzja nie rozstrzyga

Uczciwość wobec źródła wymaga wymienienia granic. Po pierwsze, to fotografia z konkretnej chwili, z wiosny 2024, a produkty zmieniają się z miesiąca na miesiąc; autorzy sami zauważyli, że Lexis+ AI ewoluował w trakcie badania. Po drugie, zbiór 202 zapytań jest celowo trudny i nie udaje naturalnego rozkładu pytań, jakie prawnik zadaje na co dzień; to test obietnicy "rozwiązaliśmy halucynacje", a nie estymata przeciętnej. Po trzecie, ocena objęła trzy produkty z duopolu Lexis-Westlaw, a nie rosnący rynek startupów (Harvey, Vincent), bo te są jeszcze trudniej dostępne do niezależnego badania. Po czwarte, ugruntowanie jest do pewnego stopnia stopniowalne: cytat do sprawy uchylonej bywa dla prawnika użytecznym punktem startu, choć tu kodowano go jako błąd. Autorzy nie ukrywają tych ograniczeń, co tylko wzmacnia wiarygodność reszty.

Co z tego wynika

Najważniejszy wniosek recenzji nie dotyczy ani Lexisa, ani Westlawa. Dotyczy tego, że w prawie nie istnieje niezależny, jawny benchmark narzędzi AI. W innych dziedzinach AI takie wzorce są fundamentem rozmowy o postępie. W legal techu dostawcy nie dają dostępu, nie publikują szczegółów modeli i nie raportują żadnych liczb. Autorzy przypominają, że audyty robione przez samych dostawców mają historię kompromitacji niezależności, jak w rozpoznawaniu twarzy czy oprogramowaniu rekrutacyjnym, i że potrzebny jest arbiter trzeciej strony, na wzór testów NIST. W prawie takiego arbitra wciąż nie ma.

To prowadzi do wniosku, który stawia kancelarię po innej stronie niż dostawcę. Skoro żadne narzędzie nie jest wolne od błędu, wartość nie leży w wyborze "najlepszego" silnika, tylko w architekturze wokół niego: weryfikacji cytatu metodą mechaniczną, a nie "na oko", w przymusowym otwarciu źródła zanim teza trafi do pisma, w śladzie audytowym, który pokazuje, kto i co sprawdził. Halucynacja źle ugruntowana ginie nie dlatego, że dostawca obiecał, że jej nie ma, tylko dlatego, że proces wymusza jej wychwycenie.

Dla kogo ten materiał. Dla partnera, który słyszy od handlowca "nasze AI nie halucynuje" i chce wiedzieć, co tak naprawdę kupuje. Dla compliance officera piszącego regulamin korzystania z AI, który musi rozróżnić cytat istniejący od cytatu trafnego. Dla DPO i osoby odpowiedzialnej za AI Act, mapujących art. 14 na realny protokół weryfikacji. Dla każdego, kto chce używać AI w badaniach prawnych jako pierwszego kroku, nie ostatniego słowa, bo właśnie tam, jak piszą autorzy, te narzędzia dają realną wartość.

Dla kogo nie. Dla nikogo, kto szuka potwierdzenia, że AI w prawie jest albo cudem, albo oszustwem. Recenzja Stanford nie mówi żadnego z tych zdań. Mówi: narzędzia są obiecujące i naprawdę pomagają, a jednocześnie halucynują na poziomie, który nakłada na prawnika niezbywalny obowiązek weryfikacji, a na dostawcę obowiązek nieobiecywania rzeczy niezmierzonych. Reszta jest projektowaniem procesu. Ale przynajmniej wiadomo, ile dokładnie wynosi ryzyko, które się tym procesem obstawia.

Dla zarządu kancelarii w trzech zdaniach

Stanford RegLab zmierzył pierwszy raz empirycznie, że wiodące komercyjne narzędzia legal AI halucynują od 17 do 33 procent czasu, mimo marketingu "bez halucynacji", a najgroźniejszy błąd to prawdziwy cytat podstawiony pod fałszywą tezę. Oznacza to, że obowiązek weryfikacji cytatu nie przechodzi na dostawcę wraz z zakupem narzędzia i że meaningful human oversight z art. 14 AI Act musi być wymuszony procesem, a nie założony jako stan domyślny. Praktyczny wniosek: traktujcie AI jako pierwszy krok badania, nie ostatnie słowo, weryfikujcie każdy cytat trafiający do pisma metodą mechaniczną i nie kupujcie obietnicy "zero halucynacji" bez zmierzonego, niezależnego dowodu.