O czym jest ten dokument

Praca jest pierwszą znaną nam taksonomią cichych awarii AI opartą na rzeczywistych konwersacjach z ChatGPT, a nie na benchmarku ani na adwersarialnym red-teamingu. Autorzy wzięli 100 000 angielskich rozmów z datasetu WildChat (ponad 1 mln rozmów GPT-3.5-Turbo i GPT-4 z lat 2023-2024, największy publicznie dostępny zbiór naturalnych konwersacji z systemem konwersacyjnym AI). Każdą rozmowę otagowali dwoma modelami: Claude Opus 4.6 i GPT-5.4 jako anotatorami, w protokole dwustopniowym (sygnały na poziomie tury, potem archetypy). Cohen kappa między anotatorami: 0,81-0,94 (substantial to almost perfect agreement).

Rezultat: 63% rozmów zawiera jakąś formę awarii. Z tej części 79% jest niewidocznych (użytkownik nie zgłasza problemu), 12% widocznych (frustracja, korekta, eskalacja), 9% mieszanych. Cała taksonomia mieści się w ośmiu archetypach, z czego ostatni ("mystery failure") to kategoria śmieciowa pojawiająca się na 10 transkryptach na 100 000.

Licencja paperu: arXiv non-exclusive distribution license (autorzy zachowują copyright). Nie hostujemy PDF lokalnie - linkujemy do arXiv obok. Kod i dane na GitHub Bigspin AI. Dataset WildChat na ODC-By v1.0, czyli można cytować i wtórnie wykorzystywać z atrybucją.

Recenzja właściwa

Osiem archetypów. Co znaczą i kiedy uderzają w kancelarię.

Autorzy oddzielili awarie od ich widzialności. Awaria to fakt - AI nie spełniło celu użytkownika. Widzialność to czy ktokolwiek to zauważył. Taksonomia ośmiu archetypów opisuje wzorce cichych awarii uporządkowane po częstości w datasecie.

Archetyp Częstość Definicja operacyjna
The walkaway85,1%Rozmowa kończy się gwałtownie. Użytkownik znika bez słowa wyjaśnienia.
The silent mismatch52,6%AI odpowiada na inne pytanie niż zadane, ale odpowiedź wygląda na prawdopodobną.
The confidence trap32,3%Błędna odpowiedź podana z pełną pewnością, często z konkretnymi nazwiskami, datami, sygnaturami.
The partial recovery5,5%AI próbuje naprawić błąd, ale tylko częściowo. Druga odpowiedź lepsza, nadal niepełna.
The drift3,9%Rozmowa stopniowo odchodzi od pierwotnego tematu. AI gubi kontekst w długich rozmowach.
The death spiral2,0%AI w pętli próbuje rozwiązać problem, każda próba gorsza. Częste w software_development.
The contradiction unravel0,3%AI w tej samej odpowiedzi zaprzecza sobie. Współwystępuje silnie z confidence trap.
The mystery failure<0,05%Awaria bez sygnałów. Kategoria-śmietnik. Niska częstość = taksonomia jest empirycznie domknięta.

Praktyczne przełożenie na pracę kancelaryjną. The walkaway - prawnik prosi ChatGPT o wzór klauzuli, dostaje coś dziwnego, zamyka kartę. Nikt nigdy się nie dowie. Klient dostaje umowę z luką, którą AI nie podpowiedziało, a prawnik się nie domyślił, że trzeba dopytać.

The silent mismatch - prawnik pyta o "ochronę przed naruszeniem tajemnicy zawodowej w art. 6 ustawy o adwokaturze". AI generuje porządną analizę art. 6 ustawy o radcach prawnych, bo trening miał więcej takich dokumentów. Tekst jest dobry, paragrafy się zgadzają, źródło jest błędne. Kancelaria adwokacka pisze analizę na podstawie radcowskiej regulacji.

The confidence trap - prawnik prosi o sygnaturę wyroku w sprawie X. AI generuje "II CSK 234/22 z 15 marca 2022 r." z czterozdaniowym streszczeniem rozumowania sądu. Wyrok nie istnieje. To jest klasyczna halucynacja, ale nazwana operacyjnie i wpisana w taksonomię, na której można budować monitoring.

The contradiction unravel - AI w jednym akapicie pisze "klauzula X jest dopuszczalna na gruncie art. 385[1] kc", a trzy akapity dalej pisze "klauzula X jest niedozwolona". Prawnik czytający szybko bierze pierwsze zdanie.

Czy to artefakt starych modeli? Test Future-2K mówi, że nie.

WildChat to GPT-3.5 i GPT-4 z lat 2023-2024. Naturalne pytanie - czy archetypy wyparowują wraz z poprawą modeli. Autorzy zbudowali Future-2K: 2000 pytań użytkownika z WildChat plus nowe odpowiedzi od Claude Sonnet 4.6, Claude Opus 4.6, GPT-4.1 i GPT-5.4. Anotacja tym samym protokołem.

Wskaźniki spadły z 41,7% awarii do mniej niż 10% dla każdego z nowych modeli. To jest wymierna poprawa. Ale rozkład archetypów pozostał stabilny. Walkaway, silent mismatch i confidence trap dalej dominują. Niewidoczność awarii też pozostała. Innymi słowy - nowoczesne modele mylą się rzadziej, ale gdy się mylą, mylą się tak samo niewidocznie, jak ich poprzednicy.

To jest najmocniejszy wniosek operacyjny pracy. Kancelaria, która wdraża najnowszego Copilot albo Claude, nie pozbywa się problemu cichych awarii. Pozbywa się tylko części objętości. Architektura monitoringu, wymagana przez art. 14 AI Act, musi obejmować detekcję niewidocznych porażek niezależnie od jakości modelu (interpretacja MateMatic, nie stanowisko KE ani UODO).

Domena ma znaczenie. Praca prawnicza jest klasą wysokiego ryzyka cichej halucynacji.

Autorzy zmapowali 52 domeny podstawowe i zbadali, które archetypy współwystępują z którymi domenami. Wyniki w PPMI (positive pointwise mutual information).

Domena Dominujące archetypy Mechanizm
creative_writingsilent mismatchAI zgaduje cel, tworzy estetyczny wynik nie na ten cel
design_uxsilent mismatchForma maskuje rozjazd merytoryczny
software_developmentcontradiction unravel, partial recovery, visible failureProgramiści weryfikują, dyskutują, eskalują - błąd wychodzi
education_academicconfidence trap, drift, contradiction unravelEksperci wyłapują, początkujący nie
general_knowledgeconfidence trapFabrykowanie faktów z konkretnymi szczegółami
translation_languageconfidence trap, contradiction unravel, mystery failureJęzyk techniczny, rzadkie korpusy
personal_lifestylemystery failure, driftCele rozmyte, więc awarie też

Paper nie analizuje osobno pracy prawniczej. Ale prawnik czerpie z tych samych źródeł co edukacja i wiedza ogólna (confidence trap), pracuje rzemieślniczo nad konkretnym dokumentem jak programista (partial recovery), i tworzy teksty, w których forma maskuje treść (silent mismatch). To kombinacja trzech najgorszych domen z perspektywy cichych awarii.

Drugi sygnał z paperu - software_development ma najwyższy wskaźnik visible failure spośród analizowanych domen. Autorzy interpretują to tak, że programiści weryfikują w czasie rzeczywistym (kompilują, uruchamiają, debugują), więc błąd wychodzi szybko i zostaje zgłoszony. Praca prawnicza nie ma kompilatora ani testów jednostkowych. Brak natychmiastowej pętli walidacji oznacza, że ten sam wskaźnik visible failure dla domeny prawniczej będzie prawdopodobnie niższy, a niewidoczność awarii wyższa. To hipoteza wynikająca z mechanizmu opisanego przez autorów, nie wynik bezpośredniej analizy.

Metoda anotacji. Dlaczego dwa LLM-y mówią to samo i to znaczy, że można im wierzyć.

Krótka uwaga techniczna. Autorzy nie używają jednego LLM-u do anotacji, używają dwóch (Opus 4.6 i GPT-5.4) plus dodatkowego anotatora wstępnego (Sonnet 4.6). Anotacja idzie w dwóch krokach. W kroku 1 każdy model taguje konwersację 63 sygnałami (50 dotyczących AI, 13 dotyczących użytkownika). Sygnały to atomy obserwacji - "ai_implicit_refusal", "user_expresses_frustration". W kroku 2 model widzi raport ze sygnałów obu anotatorów (z zaznaczeniem na czym się zgodzili i nie zgodzili) i dopiero wtedy przypisuje archetyp.

Co istotne - anotacja na poziomie sygnałów daje wyższą zgodność niż anotacja na poziomie pełnego transkryptu. Cohen kappa 0,81 dla sygnałów, 0,52 dla transkryptów. Wniosek metodologiczny: jeżeli kancelaria buduje audyt AI, lepiej tagować mikrosygnały zachowania niż prosić AI o ogólną ocenę "czy ta odpowiedź jest dobra".

Czego autorzy nie powiedzieli, a co musi powiedzieć polski compliance

Autorzy piszą z perspektywy product engineers, scientists, policy makers - nie z perspektywy polskiej kancelarii. Cztery białe plamy do wypełnienia przez polskiego compliance officera.

Pierwsza linia. Artykuł 14 AI Act mówi o human oversight, ale nie definiuje, co znaczy nadzór nad ciszą. Jeżeli 79% awarii nie ma żadnego sygnału użytkownika, klasyczne "human in the loop" oparte na zgłoszeniach pracowników jest fikcyjną kontrolą. Polski operator systemu AI w kancelarii musi wybrać jedno z dwóch - albo zatrudnić proces drugiej linii (drugi prawnik weryfikuje co prawnik pierwszej linii zaakceptował od AI), albo zbudować techniczny monitoring detekcji niewidocznych awarii w stylu Pottsa i Sudhofa. Trzecia opcja - "audytujemy losowe próbki raz na kwartał" - jest niezgodna z duchem art. 14 (interpretacja MateMatic, nie stanowisko Komisji Europejskiej ani UODO).

Druga linia. RODO art. 22 (decyzje zautomatyzowane) i confidence trap. Jeżeli prawnik pracuje z klientem i bierze pod uwagę poradę AI bez weryfikacji (bo brzmi pewnie), to gdzie się kończy "wsparcie decyzji", a gdzie zaczyna "decyzja zautomatyzowana wywołująca skutki prawne"? UODO nie ma jeszcze stanowiska, ale logika rozumowania powinna iść za stopniem wpływu cichego rozstrzygnięcia AI na końcowy dokument. Audyt zaprojektowany przez kancelarię musi sprawdzać czy istnieje ślad "prawnik zweryfikował X" - inaczej AI staje się ukrytym podmiotem decyzyjnym (interpretacja MateMatic, nie stanowisko UODO).

Trzecia linia. Tajemnica zawodowa art. 6 ustawy o adwokaturze i silent mismatch. Najgroźniejszy archetyp w kontekście kancelarii. AI odpowiada na inne pytanie i robi to wiarygodnie. Jeżeli prawnik prosi o draft odpowiedzi na pismo procesowe w sprawie X i dostaje draft pasujący do sprawy Y (bo AI źle skojarzył sygnaturę), i prawnik wysyła to klientowi - mamy do czynienia z naruszeniem tajemnicy zawodowej w drugą stronę (cudza sprawa staje się obecna w mojej korespondencji) i niedołożeniem należytej staranności. NRA i KRRP powinny przygotować wytyczne (interpretacja MateMatic, nie stanowisko NRA ani KRRP).

Czwarta linia. Polityka AI w kancelarii musi zawierać klauzulę "drugiej pary oczu" na ciche archetypy. Wszelkie dokumenty wychodzące do klienta lub do sądu z udziałem AI muszą przejść drugą weryfikację z konkretnym checklistem skupionym na trzech archetypach. Confidence trap - sygnatury, daty, nazwiska, czy istnieją? Silent mismatch - czy odpowiedź dotyczy tej sprawy? Contradiction unravel - czy nie ma w tekście wewnętrznej sprzeczności? Walkaway, drift i death spiral są mniej ryzykowne, bo prawnik zauważa, że dokument urywa się dziwnie. Trzy pierwsze archetypy wyglądają na ukończone i kompletne (interpretacja MateMatic, nie stanowisko żadnego regulatora).

Słabsze strony paperu

Trzy zarzuty uczciwie.

Pierwszy - próbka jest tylko angielska. Cały protokół jest dostosowany do języka angielskiego, podpartego frekwencyjnie WildChatem. Polskojęzyczne rozmowy mogą wykazywać inną dystrybucję archetypów. Confidence trap może być mocniejszy w polskim, bo modele mają mniej polskiego materiału treningowego i częściej fabrykują. Silent mismatch może być słabszy, bo polski wymaga gramatycznie konkretniej (przypadki, rodzaje), więc AI rzadziej generuje płynnie błędną odpowiedź. To są hipotezy - replikacja na polskich danych jest postulatem dla NASK, Politechniki Warszawskiej albo polskich centrów badawczych AI.

Drugi - anotator (Opus 4.6) ma własne biases. Autorzy uczciwie przyznają, że anotator stoi powyżej linii frontu modelu, którego ocenia. To działa dla WildChata (GPT-3.5/4), ale gdy oceniają Sonnet 4.6 i Opus 4.6 w Future-2K, anotator jest tej samej klasy co anotowany model. Mogą się pojawiać efekty "model lubi sam siebie", trudne do wyczyszczenia. To nie unieważnia wniosków, ale każe ostrożnie z liczbami przy Future-2K.

Trzeci - dominacja single-turn. 63% rozmów to jedna tura. Single-turn nie pokazuje drift, death spiral ani contradiction unravel, bo te wymagają wielu wymian. Praktyka kancelarii z długimi rozmowami nad jednym pismem może wyglądać zupełnie inaczej niż statystyki Future-2K. Multi-turn analizy są w appendiksach, ale są oparte na mniejszej próbie.

Co z tego wynika

Praca daje kancelarii pierwszą operacyjnie sensowną nazwę dla zjawisk, które kancelarie obserwują od dwóch lat, ale nie miały na nie języka. "Confidence trap" nie jest tym samym co "halucynacja" - jest węższą i lepiej zoperacjonalizowaną definicją. "Silent mismatch" nie jest tym samym co "nieuważna odpowiedź" - jest szerszą i precyzyjną kategorią. "Walkaway" wskazuje, że metryka "user satisfaction" jest niewiarygodna na poziomie statystycznym, bo niezadowoleni klienci nie zgłaszają niezadowolenia.

Drugi wniosek - rosnąca jakość modelu nie likwiduje problemu. Future-2K pokazuje, że Opus 4.6 myli się dziesięć razy rzadziej niż GPT-3.5, ale w tej samej proporcji niewidocznie. System nadzoru nad AI projektowany w kancelarii dziś musi być odporny na wymiany modelu - za rok Opus 5, za dwa lata GPT-6, za trzy coś czego dziś nie znamy. Niezależnie od wersji, w 79% przypadków błędu nie będzie sygnału od użytkownika. Architektura nadzoru musi być model-agnostyczna i oparta na sygnałach zachowania, nie na samoocenie modelu ani na satysfakcji użytkownika.

Trzeci wniosek - taktyczny. Polityka AI w kancelarii powinna mieć rozdział "Detekcja niewidocznych awarii" oparty na taksonomii Pottsa-Sudhofa. Pierwsza wersja może być nawet manualna: prosty checklist dla drugiego prawnika z trzema pytaniami (czy fakty istnieją, czy odpowiedź dotyczy sprawy, czy nie ma sprzeczności). Później można to zoperacjonalizować technicznie z AI-DSPM (TOM 060 OWASP) i monitoringiem sygnałów, ale checklist jest pierwszym krokiem zgodnym z duchem art. 14 AI Act.

Dla zarządu kancelarii w trzech zdaniach

79% błędów AI nie ma sygnału - klient nie powie, że dostał coś dziwnego, prawnik nie powie, że AI mu coś podsunęło źle, monitoring oparty na skargach wyłapie co ósmy błąd. Trzy archetypy są krytyczne dla pracy prawniczej: confidence trap (fabrykowane sygnatury i daty), silent mismatch (odpowiedź dotyczy nie tej sprawy), contradiction unravel (sprzeczność w jednym dokumencie). Polityka AI w kancelarii musi przewidywać "drugą parę oczu" dla każdego dokumentu z udziałem AI z konkretnym checklistem na te trzy archetypy - inaczej nie wypełnia art. 14 AI Act ani należytej staranności wobec klienta (interpretacja MateMatic, nie stanowisko NRA ani KRRP).