Zespół z Penn State i Nanjing University of Science and Technology zrobił coś, co większość dostawców AI w Polsce chętnie by przemilczała. Pokazał na liczbach, że modele "thinking mode" halucynują narzędzia dwa, trzy, czasem dziesięć razy częściej niż ich zwykłe odpowiedniki instruction-tuned. Kto w kancelarii włącza reasoning dla bezpieczeństwa, robi coś dokładnie odwrotnego od zamierzonego.

Branżowa narracja ostatnich dwóch lat w Polsce jest prosta. Reasoning znaczy ostrożniej. Model, który "myśli krok po kroku", jest rzekomo bezpieczniejszy od tego, który odpowiada od razu. "Thinking mode", "extended thinking", "deep research", "o3", "R1" - sprzedawane są partnerom kancelarii jako gwarancja jakości. Tymczasem empiryczna praca pięciu badaczy z Penn State i Nanjing University of Science and Technology pokazuje coś niewygodnego. W kontekście używania narzędzi reasoning jest czynnikiem ryzyka, nie remedium. I to nie ostrożnie zawinięte zastrzeżenie - to wynik powtórzony na Qwen3, DeepSeek i Kimi, w różnych skalach, różnymi metodami treningu.

O czym jest ten materiał

Artykuł jest preprintem akademickim, dziewiętnaście stron. Autorzy: Chenlong Yin (Penn State), Zeyang Sha (corresponding, Nanjing), Shiwen Cui, Changhua Meng, Zechao Li (Nanjing). Stawiają centralne pytanie: czy wzmacnianie reasoning w LLM - przez reinforcement learning, distillation albo toggleable thinking modes - systematycznie zwiększa halucynacje narzędziowe?

Żeby odpowiedzieć, zbudowali własny benchmark SimpleToolHalluBench. Trzysta czterdzieści dziewięć narzędzi z różnych domen (wyszukiwanie web, operacje systemowe, finanse, zdrowie, transport, computing naukowe), pary zapytań użytkownika w dwóch reżimach: No-Tool-Available (żadne narzędzie nie pasuje do zadania, model powinien odmówić) oraz Distractor-Tool (dostępne narzędzie wygląda podobnie, ale nie jest właściwe). W obu reżimach poprawna odpowiedź to powstrzymać się od wywołania narzędzia lub wskazać, że właściwe nie jest dostępne.

Następnie autorzy przeprowadzili cztery powiązane eksperymenty. Najpierw wytrenowali Qwen2.5-7B-Instruct przez GRPO - state-of-the-art reasoning RL - na zadaniach agentycznych i mierzyli zarówno użyteczność, jak i halucynacje co sto kroków. Potem sprawdzili, czy sam reasoning RL na problemach matematycznych (bez żadnych narzędzi) również wywołuje problem. Potem - czy distillation i toggleable modes dają ten sam efekt. Na końcu kontrolowali alternatywne wyjaśnienia: czy to nie jest po prostu general RL albo degradacja instruction-following. Wynik w każdym przypadku ten sam.

Reasoning enhancement, niezależnie od metody, systematycznie zwiększa halucynacje narzędziowe.

Recenzja właściwa

Empiryka, która nie pozostawia miejsca na marketing

Tabela piąta z pracy (Appendix B) to fragment, który powinien trafić przed oczy każdego partnera kancelarii, który właśnie rozważa włączenie "thinking mode" w asystencie AI:

Model	Wariant	R_NTA	R_DT
Qwen3-4B	Instruct	3,4%	24,0%
Qwen3-4B	Thinking	29,4%	32,1%
Qwen3-235B	Instruct	3,7%	23,3%
Qwen3-235B	Thinking	6,1%	30,7%
DeepSeek-671B	V3	10,8%	33,8%
DeepSeek-671B	R1	17,6%	42,6%
Kimi-K2-1T	Instruct	1,0%	15,5%
Kimi-K2-1T	Thinking	4,4%	21,3%

R_NTA to procent halucynacji w scenariuszu, w którym żadne narzędzie nie pasuje. R_DT to scenariusz dystraktora. Qwen3-4B Thinking halucynuje prawie dziesięć razy częściej niż jego baseline, gdy żadne narzędzie nie pasuje. DeepSeek R1 halucynuje prawie dwukrotnie częściej niż V3. Kimi Thinking cztery razy częściej niż Kimi Instruct. To nie jest szum. To jest systematyczny wzorzec.

Przełożenie na język kancelaryjny brzmi brutalnie. Asystent AI w trybie reasoning, zapytany o rzecz, do której nie ma odpowiedniego narzędzia ani źródła, zamiast powiedzieć "nie wiem, nie mam czym sprawdzić", z dużym prawdopodobieństwem wymyśli API, sfabrykuje źródło, zacytuje wyrok, którego nie było. Pewność, z jaką to zrobi, rośnie wraz z głębokością reasoning. Tu jest kluczowa różnica z klasyczną halucynacją tekstową: reasoning model nie waha się - kalkuluje.

Trade-off, którego nie można zignorować

Autorzy testują dwie strategie łagodzące. Prompt Engineering - dodajemy do system promptu instrukcję "jeśli żadne narzędzie nie pasuje, powstrzymaj się". Efekt minimalny: halucynacje spadają z 90% do 87,5% na ich benchmarku, utility z R=1 do R=0,44. Następnie Direct Preference Optimization, czyli trening preferencyjny na przykładach poprawnych odmów. Efekt większy: halucynacje spadają do 55,8% i 71,4%. Ale utility spada z R=1 do R=0,34. To prawie dwa razy większy spadek użyteczności niż spadek halucynacji.

Autorzy nazywają to reliability-capability trade-off. W języku kancelarii: bezpieczny asystent AI jest jednocześnie asystentem mało użytecznym. Dziś. Przy obecnych metodach treningu.

To jest punkt, który łączy się z recenzowanym u nas wcześniej materiałem Kenneya. W TOM 001 omawiałem compound regime RODO × AI Act i low-friction oversight, który Trybunał Sprawiedliwości w sprawie SCHUFA (C-634/21) zaczął traktować jako równoważny z brakiem nadzoru. Yin i współautorzy dokładają tu empiryczną warstwę. Reasoning enhancement nie tylko nie chroni przed halucynacjami narzędziowymi - on je aktywnie wzmacnia. Jeżeli do tego dodamy low-friction oversight (partner, który klika "wyślij" bez rzeczywistej analizy), mamy receptę na wywołanie tooli, które nie istnieją, i cytowanie spraw, których nie było.

Mechanizm, czyli gdzie to się dzieje

Część szósta pracy zawiera analizę mechanistyczną, która dla osoby niebędącej ML-owcem może wydawać się techniczna, ale pointa jest prosta. Autorzy mierzą, gdzie w warstwach modelu pojawia się rozróżnienie między trajektorią prowadzącą do poprawnej odpowiedzi a trajektorią prowadzącą do halucynacji. Wynik: late-layer residual streams. To znaczy, że drobne, początkowo niewyczuwalne różnice w przetwarzaniu w wczesnych warstwach kumulują się i w późnych warstwach dają już jakościowo różne aktywacje. Reasoning RL zwiększa tę rozbieżność na tool-related inputs nieproporcjonalnie bardziej niż na standardowych.

Znaczenie praktyczne: halucynacji narzędziowej nie da się prosto wyłączyć w jednym module. Ona nie mieszka w konkretnym attention head ani MLP. Emerge'uje z kumulatywnej propagacji. Dlatego prompt engineering daje tak słaby efekt. Dlatego DPO musi działać globalnie i kosztuje utility.

Czego autorzy nie powiedzieli, a co musi powiedzieć polski compliance

Pracownicy akademiccy piszą o bezpieczeństwie agentów AI w ogólności. Nie piszą o tajemnicy zawodowej. Nie piszą o art. 15 AI Act (accuracy, robustness, cybersecurity) ani o art. 22 RODO. Zbudują tego pomostu polscy prawnicy.

Pierwsza linia. Art. 15 AI Act wymaga, żeby systemy wysokiego ryzyka miały odpowiedni poziom accuracy. Jeżeli wiemy empirycznie, że reasoning enhancement zwiększa halucynacje narzędziowe dwa- do dziesięciokrotnie - to wdrożenie reasoning-enhanced agenta w scenariuszu wysokiego ryzyka bez explicite zmierzonej accuracy jest trudne do obrony. DPIA z art. 35 RODO, w compound regime z art. 9 AI Act, powinno zawierać metryki halucynacji - nie tylko metryki użyteczności.

Druga linia. Tajemnica zawodowa. Agent w reasoning mode, który halucynuje cytat z orzecznictwa, robi coś, czego zwykły LLM nie robi z taką pewnością. Wygląda, jakby sprawdził. Wygląda, jakby miał podstawę. Nie miał. Partner, który w dobrej wierze przejmuje tę argumentację i buduje na niej pismo procesowe, wprowadza do obiegu sfabrykowaną treść w sprawie klienta. Odpowiedzialność dyscyplinarna jest po stronie partnera, nie po stronie dostawcy modelu.

Trzecia linia. Art. 22 RODO. Low-friction oversight przy reasoning-enhanced agencie jest gorszy niż low-friction oversight przy zwykłym. Bo output wygląda bardziej przekonująco. Wniosek orzeczniczy, który wyciągnie z tego europejski sąd, nie jest trudny do przewidzenia.

Co z tego wynika

Praca Yina i współpracowników nie jest manifestem. Autorzy sami w zakończeniu piszą, że reasoning jako technika jest obiecująca, ale wymaga nowych celów treningowych, które wspólnie optymalizują capability i reliability. To uczciwe podejście. Nie chcą spalić reasoning - chcą go naprawić.

Dla polskiej kancelarii wniosek jest węższy i pilniejszy. Jeśli używasz dziś agenta AI z włączonym trybem reasoning przy wywołaniach narzędzi - jesteś w grupie, w której, statystycznie, halucynacje narzędziowe są dwa- do dziesięciokrotnie częstsze niż w wersji bez reasoning. To nie jest zarzut wobec konkretnego dostawcy. To jest właściwość obecnych metod treningu, potwierdzona na Qwen3, DeepSeek, Kimi. Prawdopodobnie obejmuje też modele zamknięte, choć autorzy ich nie testowali, bo nie mieli dostępu.

Materiał polecam w dwóch grupach. Partnerom kancelarii, którzy podejmują decyzje o włączaniu trybów "thinking" w narzędziach legal-tech - żeby wiedzieli, że to decyzja, która ma udokumentowany koszt w postaci niezawodności. Compliance officerom w działach prawnych, którzy przygotowują DPIA pod AI Act - żeby uwzględnili metryki halucynacji narzędziowych w ocenie systemów wysokiego ryzyka.

Dla zarządu kancelarii w trzech zdaniach

"Thinking mode" w asystencie AI nie jest bezpieczniejszą wersją - w scenariuszach wywołania narzędzi halucynuje od dwóch do dziesięciu razy częściej niż wersja instruction-tuned. Prompt engineering daje minimalny efekt, DPO redukuje halucynacje kosztem połowy użyteczności. Zanim włączycie reasoning produkcyjnie przy obsłudze spraw klienta, udokumentujcie w DPIA metryki halucynacji, nie tylko metryki sukcesu - inaczej nie obronicie się z art. 15 AI Act.

Lepsze myślenie,gorsze narzędzia.

O czym jest ten materiał

Recenzja właściwa

Empiryka, która nie pozostawia miejsca na marketing

Trade-off, którego nie można zignorować

Mechanizm, czyli gdzie to się dzieje

Czego autorzy nie powiedzieli, a co musi powiedzieć polski compliance

Co z tego wynika

Lepsze myślenie,
gorsze narzędzia.