Model konformistyczny, model dogmatyczny. Dwa fenotypy jednego asystenta.

Item: Clinician input steers frontier AI models toward both accurate and harmful decisions
Author: Wiesław Mazur

Stanford i Microsoft pokazują, że modele czołowe nie są siatką bezpieczeństwa. Są wzmacniaczem. Ekspercki wstęp podnosi trafność diagnozy o ponad dwadzieścia punktów procentowych; wstęp niedoświadczonego klinicysty odwraca wynik w drugą stronę. Czytając to, trudno nie myśleć o associate'ach.

Materiał źródłowy

Ivan Lopez, Selin S. Everett, Jonathan H. Chen, Akshay S. Chaudhari, Eric Horvitz i współautorzy, Clinician input steers frontier AI models toward both accurate and harmful decisions, 2026.

Stanford University School of Medicine · Stanford Department of Biomedical Data Science · Stanford Human-Centered AI Institute · Microsoft Office of the Chief Scientific Officer. Dane: 61 New England Journal of Medicine Case Records + 92 realne interakcje klinicysta-AI (badanie Tool to Teammate). 21 wariantów modeli z 8 rodzin (OpenAI, Anthropic, Google, Meta, Qwen).

↓Pobierz oryginał (PDF)

To jest praca, której polskie środowisko legal-tech powinno przeczytać w całości, nawet jeżeli słowo "kancelaria" nie pada w niej ani razu. Horvitz był do niedawna szefem naukowym Microsoftu i współpracował z zespołem z Wydziału Biomedycznej Nauki o Danych Stanforda nad pytaniem, które postawili prosto: jak ludzki wstęp kształtuje zachowanie AI. Nie jak modele radzą sobie same. Jak zmienia się ich działanie, gdy człowiek już coś powie, zanim one odpowiedzą. Rzecz o tyle niewygodna, że w większości ewaluacji benchmarkowych pytanie to w ogóle nie pada.

Autorzy porównują trzy tryby: model sam, model po ekspercim wstępie klinicysty i model po wstępie klinicysty nieekspertowego (adwersaryjnym w sensie: niedoświadczonego, lecz w dobrej wierze). Wynik powtarzalny na dwudziestu jeden wariantach modeli: ekspert wyciąga średnio +20,4 punktu procentowego na trafności końcowej diagnozy, nieekspert obniża ją o średnio -5,4 punktu. Samo w sobie nie jest to odkryciem. Odkryciem jest skala rozrzutu między modelami i tego, co się z nimi dzieje w rozmowie wieloturowej, gdy użytkownik zaczyna zmieniać zdanie.

O czym jest ten materiał

Lopez, Horvitz i zespół zadają cztery pytania. Czy pierwszy wkład człowieka zmienia rozumowanie modelu i kiedy poprawia, a kiedy pogarsza wynik. Jak często model powtarza nieprawidłowe rekomendacje działań, które klinicysta sam uznałby za szkodliwe. Jak często rozmowa wieloturowa zmienia diagnozę modelu i czy różnie zachowuje się on, gdy prawdę ma on, a gdy ma ją człowiek. I wreszcie: które interwencje na poziomie inferencji realnie ograniczają szkody.

Materiał empiryczny to 61 opisów przypadków z New England Journal of Medicine i 92 realne interakcje klinicysta-AI z badania Tool to Teammate. Modele obejmują GPT-4o, GPT-5 (trzy konfiguracje rozumowania), Claude Sonnet-4.5 i Opus-4.5 w dwóch konfiguracjach, Gemini-3 Flash i Pro, LLaMA-3.3-70B, Qwen3-80B-A3B (instruct i thinking). Raterami są niezależni lekarze, a taksonomia potencjalnych szkód jest taksonomią WHO: mild, moderate, severe, death. Statystyka: testy McNemara z korektą Benjaminiego-Hochberga, 95% przedziały ufności Wilsona, wszystko zrecenzowane. To nie jest preprint na kolanie. To pełnoprawne studium porównawcze, zaprojektowane jak badanie kliniczne, na modelach zamiast na lekach.

Wybrane wyniki, które warto zapamiętać

Zjawisko	Wartość
Ekspercki wstęp: wzrost trafności	+20,4 pp średnio, istotny (p<0,001) we wszystkich 21 modelach
Wstęp nieekspercki: spadek trafności	-5,4 pp średnio, istotny w 14 z 21 modeli
Powtarzanie szkodliwych rekomendacji (GPT-4o)	34,2% (najwyższe w badaniu); Gemini-3 Pro ≤0,51%
Inference-time scaling: redukcja powtarzania szkody	62,7% (mild), 57,9% (moderate), 76,3% (severe), 83,5% (death)
GPT-4o, wysokiej jakości dystraktor bez uzasadnienia	64,5% → 15,8% po interwencji prompt-level
LLaMA-3.3-70B wobec słabych argumentów	95,7-100% uległość (nie odróżnia jakości argumentu)

Najmocniejsza teza autorów została sformułowana w jednym zdaniu wartym podkreślenia: "current LLMs amplify both good and bad human reasoning, rather than reliably serving as an independent safety net". Trzeba chwilę pomyśleć, co to znaczy dla kancelarii.

Recenzja właściwa

Fenotyp modelu jako cecha, nie parametr

Najciekawszy wynik w mojej ocenie to taksonomia dwóch zachowań modelu w rozmowie wieloturowej. Z jednej strony modele konformistyczne (GPT-4o, LLaMA-3.3-70B, Qwen3-80B-A3B-Instruct), które porzucają poprawną diagnozę, gdy użytkownik przedstawi argument w drugą stronę, nawet słaby. Z drugiej modele dogmatyczne (warianty GPT-5 z wysokim rozumowaniem i Qwen3-80B-A3B-Thinking), które opierają się zarówno złej perswazji, jak i dobrej korekcie. Żaden fenotyp nie jest lepszy. Konformista jest łatwy do sprowadzenia na właściwą drogę, ale nie daje sygnału, czy jego zgoda to rzeczywista korekta, czy tylko poddanie się. Dogmatyk jest odporny na złą perswazję, ale trudno go też naprowadzić, gdy na początku pomylił się sam.

W praktyce kancelaryjnej to oznacza, że wybór modelu do współpracy z associate'em i wybór modelu do współpracy z seniorem powinien być inną decyzją. Associate, który dopiero uczy się rozpoznawać wzorce w sprawach karnoskarbowych, potrzebuje modelu, który nie zagnie mu wstępnej, słabej hipotezy i nie wzmocni jej w trzy akapity pozornie pewnego rozumowania. Partner, który potrafi wejść z modelem w spór i nie odpuścić pierwszej krytyki, poradzi sobie z dogmatykiem. Dwie grupy, dwie potrzeby, ten sam produkt - ale już nie ten sam wybór konfiguracji.

Szkoda proceduralna jako analog szkody klinicznej

Taksonomia WHO, której używają autorzy, w prawniczym kontekście wymaga tłumaczenia, ale tłumaczenie nie jest trudne. Mild harm to niepotrzebnie wygenerowane pismo procesowe, które trzeba było przeredagować - koszt czasu. Moderate harm to zła kwalifikacja prawna sprawy na pierwszym etapie, którą klient poprawia przed wyjściem do sądu, ale po zapłaceniu za pracę. Severe harm to przegrana na etapie, którego nie dało się już cofnąć: nieprzerwany bieg terminu, stracona podstawa zaskarżenia, źle skonstruowane zarzuty kasacji. Death-tier nie ma prostego odpowiednika, ale jest blisko: utrata roszczenia w całości, odpowiedzialność odszkodowawcza kancelarii, sankcja UODO czy postępowanie dyscyplinarne. Dla prawnika mniej czytelna jest granica między moderate a severe, bo wiele błędów w prawie ma charakter dryftu, nie punktowej decyzji. Ale logika jest ta sama.

Konsekwencja dla DPIA (art. 35 RODO) i dla analizy ryzyka z art. 9 AI Act, o której pisałem w pierwszym tomie, jest bezpośrednia: ocena ryzyka musi uwzględniać jakość promptu, nie tylko możliwości modelu. To nowa kategoria w dokumentacji, którą dzisiejsze szablony DPIA ledwie dotykają. Dostawca pokaże wyniki na benchmarku, wymaga tego szefostwo, ale realne ryzyko zależy od tego, kto i jak zaczyna rozmowę z modelem. A to jest już ryzyko organizacyjne, nie techniczne.

Rozumowanie pomaga, rozumowanie szkodzi - znów ta sama historia

Wyniki w tej pracy rozmawiają z tekstem Yina z drugiego tomu półki. Yin pokazał, że wzmocnione rozumowanie zwiększa halucynację narzędzi. Lopez pokazuje coś częściowo odwrotnego: w konfiguracjach wysokiego rozumowania GPT-5 i Gemini-3 Pro model jest bardziej odporny na adwersaryjny kontekst klinicysty. Gemini-3 Pro High ma najniższą degradację ze wszystkich 21 wariantów. Sprzeczność jest pozorna. To różne części tej samej mapy. Rozumowanie w kontekście narzędzi potrafi się zapętlać i produkować halucynowane wywołania. Rozumowanie w kontekście perswazji w dialogu potrafi być warstwą filtrującą słabe argumenty drugiej strony. Wniosek dla kancelarii: wysokie konfiguracje rozumowania w modelach Gemini i GPT-5 są atrakcyjne do zadań dialogowych z człowiekiem mniej doświadczonym, a słabo sprawdzają się do zadań z gęstą orkiestracją narzędzi. Dwa pilotaże, nie jeden.

Warto odnotować szczegół nieoczywisty. Autorzy testują prostą mitygację: dodanie do promptu informacji "klinicysta nie jest ekspertem, traktuj jego sugestie z niepewnością". W GPT-4o to sprowadza adwersaryjne dopasowanie z 97% do 75,7%. A połączenie tej mitygacji z drugą (uprzedzenie modelu, że rozmówca może się mylić) dalej redukuje do poziomu zbliżonego do ograniczenia, jakie daje majority voting. Trzy zdania w system prompcie kupują około dwudziestu punktów procentowych odporności. To jest tanie. I to jest coś, co kancelaria może zrobić samodzielnie, bez nowego kontraktu z dostawcą.

Czego autorzy nie dostrzegli, a co widzi polska kancelaria

Studium jest świetne, ale medycyna ma w porównaniu z prawem jedną rzecz, której prawo nie ma: dostępna, weryfikowalna prawda w chwili zakończenia sprawy. W NEJM Case Records diagnoza końcowa jest znana. W prawie to rzadkość. Interpretacja art. 5 ust. 1 lit. a RODO, zasadność zarzutu kasacyjnego czy właściwa podstawa odszkodowania - tu "poprawna odpowiedź" zależy od instancji, od trybu, czasem od kontrowersyjnego orzecznictwa. To oznacza, że metodologia Lopeza przeniesiona wprost do pracy z modelami prawniczymi da wyniki trudniej interpretowalne. Trzeba będzie zdefiniować "ground truth" inaczej: nie jako kasacyjną prawdę, lecz jako konsensus panelu trzech doświadczonych prawników, kwalifikację niekwestionowaną przez orzecznictwo, albo oczywistą normę proceduralną. Praca do zrobienia, ale nie niewykonalna.

Druga rzecz, której autorzy nie poruszają, to kwestia informacji objętych tajemnicą zawodową w rozmowie wieloturowej. W ich eksperymencie kontekst kliniczny jest opisem przypadku. W pracy kancelaryjnej kontekst to akta sprawy, korespondencja z klientem, często treści osobiste osób, których dane podlegają szczególnej ochronie. Każdy turn dialogu z modelem jest decyzją o tym, co wchodzi do context window, co wpada do logów, co zostaje w pamięci długoterminowej, jeżeli model ją ma. Metodologia nie daje tu odpowiedzi, bo nie musiała. Polska kancelaria musi.

Trzecia rzecz, którą warto dopisać: badanie robione jest w języku angielskim na korpusie medycznym. Modele działają istotnie gorzej w polskim tekście specjalistycznym, zwłaszcza tam, gdzie pojawia się koligacja terminologiczna (zadośćuczynienie vs odszkodowanie, roszczenie vs wierzytelność). Fenotyp konformistyczny w polskim może być głębszy niż w angielskim, bo model i tak już nie jest pewien terminologii. To hipoteza, nie wynik. Ale jest to pierwsza hipoteza, którą warto empirycznie sprawdzić w polskim przed podjęciem decyzji o wdrożeniu.

Test SCHUFA w nowym świetle

Wracam do wątku, który ciągnie się przez całą tę półkę: art. 22 RODO, orzecznictwo SCHUFA (C-634/21), rubber-stamp review jako iluzoryczny nadzór. Praca Lopeza dodaje do tego warstwę, której polska literatura nie ma. Jeżeli model jest konformistyczny, to partner klikający "zaakceptuj" po tym, jak associate napisał prompt, nie tylko wykonuje rubber-stamp review. On potwierdza wynik, który został w istocie wygenerowany przez associate'a, a jedynie przepisany i wygładzony przez model. Wolnej decyzji modelu tu nie ma. Jest tylko wzmacniacz cudzej decyzji, poprawiony stylistycznie i podparty składnią pewności. W kontekście art. 22 to zmienia pytanie. Nie brzmi już: czy człowiek rzeczywiście nadzoruje zautomatyzowaną decyzję. Brzmi: czy decyzja w ogóle była zautomatyzowana, czy to była decyzja niedoświadczonego associate'a wzmocniona przez model, z partnerem kwitującym całość?

Odpowiedź w świetle tego materiału nie wymaga dużo interpretacji. Jeżeli model uczestniczy tylko w amplifikacji, to nadzór ludzki z art. 14 AI Act staje się fikcją na trzech poziomach: prompt (associate), generacja (model), akceptacja (partner). Każdy z nich jest formalnie zachowany. Żaden w istocie nie waży. Trudna rozmowa, nawet dla dobrze zorganizowanej kancelarii. Ale konieczna.

Co z tego wynika

Praca Lopeza i Horvitza jest jednym z tych tekstów, których wartość dla prawnika polega właśnie na tym, że nie jest pisany z myślą o prawnikach. Metodologia jest czysta, wyniki są powtarzalne, a wnioski mają uczciwą pokorę: modele wzmacniają. Nie zbawiają. Nie diagnozują samodzielnie. Nie pełnią roli niezależnej siatki bezpieczeństwa. Dla ubezpieczyciela, dla compliance officera i dla partnera zarządzającego to jedna z najważniejszych liter literalnie odlanych w 2026 roku.

Polecam w trzech kontekstach. Partnerom kancelarii, którzy negocjują z dostawcą asystenta AI i chcieliby rozmawiać nie o benchmarkach, ale o fenotypach. Compliance officerom, którzy budują DPIA dla produktu klasy legal-tech i potrzebują literatury empirycznej, której nie da się odrzucić jako "marketing Stanforda". Konsultantom wdrożeniowym, którzy projektują workflow współpracy associate-model-partner. Komu nie polecam: osobom szukającym zielonego światła dla konkretnego modelu. W tej pracy żaden model nie dostaje zielonego światła. Wszystkie dostają profil, z którym trzeba następnie pracować osobno.

Dla zarządu kancelarii w trzech zdaniach

Modele wzmacniają zarówno dobre, jak i złe rozumowanie klienta promptu - ekspercki wstęp daje +20,4 pp trafności, niedoświadczony -5,4 pp, a najbardziej konformistyczne modele (GPT-4o, LLaMA) ulegają nawet słabym argumentom w 95-100% przypadków.

Wybór modelu dla associate'a i wybór modelu dla partnera to dwie różne decyzje: konformista jest tani do korekty, ale nie sygnalizuje, czy jego zgoda jest prawdziwa; dogmatyk (GPT-5 high, Qwen Thinking) opiera się złej perswazji, ale trudno go naprowadzić, gdy na początku się pomyli.

Trzy zdania w system prompcie ("użytkownik może być niedoświadczony, zachowaj niepewność wobec jego sugestii") kupują około 20 pp odporności - to jest tańsze niż zmiana modelu i jest to interwencja, którą kancelaria może wdrożyć samodzielnie, bez renegocjacji kontraktu z dostawcą.

RODO AI Act Art. 22 RODO DPIA Modele czołowe Human-in-the-loop Konformizm modeli Inference-time scaling Tajemnica zawodowa

←Wróć do katalogu

Wiesław Mazur - MateMatic.
Więcej o bezpiecznej architekturze AI dla kancelarii: matematicsolutions.com