Siedem modeli zagrożeń.
Bengio i Russell patrzą poza alignment.

Item: AI Poses Risks to Democratic and Social Systems
Author: Wiesław Mazur

Gdy na liście autorów jednego artykułu pojawiają się równocześnie Yoshua Bengio, Stuart Russell, Bernhard Schölkopf, Audrey Tang, Rada Mihalcea i Paul Resnick, warto przeczytać go uważnie. Zwłaszcza jeśli główna teza brzmi: alignment nie wystarczy, ponieważ część ryzyk wynikających z AI dotyczy instytucji, nie modeli. Artykuł z ICML 2026 (draft z 25 marca 2026) proponuje siedem modeli zagrożeń dla systemów demokratycznych i społecznych. Dla polskiej kancelarii, która dopiero kalibruje swoje wdrożenia AI, to nie jest akademicka lektura. To mapa tego, co może pęknąć w otoczeniu, w którym kancelaria funkcjonuje - w sądownictwie, administracji publicznej, konsultacjach ustaw, w zaufaniu klienta.

Nie: "AI zagraża demokracji, bo generuje deepfejki". Tak: "Perfekcyjnie aligned model, który robi dokładnie to, co ma robić, nadal może zniszczyć instytucje - jeśli używa go 10 milionów osób jednocześnie, a instytucje są skalibrowane na 10 tysięcy". Różnica między tymi dwoma zdaniami to różnica między publicystyką a polityką publiczną.

Materiał źródłowy

David Guzman Piedrahita, Dave Banerjee, Kevin Blin i zespół (Jinesis Lab / University of Toronto / Vector Institute / EuroSafeAI), z udziałem Ashtona Andersona, Yoshua Bengio (Mila, LawZero), Matthiasa Bethge, Rogera Grosse, Karoline Helbig, Davida Lie, Richarda Mallaha, Rady Mihalcei, Susan Nesbitt, Susan Perry, Paula Resnicka, Stuarta Russella (Berkeley), Mrinmayi Sachan, Bernharda Schölkopfa (MPI, ELLIS), Audrey Tang (Oxford Institute for Ethics in AI) i Zhijing Jin, AI Poses Risks to Democratic and Social Systems, Proceedings of the International Conference on Machine Learning 2026, preliminary draft, 25 marca 2026.

Zakres: definicja sociopolitical risks AI, siedem modeli zagrożeń (T1-T7) uporządkowanych w pętli input-processing-feedback (Easton 1965, Deutsch 1963), mapowanie na alignment (alignment-independent, alignment-caused, alignment-relevant), siedem rekomendacji (R1-R7). Bibliografia ok. 200 pozycji obejmująca political science, governance theory, platform governance, AI safety, deliberative democracy.

O czym jest ten materiał

Punkt wyjścia autorów jest prosty i niewygodny. Dotychczasowa debata o bezpieczeństwie AI podzieliła się na dwa obozy. Pierwszy zajmuje się właściwościami pojedynczego modelu - rzetelnością, toksycznością, odmowami, stronniczością. Drugi zajmuje się scenariuszami egzystencjalnymi - nagłą utratą kontroli, katastrofalnym nadużyciem, ryzykiem wyniszczenia. Między tymi dwoma biegunami jest luka, w której mieszczą się procesy stopniowe, dotyczące instytucji, a nie wyłącznie pojedynczych interakcji człowieka z modelem. Autorzy nazywają tę luką sociopolitical risks of AI i definiują ją jako zagrożenia dla zdolności społeczeństwa do formułowania wspólnych sądów i realizowania ich przez odpowiedzialne instytucje.

Instytucje są tu traktowane jak systemy przetwarzające informację - absorbują wejścia (opinie obywateli, skargi, udział w konsultacjach), przetwarzają je przez procedury i ekspertyzę, zwracają wyjścia (decyzje, uzasadnienia, prawo), które następnie wracają jako nowe wejścia. AI może rozprząc ten cykl, nawet jeśli każda pojedyncza interakcja z modelem jest pomocna, nieszkodliwa i zgodna z regułami. Na tej kanwie autorzy wyodrębniają siedem konkretnych mechanizmów, którymi się dzieje szkoda. T1 - belief homogenization, czyli spłaszczenie dyskursu, bo miliony ludzi korzystają z tak samo wytuningowanych modeli. T2 - belief reinforcement, czyli prywatne sycophanckie pętle, w których asystent AI utrwala przekonania użytkownika. T3 - congested bureaucracy, czyli zalanie urzędów spójnymi, wiarygodnie wyglądającymi zgłoszeniami, których wydolność administracyjna nie jest w stanie przerobić. T4 - epistemic flood, czyli asymetria między kosztem wytworzenia treści a kosztem jej weryfikacji. T5 - unauditable authority, czyli decyzje AI produkowane w tempie i skali, której nie obsłużą mechanizmy odwoławcze. T6 - normative centralization, czyli wartości deweloperów zaszyte w model spec, które państwo kupujące model importuje razem z nim do własnej administracji. I T7 - power concentration, czyli jednoczesne osłabienie dźwigni obywatelskiej w wielu domenach naraz.

Wartość tego tekstu dla kogoś, kto myśli o AI w polskiej kancelarii, nie polega na tym, że daje listę rzeczy do kontroli. Polega na tym, że pokazuje, czym compliance AI jest, a czym nie jest. Nie jest checklistą bezpieczeństwa pojedynczego modelu. Jest pytaniem, czy instytucje, w których operuje kancelaria - sądy, urzędy, regulator, samorząd zawodowy - wytrzymają deployment, który dziś jest już faktem.

Recenzja

Perspektywa compliance: AI Act widzi model, nie instytucję

Polski i europejski reżim regulacyjny, który obowiązuje w kancelarii, jest dobrze skalibrowany na warstwę modelu. AI Act, obowiązujący od 2 lutego 2026, mówi o kategoriach ryzyka systemów AI, o wymogach dla systemów wysokiego ryzyka (art. 9 risk management, art. 14 nadzór człowieka, art. 15 dokładność i cyberbezpieczeństwo), o szczególnych wymogach dla modeli ogólnego przeznaczenia z ryzykiem systemowym (art. 55). RODO mówi o podstawie prawnej przetwarzania, minimalizacji danych, prawie do sprzeciwu wobec zautomatyzowanego podejmowania decyzji z art. 22. Wszystkie te przepisy wycelowane są w właściwości konkretnego systemu u konkretnego dostawcy albo administratora.

Autorzy pokazują, że nawet perfekcyjna zgodność każdego pojedynczego systemu z tymi wymogami nie rozwiąże problemu, który opisują. Weźmy T3 - congested bureaucracy. Jedna osoba generuje za pomocą modelu dziesięć tysięcy spójnych, policy-compliant, pięknie sformułowanych pism do urzędu, który ma prawny obowiązek je rozpatrzeć. Każde pismo z osobna spełnia wszystkie wymogi AI Act. Każde mogłoby być też napisane przez człowieka - gorzej, wolniej, ale mogłoby. Aggregate effect jest jednak taki, że urząd traci zdolność orzekania w rozsądnym czasie. To nie jest problem, który rozwiąże audyt dostawcy modelu. To jest problem, który wymaga przeprojektowania procedur udziału obywatelskiego i procesów administracyjnych. Dyrektywa o dostępie do informacji publicznej, KPA, procedura konsultacji publicznych projektów ustaw - żaden z tych reżimów nie jest w stanie dziś obsłużyć napływu o kilka rzędów wielkości większego niż ten, na który został zaprojektowany.

Druga oś, której AI Act nie widzi, to T6 - normative centralization. Polska administracja publiczna, podobnie jak polskie kancelarie, kupuje modele od amerykańskich dostawców. Te modele mają wbudowane tak zwane constitutions, model specs, usage policies - zestawy reguł, które rozstrzygają, o czym model rozmawia, a o czym odmawia rozmawiać, jakie framowania uznaje za legitymne, jakich tematów nie rusza. Te reguły ustala jednostronnie deweloper. Gdy polska kancelaria korzysta z takiego modelu do przygotowania opinii prawnej, importuje razem z nim amerykańską skalę wrażliwości na kwestie religijne, polityczne, etyczne. Gdy polski urząd używa go do klasyfikacji zgłoszeń obywateli, importuje tę skalę do wykonywania władzy publicznej. Pytanie, które wisi, a na które AI Act nie odpowiada, brzmi: czyje wartości są zaszyte w systemie, który realizuje twoje zadania publiczne, i jaki demokratyczny mechanizm je ustala. Autorzy proponują collective constitutional AI i federacyjność - różne polityki mogą legitymnie dojść do różnych konstytucji modelu. Polski legislator jeszcze tego tematu nie podjął. Dostawcy modeli też go nie podejmują, bo im nie zależy.

Z kąta RODO jest jeszcze jedno, o czym autorzy wspominają krótko, a co w polskiej kancelarii warto odnotować. T2, sycophanckie pętle z pamięcią długoterminową, tworzą profil behawioralny, którego podstawą prawną trudno się dopatrzeć. Gdy asystent AI po dwóch latach pracy z prawnikiem ma pełną rekonstrukcję jego preferencji argumentacyjnych, stylu, wzorców decyzyjnych - to jest profilowanie w rozumieniu art. 4 pkt 4 RODO. Administrator, czyli kancelaria, powinien mieć na nie podstawę prawną i DPIA. Zgoda pracownika jest tu słabym kandydatem, bo zakłócona jest dobrowolność w relacji zatrudnienia.

Perspektywa bezpiecznej architektury: alignment-caused jest najbardziej niewygodne

Autorzy wprowadzają rozróżnienie, którego brakowało dotychczasowej debacie. Ryzyka sociopolitical dzielą się na trzy klasy ze względu na relację z alignmentem. Alignment-independent - trwają bez względu na to, jak dobrze zestroimy model; T3, T4, T7 mieszczą się głównie tutaj. Alignment-caused - są wprost skutkiem ubocznym obecnych technik; T1, T2, T6 należą głównie do tej klasy. Alignment-relevant - ograniczenia alignmentu (niewierne łańcuchy rozumowania, systematyczne biasy) pogłębiają problem, ale da się je częściowo naprawić; T5 to typowy przykład.

Najbardziej niewygodna dla branży jest klasa druga. RLHF, safety fine-tuning, constitutional training - wszystkie metody, którymi dostawcy modeli chwalą się jako dowodem odpowiedzialnego podejścia - są wprost źródłem konkretnych patologii. Trenowanie pod helpfulness i safety zwęża rozkład wyjściowy, co autorzy obserwują w badaniach (Shumailov 2024, Dohmatob 2024, Wu 2025). Trenowanie pod zadowolenie użytkownika produkuje sycophancy, bo w większości rozmów nie ma ground truth, a RLHF optymalizuje pod wrażenie, nie pod prawdę. Salvi i in. (2025) w eksperymencie na 900 osobach pokazali, że GPT-4 z dostępem do danych socjodemograficznych zwiększał prawdopodobieństwo zgody użytkownika z argumentem o ponad 80 procent w porównaniu z wersją nieperspersonalizowaną. Jin i in. (2024) zaobserwowali, że gdy użytkownik zasygnalizuje przekonanie w dezinformację, celność faktograficzna modelu znacząco spada - system przechodzi do walidacji fałszywej przesłanki.

Dla architektury wdrożenia w kancelarii konsekwencja jest prosta i kosztowna. Nie można jednocześnie chcieć modelu, który maksymalizuje zadowolenie prawnika użytkownika, i oczekiwać, że będzie on rzetelnym partnerem do sprawdzania argumentów. Te dwie właściwości wykluczają się w obecnych metodach treningu. Wnikliwy nadzór nad AI z art. 14 AI Act zakłada, że człowiek jest w stanie skorygować model. Jeśli model jest wytrenowany tak, żeby dopasowywać się do oczekiwań tego człowieka, ten nadzór staje się fikcją w momencie, w którym prawnik ma już ukształtowaną intuicję co do sprawy. Autorzy mówią o tym wprost: korekta przestaje być jednorazowym aktem faktsprawdzenia, staje się wysiłkiem pod górę przeciw nagromadzonej historii interakcji. W kancelariach, które pracują z tym samym asystentem przez kilkanaście miesięcy, ten problem jest już realny, nie hipotetyczny.

Drugie pytanie architektury dotyczy wielu dostawców. Autorzy rekomendują w R6 multi-provider deployment i interoperacyjność - nie z powodów licencyjnych, tylko ze względu na T1 i T6. Jeśli cała polska administracja publiczna plus cały polski rynek usług prawnych plus cały polski sektor finansowy korzysta z jednego modelu jednego dostawcy, epistemiczna monokultura jest pewna. Argumenty przed sądem zaczną się konwergować. Sposób framowania ryzyka compliance też. Rejestr dozwolonych wątpliwości prawnych także. Polska kancelaria, która dziś stawia na jednego dostawcę, nie robi decyzji zakupowej. Robi decyzję strategiczną, której skutki zobaczy za pięć lat, gdy nagle zauważy, że nie ma już dostępu do niezależnej drugiej opinii.

Czego autorzy nie dopowiadają

Tekst jest napisany z perspektywy anglosaskiej demokracji procesowej, w której presja flooding publicznych konsultacji, presja robocallów w kampanii wyborczej, presja public records requests w administracji, to realne historie z ostatnich pięciu lat. W polskim kontekście mechanizmy są inne, ale konsekwencje - podobne.

Po pierwsze, konsultacje publiczne projektów ustaw. Dziś Rządowe Centrum Legislacji publikuje projekt, przewiduje okres zgłaszania uwag, organizacje branżowe i indywidualni obywatele zgłaszają swoje. System jest skalibrowany na setki, czasem tysiące, zgłoszeń. Autorzy pokazują, że T3 to nie hipoteza, tylko zjawisko obserwowalne już dziś - jedna osoba z LLM może wygenerować tysiące merytorycznych, różniących się argumentacją, stylem i wątkami zgłoszeń. Jak legislator to odróżni? Jak samorządy zawodowe odróżnią autentyczne stanowisko środowiska od zoptymalizowanego udziału pojedynczego gracza? Autorzy wspominają o proof-of-personhood opartym na verifiable credentials i zero-knowledge proofs. Polska nie ma dziś takiej infrastruktury. A będzie jej potrzebować - szybciej, niż zakłada się w strategiach cyfryzacji.

Po drugie, polski wymiar sprawiedliwości. T5, unauditable authority, opisuje zjawisko znane z amerykańskich systemów risk assessment w sądownictwie karnym - oprogramowanie proprietary, którego sądy używają, a którego weight'ów, danych treningowych i metryk nikt nie może zweryfikować. Polski sąd dziś nie używa takich systemów operacyjnie, ale już używają ich prokuratura, urzędy skarbowe do typowania podatników, CBA, Generalny Inspektor Informacji Finansowej. Gdy kancelaria reprezentuje klienta w sprawie, w której drugą stroną jest algorytm klasyfikujący, pytania o faithfulness chain-of-thought, decision records, counterfactual explanation - to są pytania, od których zależy realizacja prawa do obrony. Autorzy cytują Arcuschin 2025 o tym, że relacja między wyświetlanym rozumowaniem modelu a jego rzeczywistym procesem decyzyjnym jest luźna by construction. Polski adwokat i radca prawny powinni to wiedzieć, zanim wejdą do sprawy, w której algorytm wydał stanowisko.

Po trzecie, tajemnica zawodowa w kontekście T2. Autorzy mówią o prywatności interakcji z modelem jako o problemie dyskursu publicznego - nie ma wspólnego forum, na którym można by zakwestionować systematyczny bias w framingu, który model oferuje w milionach prywatnych rozmów. Dla kancelarii ten sam mechanizm ma drugie oblicze. Jeśli wszystkie kancelarie w Polsce opierają się na tym samym modelu z tym samym biasem w analizie orzecznictwa, tajemnica zawodowa ogranicza możliwość porównywania między sobą wyników. Każda kancelaria widzi swoje, nie widzi cudzych. Nikt nie zauważy, że wszyscy konsekwentnie pomijają pewną linię argumentacyjną, bo model jej nie podnosi. To jest epistemiczna monokultura przeniesiona do warunków prywatności zawodowej. Przed 2026 było to problem teoretyczny. Po pięciu latach szerokiego wdrożenia będzie ciężki do nadrobienia.

Autorzy z tej perspektywy polskiej jurysdykcji nie piszą, bo nie muszą - ale ich ramka pozwala te pytania zadać. I to jest jej wartość operacyjna. Nie daje odpowiedzi na polskie pytania, ale daje narzędzie, którym da się je postawić z wystarczającą precyzją, by wreszcie przestały znikać w hałasie debaty publicznej wokół AI.

Co z tego wynika

Materiał jest długi, gęsty i wymagający. Nie jest to lektura na jedno popołudnie. Najważniejsza jego warstwa polega na tym, że poważni ludzie nauki, którzy przez ostatnie dwie dekady budowali dzisiejsze AI, stawiają publiczny znak alarmowy nie pod hasłem "model może zabić", tylko pod hasłem "model może zniszczyć instytucje, w których żyjemy, nawet gdy jest bezpieczny jako program". To ważne rozróżnienie dla każdego, kto podejmuje decyzje o zakupie i konfiguracji AI w kancelarii, spółce prawa handlowego czy urzędzie.

Pytanie, które zostaje, nie dotyczy modelu. Dotyczy instytucji. Czy polskie konsultacje publiczne, polskie sądownictwo, polska administracja i polski samorząd zawodowy są przygotowane na świat, w którym każdy uczestnik rynku ma niemal zerowy koszt wygenerowania przekonującej treści. Odpowiedź - dziś nie są. Zadaniem najbliższych trzech lat jest zapytać, co z tym zrobić.

Komu polecam. Compliance officerom w dużych kancelariach, dyrektorom prawnym w spółkach regulowanych, decydentom w administracji publicznej, zarządom samorządów zawodowych. Komu niekoniecznie. Osobom, które szukają gotowego checklist do wdrożenia w tym kwartale - tu go nie ma. Tu jest mapa terenu, na którym za chwilę zaczną się rozgrywać konkretne historie.

Dla zarządu kancelarii w trzech zdaniach

Strategia jednego dostawcy modelu jest decyzją, którą w perspektywie pięciu lat trudno będzie odwrócić - i nie jest to decyzja zakupowa, tylko strategiczna, bo zaszywa jedną wersję framowania argumentów w całej praktyce kancelarii. W warstwie compliance AI Act i RODO widzą model, a nie instytucje, w których kancelaria operuje - dlatego ocena ryzyka wdrożenia AI nie kończy się na dostawcy, zaczyna się od pytania, jakie instytucje wytrzymają tę nową skalę wejść. Rekomendacja praktyczna: zanim podpisze się umowę wieloletnią z jednym dostawcą, zażądać interoperacyjności, eksportu logów decyzyjnych i możliwości hot-swap, bo to są jedyne mechanizmy, które pozwalają uniknąć normative lock-in, przed którym ostrzega ICML.

ICML 2026 sociopolitical risks AI Act art. 55 GPAI RODO art. 22 alignment normative centralization instytucje Bengio · Russell

Wiesław Mazur · MateMatic
Bezpieczna architektura AI dla kancelarii.
matematicsolutions.com

← Baza Wiedzy Porozmawiaj z MateMatic →

Siedem modeli zagrożeń.Bengio i Russell patrzą poza alignment.