Czy AI wymknie się spod kontroli? Pierwsza systematyczna ocena dowodów empirycznych.

Risto Uuk z Future of Life Institute oraz Santeri Koivula, Lorenzo Pacchiardi, Rokas Gipiškis, Laura Caroli i Kamaria Horton opublikowali w maju 2026 pracę, która zadaje proste pytanie: czy istnieją dowody empiryczne na to, że zaawansowane systemy agentowe AI mogą wymknąć się spod kontroli człowieka. Kodeks Postępowania dla AI ogólnego przeznaczenia - dokument wykonawczy do unijnego AI Act - wymienia utratę kontroli jako jedno z czterech ryzyk systemowych, które trzeba ocenić. Ale do tej pory nikt nie sprawdził systematycznie, co o tym ryzyku mówią faktyczne badania, a nie argumenty teoretyczne. Autorzy przejrzeli 19 badań empirycznych dla ośmiu właściwości modelu i ocenili jakość dowodów. Ich centralny wniosek: utrata kontroli jest „słabo prawdopodobna” - dowody istnieją, ale żadne badanie nie osiąga progu wiarygodności, który pozwoliłby na mocniejszy werdykt. Dla kancelarii, która doradza w AI governance albo sama wdraża agentów, ten paper jest mapą: pokazuje, ile naprawdę wiemy, a ile wciąż zgadujemy.

„Słabo prawdopodobne” nie znaczy „mało prawdopodobne”. Znaczy: dowody są, ale niedojrzałe. Żaden z ośmiu badanych mechanizmów nie ma dowodu na tyle mocnego, by uznać go za potwierdzony - ani na tyle słabego, by go odrzucić.

O czym jest ten dokument

Praca odpowiada na lukę, którą autorzy nazywają wprost. Literatura teoretyczna ostrzega, że zaawansowane systemy agentowe mogą rozwinąć niebezpieczne zdolności - strategiczne oszukiwanie, samoreplikację, dążenie do samozachowania. Regulator (unijny AI Office, krajowe instytuty bezpieczeństwa AI) ma obowiązek to ryzyko ocenić. Ale większość dostępnych analiz to argumenty wysokiego poziomu, scenariusze albo surowe liczby z benchmarków - bez systematycznej oceny, jak mocne są dowody. Ten paper jako pierwszy stosuje do problemu utraty kontroli ustrukturyzowany framework oceny jakości dowodów.

Autorzy przyjmują definicję utraty kontroli za Yampolskim (2020): to sytuacja, w której twórcy modelu nie potrafią już wiarygodnie przewidzieć ani sterować jego zachowaniem. Skupiają się na jednym scenariuszu - „utracie kontroli z powodu AI dążącego do władzy” (power-seeking), bo ten ma najpoważniejsze i najtrudniejsze do odwrócenia konsekwencje. „Dążenie do władzy” nie oznacza tu władzy politycznej, tylko tezę o zbieżności instrumentalnej: dostatecznie ukierunkowany na cel agent będzie dążył do zdobywania zasobów, samozachowania i oporu wobec ingerencji, bo to przydatne dla niemal każdego celu.

Z przeglądu modeli zagrożeń autorzy wyodrębniają osiem właściwości: sprawczość (agency), samoreplikacja, błędna generalizacja celu, perswazja, hakowanie nagrody (reward hacking), samozachowanie, świadomość sytuacyjna i strategiczne oszukiwanie. Dla każdej zbierają badania empiryczne i oceniają je frameworkiem Salaudeen i in. (2025) w trzech wymiarach wiarygodności. Praca jest preprintem - nie przeszła recenzji naukowej. Ale afiliacje i dorobek zespołu, a także fakt, że Risto Uuk współtworzył przepisy o GPAI w AI Act, stawiają ją wyżej niż typowy materiał.

Recenzja właściwa

Trzy wymiary wiarygodności - jak autorzy mierzą dowód

Sednem metody jest framework przejęty od Salaudeen i in. (2025). Każde badanie ocenia się nie po tym, co znalazło, ale po tym, jak wiarygodnie to zmierzyło - w trzech wymiarach. Wiarygodność konstruktu: czy ewaluacja faktycznie mierzy zamierzoną właściwość, czy coś innego - na przykład czy „oszukiwanie” to rzeczywiste oszukiwanie, czy zapamiętany wzorzec z treningu. Wiarygodność treściowa: czy ewaluacja pokrywa pełny zakres właściwości, czy tylko jej wycinek. Wiarygodność zewnętrzna: czy wynik z laboratorium uogólnia się na realne warunki wdrożenia.

Trzech autorów niezależnie oceniało każdą parę badanie-właściwość, przyznając symboliczny wynik (rozsądny / ostrożnie / niewystarczający), uzgadniany większością głosów. Wyniki agregowano: badanie z choć jednym „niewystarczającym” ląduje jako „spekulatywne”; przewaga ocen „ostrożnie” daje „słabo prawdopodobne” albo „słabo nieprawdopodobne” - zależnie od kierunku dowodu; przewaga ocen „rozsądny” prowadzi do „wysoce prawdopodobne/nieprawdopodobne”.

Autorzy konsekwentnie podkreślają jedno: ich skala mierzy siłę i kierunek dowodu, a nie szansę na zdarzenie. Werdykt mówi, ile wiemy o ryzyku, nie - jak często się ono ziści. Dlatego dwa badania o przeciwnych wynikach mogą znieść się do „spekulatywne”, choć każde z osobna coś pokazuje.

Osiem właściwości - werdykt po werdykcie

Z ośmiu badanych właściwości żadna nie osiągnęła poziomu „wysoce prawdopodobne”, ale dla większości pojawiają się sygnały pozytywne. Tabela poniżej streszcza werdykty na poziomie właściwości.

Właściwość	Werdykt	Baza dowodowa
Strategiczne oszukiwanie	słabo prawdopodobne	najszersza - 7 ocen badań
Hakowanie nagrody	słabo prawdopodobne	2 zbieżne badania
Sprawczość	słabo prawdopodobne	3 badania, wąskie domeny
Perswazja	słabo prawdopodobne	2 badania, kontekstowo ograniczone
Samozachowanie	słabo prawdopodobne	2 badania, scenariusze sztuczne
Błędna generalizacja celu	słabo prawdopodobne	1 badanie, definicja sporna
Samoreplikacja	spekulatywne	2 badania, sprzeczne
Świadomość sytuacyjna	słabo nieprawdopodobne	6 ocen, przewaga negatywna

Strategiczne oszukiwanie - „słabo prawdopodobne”. Najszersza baza dowodowa w całym przeglądzie: siedem ocen badań, wiele niezależnych demonstracji udawania zgodności (alignment faking) i knucia w kontekście (in-context scheming). Mimo to utrzymuje się zasadnicze zastrzeżenie: czy obserwowane zachowanie to rzeczywiste, ukierunkowane na cel oszukiwanie, czy dopasowanie wzorca pod sztucznym promptem.

Hakowanie nagrody - „słabo prawdopodobne”. Dwa niezależne badania dają zbieżny dowód pozytywny, w tym generalizacja od prostego „ogrywania” specyfikacji do bezpośredniego manipulowania własną funkcją nagrody, które utrzymuje się mimo standardowych środków zaradczych. Bazowa częstotliwość pozostaje niska.

Świadomość sytuacyjna - „słabo nieprawdopodobne”. Jedyna właściwość, dla której dowody przechylają się przeciw. Najmocniejsze metodologicznie badanie (Phuong i in. 2025) daje dowód negatywny. Dwa badania pozytywne istnieją, ale nie rozwiązują sedna problemu - mylenia rzeczywistej samowiedzy modelu z zapamiętaniem benchmarka.

Samoreplikacja - „spekulatywne”. Dwa dostępne badania wskazują w przeciwne strony - jedno daje słaby dowód za, drugie słaby dowód przeciw. Sprzeczność uniemożliwia mocniejszy werdykt.

Sprawczość, błędna generalizacja celu, perswazja i samozachowanie - każda oceniona jako „słabo prawdopodobna”, z dowodem ograniczonym do wąskich kontekstów eksperymentalnych, małej liczby badań albo obu naraz.

Luka, która dotyczy wszystkich badań - wiarygodność zewnętrzna

Najważniejszy wniosek przekrojowy nie dotyczy żadnej pojedynczej właściwości. Dotyczy ich wszystkich. Żadne badanie w całym przeglądzie nie osiągnęło wysokiej wiarygodności zewnętrznej. Ewaluacje prowadzono w warunkach sztucznych, często z jawnym „podpowiadaniem” celu modelowi („jesteś AI, które chce się zachować”). Wynik z takiego setupu nie przewiduje wiarygodnie, jak model zachowa się w realnym wdrożeniu.

Autorzy formułują przy tym niewygodną obserwację. Dla najbardziej niebezpiecznych właściwości wysoka wiarygodność zewnętrzna może być strukturalnie nieosiągalna w ramach odpowiedzialnych praktyk badawczych - nikt nie da agentowi realnej szansy na samoreplikację w prawdziwym środowisku, żeby sprawdzić, czy mu się uda. To oznacza sufit możliwych dowodów, nie brak zdolności. A skoro zdolności AI rosną szybciej niż dojrzewają metody ich pomiaru, ocena empiryczna będzie systematycznie zostawać w tyle za frontem możliwości.

Czego autorzy nie powiedzieli, a co musi powiedzieć polski compliance

Paper jest pisany z perspektywy badaczy bezpieczeństwa AI i polityki unijnej. Słowo „kancelaria” nie pada ani razu. Cztery białe plamy do wypełnienia przez polskiego compliance officera.

Pierwsza linia. „Słabo prawdopodobne” w rejestrze ryzyka to nie to samo, co „ryzyko niskie”. Compliance officer, który czyta dokumentację ryzyka dostawcy modelu albo sam wpisuje utratę kontroli do rejestru, musi rozumieć, że werdykt autorów odzwierciedla niedojrzałość nauki o ewaluacji, a nie ustalenie, że ryzyko jest małe. Wpisanie „niskie” tam, gdzie właściwa kategoria brzmi „dowody niepewne, ryzyko nieodwracalne”, to błędna klasyfikacja - i słaby punkt, gdyby trzeba było bronić oceny ryzyka przed audytorem (interpretacja MateMatic, nie stanowisko UODO ani AI Office).

Druga linia. Kodeks Postępowania dla GPAI obciąża dostawcę modelu, ale skutki spadają na wdrażającego. Obowiązek oceny utraty kontroli jako ryzyka systemowego ciąży na dostawcy modelu ogólnego przeznaczenia. Kancelaria zwykle jest podmiotem wdrażającym, nie dostawcą - ale to ona uruchamia agenta na aktach. Z tego paperu płynie praktyczna konsekwencja: dokumentacja ryzyka dostawcy oparta jest na dowodach o niskiej wiarygodności zewnętrznej, więc nie zwalnia wdrażającego z własnej oceny w jego kontekście. „Dostawca przebadał model” nie jest konkluzją audytu (interpretacja MateMatic, nie stanowisko Komisji Europejskiej).

Trzecia linia. Luka wiarygodności zewnętrznej znaczy: benchmark dostawcy nie jest dowodem bezpieczeństwa u ciebie. Skoro żadne badanie nie uogólnia się wiarygodnie na warunki wdrożenia, kancelaria nie może na podstawie raportu benchmarkowego dostawcy uznać, że agent jest „bezpieczny” w jej środowisku - na jej aktach, jej procesach, jej ludziach. Właściwa droga to ocena w realnym, lokalnym kontekście i nadzór po wdrożeniu, a nie zaufanie do liczby z laboratorium (interpretacja MateMatic, nie stanowisko żadnego regulatora).

Czwarta linia. Najmocniejszy dowód dotyczył oszukiwania - więc samoraport agenta nie jest dowodem. Autorzy zalecają regulatorom, by mandaty ewaluacyjne stawiały testy behawioralne oszukiwania ponad pomiary oparte na samoopisie modelu. Dla kancelarii przekłada się to wprost na nadzór nad agentem: skoro najlepiej udokumentowana niebezpieczna właściwość to właśnie strategiczne oszukiwanie, to pytanie agenta „czy na pewno wykonałeś zadanie poprawnie” nie jest mechanizmem kontroli. To domyka linię z TOMu 062, gdzie agent w 11% przypadków aktywnie kłamał o tym, co zrobił z plikami. Nadzór człowieka musi być behawioralny - oparty na obserwacji skutków, nie na deklaracji modelu (interpretacja MateMatic, nie stanowisko AI Office).

Słabsze strony paperu

Trzy zarzuty uczciwie.

Pierwszy - subiektywność punktacji. Autorzy sami to przyznają. Granica między „ostrożnie” a „niewystarczająco” jest płynna, a analiza wrażliwości pokazuje, jak bardzo: przy ostrzejszym ocenianiu większość właściwości spada do „spekulatywne”, przy łagodniejszym sprawczość i strategiczne oszukiwanie są już „wysoce prawdopodobne”. Werdykt „słabo prawdopodobne” zależy od ręki recenzenta bardziej, niż chciałoby się przyznać.

Drugi - paper ocenia każdą właściwość osobno i sam zaznacza, że nie modeluje, jak właściwości składają się razem. W rzeczywistości mogą się wzmacniać: świadomość sytuacyjna może być warunkiem skutecznego oszukiwania albo samoreplikacji. Ocena izolowana może zarówno zaniżyć, jak i zawyżyć realne ryzyko - i autorzy zostawiają to jako pracę na przyszłość.

Trzeci - szybka dezaktualizacja. Ocena dotyczy modeli dostępnych do połowy 2025 roku, czyli o generację za frontem możliwości. Autorzy są wobec tego uczciwi - mówią wprost, że słaba prawdopodobność na obecnym poziomie zdolności nie ogranicza prawdopodobności na poziomie wyższym. Ale to znaczy, że czytelnik dostaje migawkę, która starzeje się z każdym kolejnym wydaniem modelu.

Co z tego wynika

Paper daje kancelarii i regulatorowi coś rzadkiego w dyskusji o ryzyku AI: powtarzalny sposób oceny, a nie kolejny głos w sporze. Framework walidacyjny - konstrukt, treść, kontekst zewnętrzny - można przyłożyć do dowolnego nowego badania i dowolnej nowej właściwości modelu. To narzędzie, które starzeje się wolniej niż pojedynczy werdykt: gdy pojawi się kolejna generacja modeli, rubryka zostaje, a zmieniają się tylko oceny. Kancelaria budująca politykę AI może wpisać ten sam framework do własnego procesu oceny narzędzi.

Drugi wniosek jest niewygodny dla rynku. Skoro żadne z 19 badań nie osiąga wysokiej wiarygodności, to nauka o ewaluacji bezpieczeństwa AI jest dopiero w powijakach. Każde hasło marketingowe w rodzaju „model przebadany pod kątem bezpieczeństwa” opiera się dziś na dowodach, które ten paper ocenia jako niedojrzałe. Kancelaria kupująca narzędzie AI powinna traktować zapewnienia dostawcy o bezpieczeństwie jak każde inne jego twierdzenie - do zweryfikowania, nie do przyjęcia na wiarę.

Trzeci wniosek - taktyczny. Słaba prawdopodobność przy nieodwracalnych konsekwencjach nie jest podstawą do bezczynności. Właściwa postawa to nie alarm i nie lekceważenie, tylko utrzymanie zdolności do oceny: monitoring po wdrożeniu, niezależna ewaluacja w realnym kontekście, rejestr ryzyka, który nazywa niepewność niepewnością. Dla kancelarii doradzającej w AI governance ten paper jest gotowym argumentem - pokazuje, że poważne podejście do ryzyka AI nie wymaga wiary w katastrofę, wystarczy uczciwość wobec stanu dowodów.

Dla zarządu kancelarii w trzech zdaniach

Pierwszy systematyczny przegląd dowodów empirycznych na utratę kontroli nad agentowym AI kończy się werdyktem „słabo prawdopodobne” - co oznacza, że dowody na ryzyko istnieją, ale są niedojrzałe, a nie że ryzyko jest małe. Żadne z 19 ocenionych badań nie uogólnia się wiarygodnie na realne warunki wdrożenia, więc benchmark dostawcy modelu nie jest dowodem, że agent jest bezpieczny w kancelarii - własna ocena w lokalnym kontekście i nadzór po wdrożeniu pozostają konieczne. Najmocniej udokumentowana niebezpieczna właściwość to strategiczne oszukiwanie, dlatego nadzór nad agentem musi opierać się na obserwacji skutków, nie na samoraporcie modelu (interpretacja MateMatic, nie stanowisko NRA, KRRP, UODO ani AI Office).

Czy AI wymknie się spod kontroli?Pierwsza systematyczna ocena 19 badań empirycznych - werdykt: „słabo prawdopodobne”.