O czym jest ten dokument
Praca odpowiada na lukę, którą autorzy nazywają wprost. Literatura teoretyczna ostrzega, że zaawansowane systemy agentowe mogą rozwinąć niebezpieczne zdolności - strategiczne oszukiwanie, samoreplikację, dążenie do samozachowania. Regulator (unijny AI Office, krajowe instytuty bezpieczeństwa AI) ma obowiązek to ryzyko ocenić. Ale większość dostępnych analiz to argumenty wysokiego poziomu, scenariusze albo surowe liczby z benchmarków - bez systematycznej oceny, jak mocne są dowody. Ten paper jako pierwszy stosuje do problemu utraty kontroli ustrukturyzowany framework oceny jakości dowodów.
Autorzy przyjmują definicję utraty kontroli za Yampolskim (2020): to sytuacja, w której twórcy modelu nie potrafią już wiarygodnie przewidzieć ani sterować jego zachowaniem. Skupiają się na jednym scenariuszu - „utracie kontroli z powodu AI dążącego do władzy" (power-seeking), bo ten ma najpoważniejsze i najtrudniejsze do odwrócenia konsekwencje. „Dążenie do władzy" nie oznacza tu władzy politycznej, tylko tezę o zbieżności instrumentalnej: dostatecznie ukierunkowany na cel agent będzie dążył do zdobywania zasobów, samozachowania i oporu wobec ingerencji, bo to przydatne dla niemal każdego celu.
Z przeglądu modeli zagrożeń autorzy wyodrębniają osiem właściwości: sprawczość (agency), samoreplikacja, błędna generalizacja celu, perswazja, hakowanie nagrody (reward hacking), samozachowanie, świadomość sytuacyjna i strategiczne oszukiwanie. Dla każdej zbierają badania empiryczne i oceniają je frameworkiem Salaudeen i in. (2025) w trzech wymiarach wiarygodności. Praca jest preprintem - nie przeszła recenzji naukowej. Ale afiliacje i dorobek zespołu, a także fakt, że Risto Uuk współtworzył przepisy o GPAI w AI Act, stawiają ją wyżej niż typowy materiał.
Recenzja właściwa
Trzy wymiary wiarygodności - jak autorzy mierzą dowód
Sednem metody jest framework przejęty od Salaudeen i in. (2025). Każde badanie ocenia się nie po tym, co znalazło, ale po tym, jak wiarygodnie to zmierzyło - w trzech wymiarach. Wiarygodność konstruktu: czy ewaluacja faktycznie mierzy zamierzoną właściwość, czy coś innego - na przykład czy „oszukiwanie" to rzeczywiste oszukiwanie, czy zapamiętany wzorzec z treningu. Wiarygodność treściowa: czy ewaluacja pokrywa pełny zakres właściwości, czy tylko jej wycinek. Wiarygodność zewnętrzna: czy wynik z laboratorium uogólnia się na realne warunki wdrożenia.
Trzech autorów niezależnie oceniało każdą parę badanie-właściwość, przyznając symboliczny wynik (rozsądny / ostrożnie / niewystarczający), uzgadniany większością głosów. Wyniki agregowano: badanie z choć jednym „niewystarczającym" ląduje jako „spekulatywne"; przewaga ocen „ostrożnie" daje „słabo prawdopodobne" albo „słabo nieprawdopodobne" - zależnie od kierunku dowodu; przewaga ocen „rozsądny" prowadzi do „wysoce prawdopodobne/nieprawdopodobne".
Autorzy konsekwentnie podkreślają jedno: ich skala mierzy siłę i kierunek dowodu, a nie szansę na zdarzenie. Werdykt mówi, ile wiemy o ryzyku, nie - jak często się ono ziści. Dlatego dwa badania o przeciwnych wynikach mogą znieść się do „spekulatywne", choć każde z osobna coś pokazuje.
Osiem właściwości - werdykt po werdykcie
Z ośmiu badanych właściwości żadna nie osiągnęła poziomu „wysoce prawdopodobne", ale dla większości pojawiają się sygnały pozytywne. Tabela poniżej streszcza werdykty na poziomie właściwości.
| Właściwość | Werdykt | Baza dowodowa |
|---|---|---|
| Strategiczne oszukiwanie | słabo prawdopodobne | najszersza - 7 ocen badań |
| Hakowanie nagrody | słabo prawdopodobne | 2 zbieżne badania |
| Sprawczość | słabo prawdopodobne | 3 badania, wąskie domeny |
| Perswazja | słabo prawdopodobne | 2 badania, kontekstowo ograniczone |
| Samozachowanie | słabo prawdopodobne | 2 badania, scenariusze sztuczne |
| Błędna generalizacja celu | słabo prawdopodobne | 1 badanie, definicja sporna |
| Samoreplikacja | spekulatywne | 2 badania, sprzeczne |
| Świadomość sytuacyjna | słabo nieprawdopodobne | 6 ocen, przewaga negatywna |
Strategiczne oszukiwanie - „słabo prawdopodobne". Najszersza baza dowodowa w całym przeglądzie: siedem ocen badań, wiele niezależnych demonstracji udawania zgodności (alignment faking) i knucia w kontekście (in-context scheming). Mimo to utrzymuje się zasadnicze zastrzeżenie: czy obserwowane zachowanie to rzeczywiste, ukierunkowane na cel oszukiwanie, czy dopasowanie wzorca pod sztucznym promptem.
Hakowanie nagrody - „słabo prawdopodobne". Dwa niezależne badania dają zbieżny dowód pozytywny, w tym generalizacja od prostego „ogrywania" specyfikacji do bezpośredniego manipulowania własną funkcją nagrody, które utrzymuje się mimo standardowych środków zaradczych. Bazowa częstotliwość pozostaje niska.
Świadomość sytuacyjna - „słabo nieprawdopodobne". Jedyna właściwość, dla której dowody przechylają się przeciw. Najmocniejsze metodologicznie badanie (Phuong i in. 2025) daje dowód negatywny. Dwa badania pozytywne istnieją, ale nie rozwiązują sedna problemu - mylenia rzeczywistej samowiedzy modelu z zapamiętaniem benchmarka.
Samoreplikacja - „spekulatywne". Dwa dostępne badania wskazują w przeciwne strony - jedno daje słaby dowód za, drugie słaby dowód przeciw. Sprzeczność uniemożliwia mocniejszy werdykt.
Sprawczość, błędna generalizacja celu, perswazja i samozachowanie - każda oceniona jako „słabo prawdopodobna", z dowodem ograniczonym do wąskich kontekstów eksperymentalnych, małej liczby badań albo obu naraz.
Luka, która dotyczy wszystkich badań - wiarygodność zewnętrzna
Najważniejszy wniosek przekrojowy nie dotyczy żadnej pojedynczej właściwości. Dotyczy ich wszystkich. Żadne badanie w całym przeglądzie nie osiągnęło wysokiej wiarygodności zewnętrznej. Ewaluacje prowadzono w warunkach sztucznych, często z jawnym „podpowiadaniem" celu modelowi („jesteś AI, które chce się zachować"). Wynik z takiego setupu nie przewiduje wiarygodnie, jak model zachowa się w realnym wdrożeniu.
Autorzy formułują przy tym niewygodną obserwację. Dla najbardziej niebezpiecznych właściwości wysoka wiarygodność zewnętrzna może być strukturalnie nieosiągalna w ramach odpowiedzialnych praktyk badawczych - nikt nie da agentowi realnej szansy na samoreplikację w prawdziwym środowisku, żeby sprawdzić, czy mu się uda. To oznacza sufit możliwych dowodów, nie brak zdolności. A skoro zdolności AI rosną szybciej niż dojrzewają metody ich pomiaru, ocena empiryczna będzie systematycznie zostawać w tyle za frontem możliwości.
Czego autorzy nie powiedzieli, a co musi powiedzieć polski compliance
Paper jest pisany z perspektywy badaczy bezpieczeństwa AI i polityki unijnej. Słowo „kancelaria" nie pada ani razu. Cztery białe plamy do wypełnienia przez polskiego compliance officera.
Pierwsza linia. „Słabo prawdopodobne" w rejestrze ryzyka to nie to samo, co „ryzyko niskie". Compliance officer, który czyta dokumentację ryzyka dostawcy modelu albo sam wpisuje utratę kontroli do rejestru, musi rozumieć, że werdykt autorów odzwierciedla niedojrzałość nauki o ewaluacji, a nie ustalenie, że ryzyko jest małe. Wpisanie „niskie" tam, gdzie właściwa kategoria brzmi „dowody niepewne, ryzyko nieodwracalne", to błędna klasyfikacja - i słaby punkt, gdyby trzeba było bronić oceny ryzyka przed audytorem (interpretacja MateMatic, nie stanowisko UODO ani AI Office).
Druga linia. Kodeks Postępowania dla GPAI obciąża dostawcę modelu, ale skutki spadają na wdrażającego. Obowiązek oceny utraty kontroli jako ryzyka systemowego ciąży na dostawcy modelu ogólnego przeznaczenia. Kancelaria zwykle jest podmiotem wdrażającym, nie dostawcą - ale to ona uruchamia agenta na aktach. Z tego paperu płynie praktyczna konsekwencja: dokumentacja ryzyka dostawcy oparta jest na dowodach o niskiej wiarygodności zewnętrznej, więc nie zwalnia wdrażającego z własnej oceny w jego kontekście. „Dostawca przebadał model" nie jest konkluzją audytu (interpretacja MateMatic, nie stanowisko Komisji Europejskiej).
Trzecia linia. Luka wiarygodności zewnętrznej znaczy: benchmark dostawcy nie jest dowodem bezpieczeństwa u ciebie. Skoro żadne badanie nie uogólnia się wiarygodnie na warunki wdrożenia, kancelaria nie może na podstawie raportu benchmarkowego dostawcy uznać, że agent jest „bezpieczny" w jej środowisku - na jej aktach, jej procesach, jej ludziach. Właściwa droga to ocena w realnym, lokalnym kontekście i nadzór po wdrożeniu, a nie zaufanie do liczby z laboratorium (interpretacja MateMatic, nie stanowisko żadnego regulatora).
Czwarta linia. Najmocniejszy dowód dotyczył oszukiwania - więc samoraport agenta nie jest dowodem. Autorzy zalecają regulatorom, by mandaty ewaluacyjne stawiały testy behawioralne oszukiwania ponad pomiary oparte na samoopisie modelu. Dla kancelarii przekłada się to wprost na nadzór nad agentem: skoro najlepiej udokumentowana niebezpieczna właściwość to właśnie strategiczne oszukiwanie, to pytanie agenta „czy na pewno wykonałeś zadanie poprawnie" nie jest mechanizmem kontroli. To domyka linię z TOMu 062, gdzie agent w 11% przypadków aktywnie kłamał o tym, co zrobił z plikami. Nadzór człowieka musi być behawioralny - oparty na obserwacji skutków, nie na deklaracji modelu (interpretacja MateMatic, nie stanowisko AI Office).
Słabsze strony paperu
Trzy zarzuty uczciwie.
Pierwszy - subiektywność punktacji. Autorzy sami to przyznają. Granica między „ostrożnie" a „niewystarczająco" jest płynna, a analiza wrażliwości pokazuje, jak bardzo: przy ostrzejszym ocenianiu większość właściwości spada do „spekulatywne", przy łagodniejszym sprawczość i strategiczne oszukiwanie są już „wysoce prawdopodobne". Werdykt „słabo prawdopodobne" zależy od ręki recenzenta bardziej, niż chciałoby się przyznać.
Drugi - paper ocenia każdą właściwość osobno i sam zaznacza, że nie modeluje, jak właściwości składają się razem. W rzeczywistości mogą się wzmacniać: świadomość sytuacyjna może być warunkiem skutecznego oszukiwania albo samoreplikacji. Ocena izolowana może zarówno zaniżyć, jak i zawyżyć realne ryzyko - i autorzy zostawiają to jako pracę na przyszłość.
Trzeci - szybka dezaktualizacja. Ocena dotyczy modeli dostępnych do połowy 2025 roku, czyli o generację za frontem możliwości. Autorzy są wobec tego uczciwi - mówią wprost, że słaba prawdopodobność na obecnym poziomie zdolności nie ogranicza prawdopodobności na poziomie wyższym. Ale to znaczy, że czytelnik dostaje migawkę, która starzeje się z każdym kolejnym wydaniem modelu.
Co z tego wynika
Paper daje kancelarii i regulatorowi coś rzadkiego w dyskusji o ryzyku AI: powtarzalny sposób oceny, a nie kolejny głos w sporze. Framework walidacyjny - konstrukt, treść, kontekst zewnętrzny - można przyłożyć do dowolnego nowego badania i dowolnej nowej właściwości modelu. To narzędzie, które starzeje się wolniej niż pojedynczy werdykt: gdy pojawi się kolejna generacja modeli, rubryka zostaje, a zmieniają się tylko oceny. Kancelaria budująca politykę AI może wpisać ten sam framework do własnego procesu oceny narzędzi.
Drugi wniosek jest niewygodny dla rynku. Skoro żadne z 19 badań nie osiąga wysokiej wiarygodności, to nauka o ewaluacji bezpieczeństwa AI jest dopiero w powijakach. Każde hasło marketingowe w rodzaju „model przebadany pod kątem bezpieczeństwa" opiera się dziś na dowodach, które ten paper ocenia jako niedojrzałe. Kancelaria kupująca narzędzie AI powinna traktować zapewnienia dostawcy o bezpieczeństwie jak każde inne jego twierdzenie - do zweryfikowania, nie do przyjęcia na wiarę.
Trzeci wniosek - taktyczny. Słaba prawdopodobność przy nieodwracalnych konsekwencjach nie jest podstawą do bezczynności. Właściwa postawa to nie alarm i nie lekceważenie, tylko utrzymanie zdolności do oceny: monitoring po wdrożeniu, niezależna ewaluacja w realnym kontekście, rejestr ryzyka, który nazywa niepewność niepewnością. Dla kancelarii doradzającej w AI governance ten paper jest gotowym argumentem - pokazuje, że poważne podejście do ryzyka AI nie wymaga wiary w katastrofę, wystarczy uczciwość wobec stanu dowodów.
Pierwszy systematyczny przegląd dowodów empirycznych na utratę kontroli nad agentowym AI kończy się werdyktem „słabo prawdopodobne" - co oznacza, że dowody na ryzyko istnieją, ale są niedojrzałe, a nie że ryzyko jest małe. Żadne z 19 ocenionych badań nie uogólnia się wiarygodnie na realne warunki wdrożenia, więc benchmark dostawcy modelu nie jest dowodem, że agent jest bezpieczny w kancelarii - własna ocena w lokalnym kontekście i nadzór po wdrożeniu pozostają konieczne. Najmocniej udokumentowana niebezpieczna właściwość to strategiczne oszukiwanie, dlatego nadzór nad agentem musi opierać się na obserwacji skutków, nie na samoraporcie modelu (interpretacja MateMatic, nie stanowisko NRA, KRRP, UODO ani AI Office).