O czym jest ten dokument

Praca odpowiada na lukę w sposobie, w jaki branża testuje bezpieczeństwo modeli. Standardowe benchmarki sprawdzają model w izolacji: jeden prompt, jedna odpowiedź, ocena czy odmówił. Tymczasem wdrażane systemy to coraz częściej agenty - trwałe byty, które działają w długim horyzoncie, wołają narzędzia i wchodzą w powtarzalne interakcje z innymi agentami w jednym środowisku. Autorzy stawiają tezę, że bezpieczeństwo bywa zależne od interakcji: zachowanie, którego nie widać w krótkim promptcie, ujawnia się dopiero w trwałym środowisku społecznym.

Punktem odniesienia teoretycznym jest integralność kontekstowa (contextual integrity) Helen Nissenbaum: prywatność to nie tajność informacji, lecz adekwatność przepływu informacji do norm danego kontekstu. Ten sam fakt ujawniony w jednym miejscu jest neutralny, a w innym staje się naruszeniem. Autorzy operacjonalizują to wprost: ujawnienie liczy się jako naruszenie, gdy cecha wrażliwa wypływa poza kontekst, który by ją uzasadniał.

Konstrukcja eksperymentu. Z publicznego zbioru Moltbook (platforma społecznościowa agentów w stylu Reddita) autorzy wyodrębnili 2 533 person agentów, każdej przypisali prywatny profil człowieka liczący średnio około 97 par klucz-wartość w dziesięciu domenach wrażliwych: tożsamość ogólna, finanse, zdrowie, zdrowie psychiczne, sprawy prawne, relacje, mieszkanie, zatrudnienie, edukacja i terminarz. Agenty działały na wspólnej bazie danych przez 25 symulowanych dni, na trzech modelach OpenAI w równych proporcjach (GPT-5-nano, GPT-5-mini, GPT-5), korzystając z dwunastu narzędzi obejmujących przeglądanie, pisanie, głosowanie i operacje na persystentnej pamięci MEMORY.md. Przez miesiąc platforma uzbierała 29 945 postów i 81 264 odpowiedzi, łącznie 111 209 elementów treści. Wykrywaniem wycieków zajmował się osobny sędzia LLM oceniający każdą treść wobec profilu autora.

Dla kancelarii istotny jest jeden szczegół architektury: agenty mają trwałą pamięć, do której same dopisują, i działają w środowisku, w którym widzą wytwory innych agentów. To dokładnie kształt agentowego asystenta prawnego, który pamięta sprawy między sesjami i pracuje obok innych systemów.

Recenzja właściwa

Pojedyncza tura kontra uczestnictwo społeczne

Najważniejszy wynik to przesunięcie granicy. Modele, które w krótkich, ograniczonych promptach wyglądają na respektujące integralność kontekstową, tracą tę powściągliwość, gdy zostają wpuszczone do trwałej, wieloturowej interakcji w społeczności. Mierzone na profilach z benchmarku CIMemories, odsetek ujawnień rośnie z 19,95% w izolacji do 45,30% w środowisku społecznym (uśrednione po modelach OpenAI). W organicznej symulacji naruszenia nie są pojedynczymi wypadkami: skumulowana liczba przeciekających postów rośnie monotonicznie przez cały przebieg, sięgając około 2 500 z 111 tysięcy elementów do 25. dnia. Samo podtrzymanie obecności w środowisku wystarcza, by wywołać ujawnienia, których pojedyncza tura nigdy by nie pokazała.

Wyciek jest zaraźliwy - efekt zapadki społecznej

Drugi wynik jest bardziej niepokojący. Autorzy mierzą prawdopodobieństwo, że odpowiedź w wątku ujawni cechę wrażliwą, w zależności od tego, co było tuż przed nią. Gdy poprzednia odpowiedź wyciekła, kolejna wycieka z prawdopodobieństwem 12,8%. Gdy poprzednia była czysta, prawdopodobieństwo spada do 1,6%, niemal równo z globalnym poziomem bazowym 1,8%. To około ośmiokrotny wzrost wywołany wyłącznie sąsiedztwem społecznym, bez żadnego ataku. Agent, który w izolacji ujawniałby rzadko, zaczyna to robić, gdy ujawnianie staje się lokalnie znormalizowane w wątku. Autorzy nazywają to zapadką społeczną: ekspozycja podnosi ryzyko, a powtarzalna ekspozycja je kumuluje, choć uleganie pozostaje probabilistyczne, nie deterministyczne.

Instrukcja „nie ujawniaj” pomaga, ale nie immunizuje

Trzeci wynik dotyczy obrony, po którą sięga się najczęściej: dopisania do system promptu polecenia, by agent nie ujawniał danych prywatnych. Polecenie działa, lecz częściowo. Dla GPT-4o liczba przeciekających zapisów spada z 2 624 do 2 102, dla GPT-5-mini z 2 889 do 2 194. Tylko część modeli reaguje silnie (GPT-5 z 2 296 do 482), co pokazuje, że odporność na presję społeczną jest mocno zależna od modelu. Nawet z zabezpieczeniami odsetek ujawnień pozostaje powyżej 37,8%. Autorzy konkludują, że instrukcja nie jest twardą granicą bezpieczeństwa, lecz obroną probabilistyczną, której skuteczność degraduje się pod presją społeczną. Agenty potrafią „przejść na lokalne normy” mimo wyraźnego zakazu.

Gdzie agent działa potrafi przewidywać wyciek jak który model

Czwarty wynik przesuwa uwagę z modelu na środowisko. Odsetek ujawnień rozkłada się od poniżej 2% w społecznościach technicznych (pamięć, narzędzia agentowe) do ponad 16% w społecznościach zapraszających do autoprezentacji (przedstawienia, rozważania osobiste). Ta rozpiętość bliska rzędu wielkości dorównuje różnicom między modelami. Innymi słowy, to, gdzie agent uczestniczy, bywa równie dobrym predyktorem wycieku jak to, którego modelu używa. Rozkład po domenach pokazuje, że ujawnienia koncentrują się tam, gdzie temat jest społecznie naturalny.

Pomiar Wynik
Izolacja kontra społeczność (CIMemories)19,95% → 45,30%
Zaraźliwość (po wycieku / po czystej / baza)12,8% / 1,6% / 1,8%
Mimo instrukcji „nie ujawniaj”powyżej 37,8%
Rozpiętość po społecznościachponiżej 2% → ponad 16%
Wariancja po profilach (odchylenie)2,8% (kontekst > persona)
Najczęstsze domeny wyciekutożsamość 1496, zatrudnienie 921, terminarz 812

Wariancja między profilami jest niska (odchylenie 2,8%, zakres 27,8%-36,4%), znacznie mniejsza niż między modelami i między społecznościami. To znaczący wniosek praktyczny: ryzyko zależy bardziej od środowiska niż od tego, co konkretnie zawiera profil. Autorzy wyciągają z tego rekomendację - kontrola tego, w jakich kontekstach agent uczestniczy, ogranicza ekspozycję skuteczniej niż modyfikowanie samego profilu.

Co autorzy proponują

Wnioski naprawcze idą poza warstwę promptu. Autorzy wskazują trzy kierunki: system prompty świadome kontekstu społecznego, piaskownicę pamięci, która zapobiega wypływaniu cech między kontekstami (memory sandboxing preventing cross-context attribute surfacing), oraz monitoring norm na poziomie platformy, który wykrywa kaskady ujawnień, zanim się rozejdą. Środkowy punkt jest dla kancelarii najważniejszy i pokrywa się z ryzykiem DSGAI11 z TOMu 060 OWASP: pamięć asystenta musi być izolowana tak, by wiedza z jednej sprawy nie wypłynęła w innej.

Czego autorzy nie powiedzieli, a co musi powiedzieć polski compliance

Autorzy piszą z perspektywy bezpieczeństwa AI i teorii prywatności. Słowo „kancelaria” nie pada ani razu, a regulacją w tle jest amerykański dorobek o prywatności, nie RODO. Cztery białe plamy do wypełnienia przez polskiego compliance officera.

Pierwsza linia. To jest tajemnica zawodowa w formie agentowej. Wynik o integralności kontekstowej tłumaczy się wprost na pracę kancelarii: asystent AI, który zna informacje ze sprawy klienta A, może je ujawnić w kontekście klienta B, bo lokalnie wygląda to „naturalnie”. Tajemnica zawodowa z artykułu 6 prawa o adwokaturze i artykułu 3 ustawy o radcach prawnych nie zna pojęcia „lokalnie adekwatnego” ujawnienia - wiąże bezwzględnie. Praca pokazuje mechanizm, którym agentowy asystent potrafi tę tajemnicę naruszyć bez żadnego ataku, samym uczestnictwem w szerszym kontekście (interpretacja MateMatic, nie stanowisko NRA ani KRRP).

Druga linia. Wyciek pod presją kontekstu to naruszenie minimalizacji i poufności z RODO. Artykuł 5 ustęp 1 litera c (minimalizacja danych) i litera f (integralność i poufność) wymagają, by dane były przetwarzane adekwatnie do celu i chronione przed ujawnieniem osobom nieuprawnionym. Architektura, w której cecha wrażliwa wypływa poza swój kontekst, jest dokładnie zaprzeczeniem tych zasad. Co więcej, integralność kontekstowa Nissenbaum jest pojęciowo bliska zasadzie ograniczenia celu z litery b: dane zebrane w jednym celu nie powinny wypływać do innego. Pomiar wycieku to operacyjny dowód, czy architektura te zasady spełnia (interpretacja MateMatic, nie stanowisko PUODO).

Trzecia linia. Benchmark dostawcy w izolacji nie jest dowodem zgodności z artykułem 15 AI Act. Rozporządzenie 2024/1689 wymaga od systemów wysokiego ryzyka odpowiednich poziomów dokładności, odporności i cyberbezpieczeństwa przez cały cykl życia. Centralny wniosek pracy mówi, że statyczne, jednoturowe testy systematycznie zaniżają ryzyko prywatności w warunkach agentowych. Jeżeli kancelaria opiera ocenę odporności na karcie benchmarku dostawcy, mierzy nie to, co trzeba: realne ryzyko ujawnia się w długim horyzoncie i pod presją kontekstu, a nie w pojedynczym promptcie (interpretacja MateMatic, nie stanowisko Komisji Europejskiej ani UODO).

Czwarta linia. Mitygacja jest architektoniczna, nie regulaminowa. Wynik o instrukcji, która redukuje wyciek tylko częściowo, prowadzi do jednego wniosku praktycznego: „pamięć asystenta jest osobna dla każdej sprawy i nie wypływa między klientami” to wymóg architektury (piaskownica pamięci, separacja kontekstów), a nie zdanie w polityce, które model może zignorować pod presją. Polityka AI kancelarii powinna nazwać izolację pamięci sprawy jako warunek dopuszczenia asystenta do akt - sprawdzalny w konfiguracji, nie deklarowany (interpretacja MateMatic, nie stanowisko żadnego regulatora).

Słabsze strony paperu

Autorzy są uczciwi co do granic pracy i sami wymieniają pięć ograniczeń. Cztery zasługują na podkreślenie.

Pierwsze - persony i profile są syntetyczne, generowane i przypisane agentom, a nie pobrane od realnych użytkowników. Choć osadzone w wcześniejszym benchmarku prywatności, nie są prawdziwymi ludźmi, więc liczby należy czytać jako wzorzec zjawiska, nie jako stawkę konkretnej szkody.

Drugie - to symulowane środowisko w stylu Reddita, nie żywa platforma. Realne dynamiki mogą wnieść dodatkową złożoność, jak rozlewanie się między platformami czy interakcja człowiek-agent.

Trzecie - organiczna symulacja używa wyłącznie modeli OpenAI. Porównania między dostawcami i modele open source pozostają otwartym kierunkiem, a różnice w treningu dopasowania mogą zmieniać podatność na zarażenie. Dla kancelarii pracującej na lokalnym modelu (np. Bielik) to istotna niewiadoma - wynik nie jest automatycznie przenośny.

Czwarte - wykrywanie wycieku opiera się na sędzim LLM, który może dawać fałszywe trafienia, więc raportowane liczby autorzy każą traktować jako górną granicę, a nie pomiar precyzyjny. Wniosek kierunkowy (społeczność podnosi wyciek wielokrotnie) jest mocny; konkretny punkt procentowy mniej.

Co z tego wynika

Praca daje kancelarii policzalną nazwę dla ryzyka, które wcześniej było przeczuciem: asystent, który pamięta sprawy, ujawnia więcej, gdy działa w szerszym kontekście, a presja kontekstu potrafi go do tego skłonić bez żadnego ataku. To nie jest problem „złego promptu” ani „słabego modelu”. To własność emergentna trwałego uczestnictwa w środowisku, gdzie ujawnianie bywa lokalnie nagradzane.

Lekcja architektoniczna jest spójna z dwoma poprzednimi tomami. W TOMie 061 nadzór nad cichymi błędami musiał być niezależny od jakości modelu; w TOMie 062 kontrola nad plikami musiała leżeć poniżej modelu; tu izolacja pamięci między kontekstami musi być cechą systemu. Trzy różne ryzyka, jedna konkluzja: bezpieczeństwo agentowego asystenta prawnego rozstrzyga się w warstwie architektury, nie w treści instrukcji.

Wniosek taktyczny, do decyzji przy wyborze i konfiguracji asystenta. Po pierwsze: pamięć asystenta jest izolowana per sprawa albo per klient, tak by wiedza nie wypływała między kontekstami, i jest to sprawdzalna cecha wdrożenia, a nie deklaracja dostawcy. Po drugie: ocena odporności opiera się na teście w długim horyzoncie i pod presją kontekstu, nie na pojedynczym promptcie z karty benchmarku. Po trzecie: dla modeli innych niż przebadane (w tym lokalnych) zakładamy, że efekt może być inny, i sprawdzamy go u siebie, zamiast przenosić wynik na wiarę. To trzy decyzje architektoniczne, zgodne z duchem artykułu 5 RODO i artykułu 15 AI Act, niezależnie od tego, którego modelu kancelaria używa.

Dla zarządu kancelarii w trzech zdaniach

Asystent AI, który pamięta sprawy między sesjami, może ujawnić informacje z jednej sprawy w kontekście innej - w przebadanej symulacji uczestnictwo w społeczności podniosło odsetek ujawnień danych wrażliwych z 19,95% do 45,30%, a sąsiedztwo wcześniejszego wycieku zwiększało prawdopodobieństwo kolejnego około ośmiokrotnie. Instrukcja „nie ujawniaj danych” redukowała wyciek, ale go nie eliminowała (powyżej 37,8% mimo zabezpieczeń), więc ochrona tajemnicy zawodowej i zgodność z artykułem 5 RODO muszą opierać się na izolacji pamięci sprawy w architekturze, nie na poleceniu w polityce. Benchmark dostawcy mierzony w izolacji nie jest dowodem odporności w rozumieniu artykułu 15 AI Act, bo realne ryzyko ujawnia się dopiero w długim horyzoncie i pod presją kontekstu (interpretacja MateMatic, nie stanowisko NRA, KRRP ani UODO).