Agent sam przepisuje swoją instrukcję. Microsoft pokazał, jak zrobić to pod kontrolą

Coraz częściej nie zmieniamy już wag modelu ani nawet promptu. Zmieniamy „skill", czyli zwięzły dokument w naturalnym języku, który mówi agentowi, jak ma pracować: jakich procedur trzymać, jak używać narzędzi, jak formatować wynik. Pytanie, które stawia ten paper, jest proste i niewygodne zarazem: skoro skill to warstwa adaptacji, to czy agent może go sobie sam ulepszać, a my możemy nad tym zapanować. SkillOpt z Microsoftu odpowiada „tak", ale pod jednym warunkiem, który dla prawnika jest sednem: zmiana musi być ograniczona, zwalidowana i odwracalna. Inaczej to nie jest uczenie, tylko niekontrolowane przepisywanie samego siebie.

Samo-ulepszający się agent brzmi jak governance'owy koszmar. Ten paper pokazuje, że koszmarem jest dopiero samo-ulepszanie bez bramki. Z bramką staje się czymś, co da się zaudytować.

Adaptacja AI do konkretnej dziedziny przestała być wyłącznie sprawą wag modelu czy promptu. Coraz częściej dostraja się skill: zwięzły, przenośny dokument w naturalnym języku, który pakuje procedury, heurystyki dziedzinowe, zasady używania narzędzi, ograniczenia formatu i typowe pułapki. Agent, sam w środku zamrożony, adaptuje się przez ten zewnętrzny tekst. Każdy, kto korzysta z Claude Code, widział to na oczy: plik skilla mówi narzędziu, jak ma się zachować.

Badacze z Microsoftu i trzech chińskich uczelni zadali pytanie, które wydaje się techniczne, a jest governance'owe do szpiku: skoro skill to warstwa adaptacji, to czy agent może go sobie sam ulepszać, i to w sposób, nad którym da się zapanować. Ich odpowiedź, SkillOpt, jest dla mnie ciekawa nie dlatego, że bije konkurencję na benchmarkach (bije), ale dlatego, że pokazuje różnicę między samo-ulepszaniem dzikim a samo-ulepszaniem zdyscyplinowanym. A ta różnica to dokładnie linia, na której stoi albo upada nadzór nad AI.

O czym jest ten materiał

SkillOpt traktuje dokument-skill jak trenowalny stan zewnętrzny zamrożonego agenta. Pętla działa tak: agent wykonuje zadania z aktualnym skillem, osobny, silniejszy model-optymalizator analizuje udane i nieudane przebiegi, po czym proponuje ograniczone edycje typu dodaj, usuń, zamień na jednym dokumencie. Kluczowe jest to, co dzieje się dalej. Edycję przyjmuje się tylko wtedy, gdy poprawia wynik na wydzielonym zbiorze walidacyjnym. Jeśli nie poprawia, ląduje w buforze odrzuconych, który staje się negatywnym sygnałem dla kolejnych prób.

Autorzy świadomie kradną dyscyplinę z uczenia maszynowego. Jest „tekstowy współczynnik uczenia", czyli budżet, jak daleko jedna wersja skilla może odejść od poprzedniej. Jest bramka walidacji w roli zbioru testowego. Jest „wolna" aktualizacja epokowa w roli momentum, niosąca stabilne kierunki zmian. Sens nie jest dekoracyjny: jeśli kolejne wersje skilla skaczą za daleko albo w sprzecznych kierunkach, historia tego, co pomogło i co zaszkodziło, przestaje cokolwiek znaczyć. Ograniczona, walidowana zmiana sprawia, że każda rewizja jest na tyle bliska poprzedniej, że da się z niej uczyć.

Liczby są mocne i warto je podać z kontekstem. Na sześciu benchmarkach, siedmiu modelach i w trzech środowiskach wykonania (czat, Codex, Claude Code) SkillOpt jest najlepszy lub równy najlepszemu na wszystkich 52 ocenianych komórkach. Na modelu GPT-5.5 podnosi średnią dokładność wobec pracy bez skilla o +23,5 punktu w czacie, o +24,8 w pętli Codex i o +19,1 w Claude Code, bijąc skille pisane ręcznie, jednorazowe oraz konkurencyjne metody (Trace2Skill, TextGrad, GEPA, EvoSkill). A wynikowy artefakt to kompaktowy plik rzędu 300 do 2000 tokenów, powstały z zaledwie jednej do czterech przyjętych edycji. Zero dodatkowych wywołań modelu na etapie wdrożenia.

Jednym zdaniem: to nie jest „AI, która sama się przepisuje, jak chce". To AI, która sama się przepisuje w ramach budżetu, za zgodą bramki i z dziennikiem tego, co odrzucono.

Recenzja właściwa

Dlaczego prawnika ma obchodzić optymalizator skilli

Bo skill wchodzi do kancelarii tylnymi drzwiami, niezależnie od tego, czy ktoś go tak nazywa. Asystent, który „uczy się Twojego sposobu pracy", agent, który „dostosowuje się do kancelarii", narzędzie, które „pamięta, jak formatujesz pisma", to wszystko są skille w sensie tego papera: zewnętrzne instrukcje sterujące zachowaniem modelu. Dopóki pisze je człowiek, wiadomo, kto odpowiada za treść. Pytanie robi się ciekawe w momencie, w którym narzędzie zaczyna przepisywać własną instrukcję. Wtedy albo istnieje mechanizm kontroli tej zmiany, albo nadzór jest fikcją.

Kontrolowane kontra dzikie samo-przepisywanie

Najcenniejsze w tym paperze jest to, że sam stawia tę granicę. Autorzy wprost przeciwstawiają swojej metodzie „luźno kontrolowaną samo-rewizję", czyli agenta, który przepisuje swoje instrukcje bez bramki, bez budżetu, bez pamięci o tym, co już zaszkodziło. Trzy elementy SkillOpt czytam jako wzorzec governance dla każdego samo-modyfikującego się systemu, nie tylko dla legaltechu.

Bramka walidacji. Zmianę przyjmuje się tylko wtedy, gdy mierzalnie poprawia wynik. Żadna edycja nie wchodzi „bo model uznał, że tak będzie lepiej". W języku nadzoru: każda zmiana zachowania ma kryterium akceptacji, które można sprawdzić. Bufor odrzuceń. System pamięta, które zmiany odrzucono i o ile pogorszyły wynik. To jest, w praktyce, dziennik prób, blisko tego, czego art. 12 AI Act oczekuje pod hasłem rejestrowania zdarzeń, z tą uczciwą różnicą, że tu cel jest techniczny, nie prawny. Ograniczony krok. Jedna wersja nie może oddalić się od poprzedniej dowolnie daleko, co znaczy, że zmiana jest odwracalna i porównywalna, a nie skokiem w nieznane.

Samo-ulepszająca się AI brzmi jak coś, co audytor chciałby zakazać. Ten paper pokazuje coś subtelniejszego: problemem nie jest to, że system się zmienia, tylko czy zmiana jest ograniczona, zwalidowana i zapisana. Dzikie przepisywanie to ryzyko. To samo przepisywanie z bramką i dziennikiem to artefakt, który da się zaudytować.

Artefakt, który da się przeczytać

Druga rzecz, która powinna ucieszyć każdego, kto myśli o audycie. Wynik SkillOpt to czytelny tekst, nie nieprzeniknione wagi. Plik na 300 do 2000 tokenów, proceduralny, a nie zlepiony z konkretnych przypadków, można przeczytać, zwersjonować, cofnąć i pokazać klientowi albo regulatorowi. To fundamentalna różnica wobec dostrajania wag modelu, gdzie „czego się nauczył" jest praktycznie nieczytelne. Adaptacja w warstwie języka jest z natury bardziej audytowalna niż adaptacja w warstwie liczb. Autorzy podkreślają też, że skill transferuje się między skalami modeli i środowiskami (skill ze spreadsheetów wytrenowany pod Codex dał w Claude Code +59,7 punktu), więc raz zaudytowany artefakt zachowuje wartość, gdy zmienia się silnik pod spodem. Dla strategii vendor-agnostycznej to konkretny argument.

Czego ten paper nie rozstrzyga

Tu trzeba być uczciwym, bo łatwo dać się ponieść. Po pierwsze i najważniejsze: bramka walidacji mierzy skuteczność na zadaniu, nie zgodność z prawem ani etyką. SkillOpt przyjmuje edycję, gdy podnosi wynik na benchmarku. Nie ma pojęcia o tajemnicy zawodowej, o halucynacji w cytacie, o ograniczeniu celu z RODO. Samo-ewolucja, której kryterium jest „więcej punktów", może spokojnie oddalać się od poprawności prawnej, jeśli ta nie jest częścią bramki. Po drugie, to paper techniczny, nie prawny ani bezpieczeństwa: nie analizuje, co się dzieje, gdy optymalizator sam jest złośliwy albo zatruty. Po trzecie, koszt: trening wymaga osobnego, silniejszego modelu-optymalizatora, więc to nie jest darmowe. Po czwarte, autorzy w „outlooku" wspominają o destylacji skilla z powrotem do wag modelu, a to jest dokładnie ten moment, w którym audytowalna czytelność tekstu znika. Kierunek, który chwalę, ma więc swój punkt, w którym przestaje obowiązywać.

Co z tego wynika

Dla kancelarii i dla każdego, kto wdraża agenta „uczącego się", płyną z tego trzy konkrety.

Po pierwsze, żądaj dyscypliny SkillOpt od narzędzia, które się dostraja. Jeśli dostawca mówi „nasz agent uczy się Waszego sposobu pracy", właściwe pytania brzmią: czy zmiana zachowania ma bramkę akceptacji, czy jest ograniczona i odwracalna, i czy istnieje dziennik tego, co system zmienił i co odrzucił. „Agent sam się douczy" bez bramki to czerwona flaga, nie funkcja.

Po drugie, preferuj adaptację w warstwie czytelnego tekstu. Skill, instrukcję, Konstytucję AI da się przeczytać, podpisać i zaudytować. Dostrojone wagi modelu, nie. Tam, gdzie masz wybór, adaptacja przez jawny artefakt jest zgodna z duchem art. 12 AI Act (rejestrowanie) i z obowiązkiem nadzoru, a dostrajanie wag przerzuca ryzyko w obszar nieczytelny.

Po trzecie, pamiętaj, czego bramka pilnuje. Bramka walidacji optymalizuje to, co mierzysz. Jeśli mierzysz wyłącznie skuteczność, samo-ulepszanie pójdzie w stronę skuteczności, także kosztem poprawności prawnej. Dlatego w kancelarii bramką akceptacji dla zmiany zachowania AI nie może być sam wynik na zadaniu. Musi w niej siedzieć kontrola prawna i człowiek. To jest dokładnie rola, którą u nas pełni Konstytucja AI i nadzór w punktach krytycznych: bramka, która rozumie tajemnicę i cel, a nie tylko punktację.

Dla kogo ten materiał. Dla osoby budującej lub wdrażającej agentów we własnej kancelarii albo u klienta, która chce wiedzieć, jak odróżnić samo-ulepszanie zdyscyplinowane od dzikiego. Dla compliance i AI Act, bo to konkretny obraz tego, jak wygląda rejestrowalna, kontrolowana zmiana zachowania AI. Dla każdego, kto słyszy „nasze AI samo się uczy" i chce zadać właściwe pytanie.

Dla kogo nie. Dla partnera, który szuka porady o konkretnej sprawie, to lektura zbyt techniczna i za daleka od biurka. To paper inżynierski, nie prawny. Bierzemy z niego jedną rzecz, ale ważną: wzorzec, jak ma wyglądać samo-modyfikująca się AI, którą da się zaudytować, i przypomnienie, że bramka jest tyle warta, ile kryterium, które w niej siedzi.

Dla zarządu kancelarii w trzech zdaniach

Microsoft pokazał, że agent AI może sam ulepszać swoją instrukcję w sposób kontrolowany: zmiana jest ograniczona, przyjmowana tylko gdy poprawia walidację, a odrzucone próby trafiają do dziennika, co daje +19 do +25 punktów skuteczności i artefakt, który da się przeczytać i cofnąć. Dla kancelarii to wzorzec, jak odróżnić samo-ulepszanie zdyscyplinowane (bramka, budżet, dziennik, czyli zgodne z duchem rejestrowania z art. 12 AI Act) od dzikiego przepisywania się AI, które jest czerwoną flagą. Jeden haczyk jest jednak twardy: bramka pilnuje tego, co mierzy, więc w kancelarii kryterium akceptacji zmiany w AI nie może być sama skuteczność, lecz musi obejmować tajemnicę, cel przetwarzania i człowieka w punkcie krytycznym.