O czym jest ten overlay
Stanford HAI publikuje od 2017 roku AI Index Report - niezależny benchmark globalny rynku AI, dziewiąta edycja w kwietniu 2026, ponad 385 stron, dziewięć rozdziałów (R&D, Technical Performance, Responsible AI, Economy, Science, Medicine, Education, Policy and Governance, Public Opinion). Pełną recenzję raportu opublikowaliśmy 4 maja 2026 jako TOM 052 Bazy Wiedzy MateMatic - z zarzutami, mappingiem na polskie instrumenty i wskazaniem trzech luk z perspektywy polskiej kancelarii.
To, co pojawiło się dodatkowo, to kuratorska synteza branżowa - pięć sekcji wybranych z całego raportu pod kątem LegalTech. Stanford HAI zwraca uwagę na konkretne benchmarki, dane inwestycyjne i statystyki adopcji, które rozproszone w głównym raporcie giną w skali. Zebrane w jednym miejscu, dla branży prawniczej, mówią coś, co warto przeczytać z czerwonym długopisem.
Pięć tematów - każdy z liczbą
Dwa benchmarki dla LegalTech. CaseLaw v2 testuje real-world litigation i legal research na ostatnich orzeczeniach sądów USA i Kanady, siedem wymiarów reasoning - GPT-5.1 prowadzi z 73,4 procent, większość top modeli w przedziale 62-70 procent. Wspólna słabość: modele opierają się na wiedzy ogólnej zamiast na dostarczonych dokumentach. LegalBench obejmuje sześć zadań reasoning lustrzanych do real legal work - top 15 modeli powyżej 83 procent, ale w wąskim 4-punktowym przedziale (różnicowanie trudne). Ogólnie AI trafia w 60-90 procent accuracy, ale wysoka niezawodność pozostaje otwarte wyzwanie.
Wyróżniony benchmark KaBLE testuje, czy modele odróżniają znane fakty od wierzeń - krytyczne dla prawa. Raport notuje: model podsumowujący zeznanie, który nie odróżnia tego, co świadek wierzy, od tego, co wiadomo, może wprowadzić błędne stwierdzenia o dowodach. Modele wykazały istotne spadki accuracy na zadaniach first-person false belief - sygnał, że obecne modele nadal nie nauczyły się tej dystynkcji w sposób niezawodny. Realne ryzyko dla zastosowań prawniczych.
LegalTech pojawia się w globalnych danych AI investment by sector (2018-2025). Lista śledzonych obszarów obok fintech, biotech, defense i innych. Wykresy trendu inwestycyjnego pokazują LegalTech osiągający około 6,52 mld USD w 2025 roku, co odzwierciedla stały wzrost jako odrębna kategoria inwestycji w AI.
Knowledge management w "business, legal, and professional services" raportuje najwyższy poziom adopcji AI - 58 procent, na równi z software engineering / IT jako top use case we wszystkich branżach. Jednocześnie funkcje risk i compliance nadal pokazują niski uptake AI w większości sektorów (financial services jako notable exception). Na poziomie governance: Legal jako primary owner of AI governance tylko w 5-6 procent organizacji, z rosnącym trendem angażowania działów prawnych w ramach Responsible AI investments dla dużych firm.
RODO pozostaje najczęściej cytowanym wpływem regulacyjnym na responsible AI - 60 procent organizacji, lekko w dół z 65 procent rok wcześniej. EU AI Act i U.S. AI Executive Order rosną w wpływie. Japonia, Korea Południowa i Włochy uchwaliły krajowe ustawy o AI w okresie raportowania. Senat USA pozwolił stanom kontynuować własne ustawy o nadzorze AI - co ma istotne implikacje dla compliance complexity. Wniosek HAI: AI capable of legal reasoning (60-87 procent range), inwestycje rosną, enterprise adoption w legal knowledge work należy do najwyższych z całej organizacji - ale reliability concerns (halucynacje, mylenie wiary z faktem) pozostają centralną barierą głębszego deploymentu w high-stakes legal settings.
Trzyfilarowy filtr MateMatic na świeżych liczbach
Liczby są atrakcyjne, ale każda z nich wymaga warstwy. Czytamy każdą z trzech stron jednocześnie - co bierzemy do polskiej kancelarii, co flagujemy, czego nie endorsujemy.
Inwestycje 6,52 mld USD jako sygnał, że LegalTech jest wystarczająco dojrzałą kategorią, żeby finansować dedykowane stack-i (nie wymówki "to jeszcze niesprawdzone"). Knowledge management 58 procent adopcji jako baseline, do którego kancelaria może się porównywać z konkretem, nie z marketingowym "wiele firm wdraża AI". Legal owner of AI governance 5-6 procent jako miejsce do wejścia - większość organizacji nadal nie ma prawnika u steru AI governance, jest okno do zostać tym prawnikiem.
GPT-5.1 = 73,4 procent na CaseLaw v2 oznacza, że na real-world litigation w USA i Kanadzie w blisko jednym na cztery przypadki model się myli. Słabość raportowana wprost: modele opierają się na wiedzy ogólnej zamiast na dostarczonych dokumentach. LegalBench top 15 w wąskim 4-punktowym przedziale oznacza, że "który model wybrać" przestaje być pytaniem - liczy się walidacja na własnych aktach kancelarii, nie ranking benchmarka. KaBLE i first-person false belief to sygnał, że asystent przygotowujący streszczenie zeznania świadka może bezkrytycznie zamienić "świadek twierdzi, że X" na "X" - z konsekwencjami dla prawdziwości pisma procesowego (interpretacja MateMatic, nie stanowisko NRA ani KRRP).
Wniosku, że "60-90 procent accuracy = gotowe do produkcji w polskiej kancelarii" - bez dwóch warstw: walidacji na własnym korpusie aktów (nie na CaseLaw v2 z USA i Kanady, nie na LegalBench, który jest anglojęzyczny i common-law oriented) oraz architektury kontroli per decyzja (per pillar Decyzja jako jednostka pracy, nie per system). Wniosku, że knowledge management 58 procent adopcji = dowód na bezpieczne wdrożenie - sam raport flaguje, że risk i compliance functions mają niską adopcję, a hallucination jest centralną barierą w high-stakes legal settings. Wysoka adopcja w knowledge work jest sygnałem o niskim koszcie błędu w tej domenie - nie o gotowości w domenie wysokiego ryzyka.
Pięć liczb HAI to pięć punktów wyjścia do rozmowy z partnerem o stack-u AI kancelarii. Żadna z nich nie jest punktem zamykającym tę rozmowę.
Trzy pytania dla polskiej kancelarii w tym tygodniu
Niezależnie od tego, czy kancelaria jest dziś użytkownikiem AI, czy planuje wdrożenie - są trzy pytania, których odpowiedź zmienia się fundamentalnie po przeczytaniu overlay HAI:
- Czy mamy mierzony baseline accuracy AI na własnych aktach - nie na CaseLaw v2 i nie na LegalBench? Jeśli odpowiedź to "ufamy raportowi dostawcy" lub "model jest topowy w benchmarkach" - nie mamy. Walidacja na własnym korpusie jest pracą zespołową prawnika i compliance officera, nie deklaracją vendor-side.
- Czy nasze procesy uwzględniają KaBLE-typową kruchość modeli na first-person false belief? Konkretnie: czy asystent AI przygotowujący streszczenie zeznania świadka, opinii biegłego, pisma drugiej strony - ma narzucony format, który zachowuje rozróżnienie "świadek twierdzi, że X" vs "X jest udowodnione"? Jeśli format wynika tylko z dobrej praktyki prawnika weryfikującego output, a nie z pre-ustawionego promptu i post-walidacji - jesteśmy dokładnie w grupie, którą KaBLE flaguje.
- Co robimy z 5-6 procent Legal as primary owner of AI governance? Czy w Polsce wśród naszych klientów ten odsetek jest wyższy, niższy, taki sam? Ta liczba to mapa rynku - jeśli klienci kancelarii nie mają u siebie prawnika u steru AI governance, kancelaria ma okno świadczyć tę funkcję ad hoc. Sam HAI raportuje rosnący trend angażowania działów prawnych w Responsible AI investments - okno realne, ale zamykane przez konkurencję doradczą; długość zależy od tempa adopcji w sektorze klienta.
Każde z tych pytań ma jedną poprawną odpowiedź na poziomie procesu. Brak procesu w którymkolwiek z trzech to nie luka prawna - to luka operacyjna, której koszt ujawnienia jest większy niż koszt zbudowania procesu dziś.
Pełna recenzja raportu HAI: TOM 052 - AI Index Stanford HAI 2026. Tom flagowy serii Kenneya o czterech jurysdykcjach: TOM 056 - Atlas dla compliance officera (komparatystyka EU/USA/UK/CN, opublikowany dziś rano). Komentarz operacyjny do EU AI Act Omnibus: Aktualność z 7 maja 2026. Five Eyes o ostrożnej adopcji agentic AI: TOM 053.
Co MateMatic wnosi do tego tematu
Warsztat MateMatic "Walidacja stack-u AI kancelarii na własnym korpusie" obejmuje dokładnie te trzy pytania. Konstruowanie reprezentatywnego zbioru testowego z aktów kancelarii (z anonimizacją, gdzie wymagana). Zaprojektowanie metryk accuracy dla zadań wykonywanych przez asystenta - z explicite wyodrębnioną kategorią "first-person false belief". Procedura post-walidacji output AI przed włączeniem do pisma procesowego, opinii lub porady klientowi - z formatem, który zachowuje rozróżnienie wiary, twierdzenia, ustalenia, dowodu.
Deliverable po warsztacie: zbiór testowy 30-50 zadań wzorowanych na CaseLaw v2 i KaBLE, ale w polskim języku i polskim systemie prawnym. Mapa accuracy na trzech-czterech modelach kandydatach (open-weight do lokalnego deploymentu plus jeden cloud reference). Pre-ustawiony prompt-template z post-walidacją dla streszczeń i analizy. Materiał osadzony w pillarach MateMatic Decyzja jako jednostka pracy i Stack zero-cloud. Interpretacje regulacyjne na poziomie warsztatu są stanowiskiem MateMatic - nie zastępują doradztwa prawnego.