Stanford HAI dorzuca LegalTech overlay do AI Index 2026. Pięć tematów, każdy z liczbą.

Stanford Institute for Human-Centered AI publikuje overlay LegalTech do AI Index Report 2026 - pięć sekcji kuratorskich syntezujących kawałki głównego raportu pod kątem branży prawniczej. CaseLaw v2 daje GPT-5.1 73,4 procent accuracy. LegalTech investment ~6,52 mld USD w 2025. Knowledge management adoption 58 procent. Ale - AI governance jako Legal owner tylko 5-6 procent organizacji. I jeden niewygodny benchmark - KaBLE - pokazuje, że modele nadal nie odróżniają wiary od faktu w pierwszej osobie. Pełna recenzja flagowa raportu: TOM 052 w Bazie Wiedzy.

Aktualne na 2026-05-09. Z czerwonym długopisem do każdej z pięciu sekcji z osobna - bo żadna z liczb nie jest liczbą, którą można zacytować klientowi bez warstwy własnego komentarza.

O czym jest ten overlay

Stanford HAI publikuje od 2017 roku AI Index Report - niezależny benchmark globalny rynku AI, dziewiąta edycja w kwietniu 2026, ponad 385 stron, dziewięć rozdziałów (R&D, Technical Performance, Responsible AI, Economy, Science, Medicine, Education, Policy and Governance, Public Opinion). Pełną recenzję raportu opublikowaliśmy 4 maja 2026 jako TOM 052 Bazy Wiedzy MateMatic - z zarzutami, mappingiem na polskie instrumenty i wskazaniem trzech luk z perspektywy polskiej kancelarii.

To, co pojawiło się dodatkowo, to kuratorska synteza branżowa - pięć sekcji wybranych z całego raportu pod kątem LegalTech. Stanford HAI zwraca uwagę na konkretne benchmarki, dane inwestycyjne i statystyki adopcji, które rozproszone w głównym raporcie giną w skali. Zebrane w jednym miejscu, dla branży prawniczej, mówią coś, co warto przeczytać z czerwonym długopisem.

Pięć tematów - każdy z liczbą

CaseLaw v2 lider

GPT-5.1 = 73,4%

LegalBench top 15

>83% w 4-pkt range

LegalTech investment 2025

~6,52 mld USD

Knowledge mgmt adoption

58% (top wraz z IT)

AI governance Legal owner

5-6% organizacji

GDPR wpływ na responsible AI

60% (down z 65%)

Legal Reasoning Benchmarks (rozdz. 2.5)

Dwa benchmarki dla LegalTech. CaseLaw v2 testuje real-world litigation i legal research na ostatnich orzeczeniach sądów USA i Kanady, siedem wymiarów reasoning - GPT-5.1 prowadzi z 73,4 procent, większość top modeli w przedziale 62-70 procent. Wspólna słabość: modele opierają się na wiedzy ogólnej zamiast na dostarczonych dokumentach. LegalBench obejmuje sześć zadań reasoning lustrzanych do real legal work - top 15 modeli powyżej 83 procent, ale w wąskim 4-punktowym przedziale (różnicowanie trudne). Ogólnie AI trafia w 60-90 procent accuracy, ale wysoka niezawodność pozostaje otwarte wyzwanie.

Hallucination Problem w Legal Contexts (rozdz. 3.2)

Wyróżniony benchmark KaBLE testuje, czy modele odróżniają znane fakty od wierzeń - krytyczne dla prawa. Raport notuje: model podsumowujący zeznanie, który nie odróżnia tego, co świadek wierzy, od tego, co wiadomo, może wprowadzić błędne stwierdzenia o dowodach. Modele wykazały istotne spadki accuracy na zadaniach first-person false belief - sygnał, że obecne modele nadal nie nauczyły się tej dystynkcji w sposób niezawodny. Realne ryzyko dla zastosowań prawniczych.

LegalTech Investment Trends (rozdz. 4.2)

LegalTech pojawia się w globalnych danych AI investment by sector (2018-2025). Lista śledzonych obszarów obok fintech, biotech, defense i innych. Wykresy trendu inwestycyjnego pokazują LegalTech osiągający około 6,52 mld USD w 2025 roku, co odzwierciedla stały wzrost jako odrębna kategoria inwestycji w AI.

AI Adoption w Legal Functions (rozdz. 4.3)

Knowledge management w "business, legal, and professional services" raportuje najwyższy poziom adopcji AI - 58 procent, na równi z software engineering / IT jako top use case we wszystkich branżach. Jednocześnie funkcje risk i compliance nadal pokazują niski uptake AI w większości sektorów (financial services jako notable exception). Na poziomie governance: Legal jako primary owner of AI governance tylko w 5-6 procent organizacji, z rosnącym trendem angażowania działów prawnych w ramach Responsible AI investments dla dużych firm.

Legal i Regulatory Frameworks (rozdz. 3.3 i 5)

RODO pozostaje najczęściej cytowanym wpływem regulacyjnym na responsible AI - 60 procent organizacji, lekko w dół z 65 procent rok wcześniej. EU AI Act i U.S. AI Executive Order rosną w wpływie. Japonia, Korea Południowa i Włochy uchwaliły krajowe ustawy o AI w okresie raportowania. Senat USA pozwolił stanom kontynuować własne ustawy o nadzorze AI - co ma istotne implikacje dla compliance complexity. Wniosek HAI: AI capable of legal reasoning (60-87 procent range), inwestycje rosną, enterprise adoption w legal knowledge work należy do najwyższych z całej organizacji - ale reliability concerns (halucynacje, mylenie wiary z faktem) pozostają centralną barierą głębszego deploymentu w high-stakes legal settings.

Trzyfilarowy filtr MateMatic na świeżych liczbach

Liczby są atrakcyjne, ale każda z nich wymaga warstwy. Czytamy każdą z trzech stron jednocześnie - co bierzemy do polskiej kancelarii, co flagujemy, czego nie endorsujemy.

BIERZEMY

Inwestycje 6,52 mld USD jako sygnał, że LegalTech jest wystarczająco dojrzałą kategorią, żeby finansować dedykowane stack-i (nie wymówki "to jeszcze niesprawdzone"). Knowledge management 58 procent adopcji jako baseline, do którego kancelaria może się porównywać z konkretem, nie z marketingowym "wiele firm wdraża AI". Legal owner of AI governance 5-6 procent jako miejsce do wejścia - większość organizacji nadal nie ma prawnika u steru AI governance, jest okno do zostać tym prawnikiem.

FLAGUJEMY

GPT-5.1 = 73,4 procent na CaseLaw v2 oznacza, że na real-world litigation w USA i Kanadzie w blisko jednym na cztery przypadki model się myli. Słabość raportowana wprost: modele opierają się na wiedzy ogólnej zamiast na dostarczonych dokumentach. LegalBench top 15 w wąskim 4-punktowym przedziale oznacza, że "który model wybrać" przestaje być pytaniem - liczy się walidacja na własnych aktach kancelarii, nie ranking benchmarka. KaBLE i first-person false belief to sygnał, że asystent przygotowujący streszczenie zeznania świadka może bezkrytycznie zamienić "świadek twierdzi, że X" na "X" - z konsekwencjami dla prawdziwości pisma procesowego (interpretacja MateMatic, nie stanowisko NRA ani KRRP).

NIE ENDORSUJEMY

Wniosku, że "60-90 procent accuracy = gotowe do produkcji w polskiej kancelarii" - bez dwóch warstw: walidacji na własnym korpusie aktów (nie na CaseLaw v2 z USA i Kanady, nie na LegalBench, który jest anglojęzyczny i common-law oriented) oraz architektury kontroli per decyzja (per pillar Decyzja jako jednostka pracy, nie per system). Wniosku, że knowledge management 58 procent adopcji = dowód na bezpieczne wdrożenie - sam raport flaguje, że risk i compliance functions mają niską adopcję, a hallucination jest centralną barierą w high-stakes legal settings. Wysoka adopcja w knowledge work jest sygnałem o niskim koszcie błędu w tej domenie - nie o gotowości w domenie wysokiego ryzyka.

Pięć liczb HAI to pięć punktów wyjścia do rozmowy z partnerem o stack-u AI kancelarii. Żadna z nich nie jest punktem zamykającym tę rozmowę.

Trzy pytania dla polskiej kancelarii w tym tygodniu

Niezależnie od tego, czy kancelaria jest dziś użytkownikiem AI, czy planuje wdrożenie - są trzy pytania, których odpowiedź zmienia się fundamentalnie po przeczytaniu overlay HAI:

Czy mamy mierzony baseline accuracy AI na własnych aktach - nie na CaseLaw v2 i nie na LegalBench? Jeśli odpowiedź to "ufamy raportowi dostawcy" lub "model jest topowy w benchmarkach" - nie mamy. Walidacja na własnym korpusie jest pracą zespołową prawnika i compliance officera, nie deklaracją vendor-side.
Czy nasze procesy uwzględniają KaBLE-typową kruchość modeli na first-person false belief? Konkretnie: czy asystent AI przygotowujący streszczenie zeznania świadka, opinii biegłego, pisma drugiej strony - ma narzucony format, który zachowuje rozróżnienie "świadek twierdzi, że X" vs "X jest udowodnione"? Jeśli format wynika tylko z dobrej praktyki prawnika weryfikującego output, a nie z pre-ustawionego promptu i post-walidacji - jesteśmy dokładnie w grupie, którą KaBLE flaguje.
Co robimy z 5-6 procent Legal as primary owner of AI governance? Czy w Polsce wśród naszych klientów ten odsetek jest wyższy, niższy, taki sam? Ta liczba to mapa rynku - jeśli klienci kancelarii nie mają u siebie prawnika u steru AI governance, kancelaria ma okno świadczyć tę funkcję ad hoc. Sam HAI raportuje rosnący trend angażowania działów prawnych w Responsible AI investments - okno realne, ale zamykane przez konkurencję doradczą; długość zależy od tempa adopcji w sektorze klienta.

Każde z tych pytań ma jedną poprawną odpowiedź na poziomie procesu. Brak procesu w którymkolwiek z trzech to nie luka prawna - to luka operacyjna, której koszt ujawnienia jest większy niż koszt zbudowania procesu dziś.

Powiązane materiały MateMatic

Pełna recenzja raportu HAI: TOM 052 - AI Index Stanford HAI 2026. Tom flagowy serii Kenneya o czterech jurysdykcjach: TOM 056 - Atlas dla compliance officera (komparatystyka EU/USA/UK/CN, opublikowany dziś rano). Komentarz operacyjny do EU AI Act Omnibus: Aktualność z 7 maja 2026. Five Eyes o ostrożnej adopcji agentic AI: TOM 053.

Co MateMatic wnosi do tego tematu

Warsztat MateMatic "Walidacja stack-u AI kancelarii na własnym korpusie" obejmuje dokładnie te trzy pytania. Konstruowanie reprezentatywnego zbioru testowego z aktów kancelarii (z anonimizacją, gdzie wymagana). Zaprojektowanie metryk accuracy dla zadań wykonywanych przez asystenta - z explicite wyodrębnioną kategorią "first-person false belief". Procedura post-walidacji output AI przed włączeniem do pisma procesowego, opinii lub porady klientowi - z formatem, który zachowuje rozróżnienie wiary, twierdzenia, ustalenia, dowodu.

Deliverable po warsztacie: zbiór testowy 30-50 zadań wzorowanych na CaseLaw v2 i KaBLE, ale w polskim języku i polskim systemie prawnym. Mapa accuracy na trzech-czterech modelach kandydatach (open-weight do lokalnego deploymentu plus jeden cloud reference). Pre-ustawiony prompt-template z post-walidacją dla streszczeń i analizy. Materiał osadzony w pillarach MateMatic Decyzja jako jednostka pracy i Stack zero-cloud. Interpretacje regulacyjne na poziomie warsztatu są stanowiskiem MateMatic - nie zastępują doradztwa prawnego.

Stanford HAI dorzuca LegalTech overlay do AI Index 2026. Pięć tematów, każdy z liczbą - i nie są to liczby, które zwalniają z czujności.

O czym jest ten overlay

Pięć tematów - każdy z liczbą

Trzyfilarowy filtr MateMatic na świeżych liczbach

Trzy pytania dla polskiej kancelarii w tym tygodniu

Co MateMatic wnosi do tego tematu

Warsztat: Walidacja stack-u AI kancelarii na własnym korpusie