Co autorzy zbadali
Eksperyment ocenia RAG-asystentów opartych na lokalnych modelach open-weight w wieloturowym scenariuszu szukania informacji - takim, gdzie profesjonalista przeszukuje duże ilości dokumentacji w wielu rundach pytań i odpowiedzi.
Scenariusz zaprojektowano jako realistyczny kontekst zawodowy, gdzie dane są wrażliwe i compliance z EU AI Act jest wymogiem. Nie akademicki benchmark - środowisko przypominające miejsce pracy, gdzie ktoś musi znaleźć odpowiedź w dokumentach i niesie za to odpowiedzialność.
Uczestnicy pracowali w trzech warunkach: LLM-only (model bez RAG), LLM+RAG baseline (model z RAG, bez człowieka) i Human-AI hybrid (człowiek interaguje z RAG-asystentem przez wiele tur, reformułując zapytania).
Rozmiar modelu testowano w trzech wariantach: 3B, 8B i 70B parametrów - wszystkie open-weight, wszystkie lokalnie deployowalne. Accuracy mierzona przez dwóch niezależnych raterów. Satysfakcja i użyteczność - przez kwestionariusz ASA (10 pytań, skala Likerta).
Kluczowy kontekst projektowy: autorzy wprost wymieniają EU AI Act compliance i wrażliwe dane jako motywację do testowania lokalnych modeli open-weight. Pytanie badawcze nie brzmi "czy AI działa" - brzmi "jak małe AI wystarczy, żeby działało w środowisku z wymogami prywatności".
Trzy wyniki - i co z nimi zrobić
Human-AI hybrid zawsze wygrywa
Współpraca człowieka z RAG-asystentem dała statystycznie istotnie lepsze wyniki accuracy niż LLM-only i LLM+RAG baseline - niezależnie od rozmiaru modelu. Human-in-the-loop nie jest kwestią compliance. Jest kwestią efektywności.
Satysfakcja użytkownika nie rośnie z parametrami
Postrzegana użyteczność i satysfakcja uczestników była porównywalna dla modeli 3B, 8B i 70B. Subiektywna satysfakcja użytkownika nie różni się istotnie między rozmiarami modeli. Autorzy nazywają to "nuanced trade-off" - bo rozmiar modelu ma znaczenie dla accuracy obiektywnej, ale użytkownik tego nie odczuwa proporcjonalnie.
Małe modele wystarczają do lokalnego RAG z wrażliwymi danymi
Modele 3B i 8B są lokalnie deployowalne - autorzy piszą wprost: "can be deployed in edge computing supporting full control over privacy-sensitive data handling". I przyczyniają się do zmniejszenia footprintu środowiskowego w codziennej pracy.
Dla kancelarii: nie musisz inwestować w infrastrukturę 70B, jeśli priorytetem jest lokalny deployment z tajemnicą zawodową. Pod jednym warunkiem: sprawdzasz accuracy na własnych polskich danych prawniczych przed wdrożeniem produkcyjnym.
Trzyfilarowy filtr MateMatic
Empiryczny argument za lokalnym RAG na małych modelach - autorzy zaprojektowali scenariusz z wrażliwymi danymi i EU AI Act compliance jako explicit constraint. To zmierzony wynik, nie propozycja teoretyczna. Walidacja HITL - hybrid zawsze > LLM-only to bezpośredni argument do art. 14 AI Act (nadzór ludzki) i art. 32 RODO: nie jako wymóg compliance, ale jako mechanizm obiektywnie poprawiający accuracy. Kontrintuicyjny wynik satysfakcji - jeśli 3B/8B wystarczają subiektywnie, a lokalny deployment chroni tajemnicę zawodową, rachunek decyzyjny dla kancelarii zmienia się.
Scenariusz nie jest prawniczy - autorzy nie testowali analizy aktów, sporządzania pism ani cytowania orzecznictwa. Transfer do kancelarii wymaga własnej walidacji na polskich tekstach prawnych. Uczestnicy nie byli prawnikami - bagaż tajemnicy zawodowej, deontologii KEA/KERP i odpowiedzialności za treść pisma procesowego zmienia dynamikę interakcji z modelem. Accuracy rośnie z rozmiarem modelu - dla zadań wymagających wysokiej precyzji (cytowanie przepisów, analiza treści wyroku WSA) warto sprawdzić próg przed wyborem modelu 3B.
Traktowania wyniku "3B wystarczy" jako universal argument za najtańszym rozwiązaniem - bez walidacji na własnych danych prawniczych kancelaria nie może zakładać że wynik eksperymentu przenosi się 1:1. Pomijania kwestii języka polskiego - paper testował modele w scenariuszu anglojęzycznym. Dla polskich akt konieczna osobna weryfikacja - Bielik lub PLLuM dają lepszy punkt startowy dla polskich tekstów prawnych niż generyczny model 3B anglojęzyczny (cross-reference BW/036 Kuśmierek).
Mapping na polskie instrumenty
Tajemnica zawodowa KEA i KERP - lokalny deployment jako odpowiedź
Tajemnica adwokacka (art. 6 prawa o adwokaturze, art. 6 KEA) i radcowska (art. 3 ustawy o radcach prawnych, KERP) wymagają, żeby dane klientów nie trafiały do podmiotów trzecich bez podstawy prawnej.
Lokalny model 3B/8B deployowany na sprzęcie kancelarii lub w zamkniętym środowisku sieciowym: dane nie wychodzą do zewnętrznego API. Froma et al. opisują dokładnie ten mechanizm - "full control over privacy-sensitive data handling" - jako uzasadnienie dla lokalnych open-weight modeli.
Kancelaria używająca zewnętrznego RAG przez API bez DPA z dostawcą i bez weryfikacji gdzie trafiają zapytania - na gruncie art. 6 KEA i art. 3 ustawy o radcach prawnych - działa w obszarze ryzyka naruszenia tajemnicy zawodowej, niezależnie od klauzul w regulaminie narzędzia. To interpretacja MateMatic, nie formalne stanowisko NRA ani KIRP.
RODO art. 32 i AI Act art. 14 - dwie regulacje, jeden wynik empiryczny
Art. 32 RODO wymaga środków technicznych adekwatnych do ryzyka dla praw i wolności osób fizycznych. Lokalny deployment modelu jako środek techniczny - zamiast przesyłania danych do zewnętrznego API - jest bezpośrednią implementacją art. 32 dla operacji przetwarzania z aktami klientów.
Art. 14 AI Act (nadzór ludzki) nakłada na deployers obowiązek zapewnienia że systemy AI mogą być nadzorowane i korygowane przez człowieka. Wynik Fromy et al. - human-AI hybrid zawsze bije LLM-only - to empiryczna walidacja, że HITL nie jest tylko compliance checkbox.
Jest to mechanizm obiektywnie poprawiający accuracy. Art. 14 AI Act i art. 32 RODO wskazują w tym samym kierunku co dane z N=112.
Zero-cloud stack dla kancelarii - warstwa modelu językowego
Stack zero-cloud (Bielik/PLLuM/Llama on-premise + lokalne RAG + lokalne przechowywanie danych) dostaje w Fromie et al. empiryczne wsparcie dla warstwy modelu językowego. Małe modele 3B/8B wystarczają dla zadań RAG w środowisku profesjonalnym z wrażliwymi danymi.
Kluczowe zastrzeżenie: autorzy testowali modele w scenariuszu anglojęzycznym. Dla polskich tekstów prawnych warstwa weryfikacji wymaga testów z modelem polskojęzycznym (Bielik) lub wielojęzycznym na własnym zbiorze dokumentów kancelarii - przed wdrożeniem produkcyjnym.
Powiązane materiały MateMatic
- BW/036 - Kuśmierek: Polska wobec AGI - polski kontekst LegalTech i argument za lokalnymi modelami językowymi dla polskich tekstów prawnych.
- BW/051 - Supesu: Raport Rynku Prawniczego 2025/2026 - 87% polskich prawników używa AI, ale nie rozróżnia między narzędziami z DPA i bez DPA.
- BW/053 - Five Eyes: Careful adoption of agentic AI - Privilege risks i art. 32 RODO jako framework bezpieczeństwa dla narzędzi AI.
- BW/054 - EDPB Guidelines on DPIA (2026) - mechanizm baseline-eskalacja art. 32/35 RODO dla oceny ryzyka systemów RAG kancelarii.
- Akademia MateMatic - Cztery filary i dwa aktywne dashboardy - w tym warsztat lokalny RAG dla kancelarii w module zero-cloud stack.