Froma et al. 2026 - RAG-Assistants i rozmiar modelu - Lokalny LLM dla kancelarii

Kancelaria rozważająca lokalny RAG napotyka jedno pytanie: czy model 3B open-source wystarczy do profesjonalnego zadania z wrażliwymi danymi, czy trzeba inwestować w infrastrukturę dla 70B? Froma et al. (Leiden University, TNO, TU Delft) testują to empirycznie - N=112, wieloturowe zadania, scenariusz z wrażliwymi danymi i compliance z EU AI Act jako explicit constraint.

Human-AI hybrid zawsze bije LLM-only - niezależnie od rozmiaru modelu. I nie, satysfakcja użytkownika nie rośnie proporcjonalnie z liczbą parametrów.

Co autorzy zbadali

Eksperyment ocenia RAG-asystentów opartych na lokalnych modelach open-weight w wieloturowym scenariuszu szukania informacji - takim, gdzie profesjonalista przeszukuje duże ilości dokumentacji w wielu rundach pytań i odpowiedzi.

Scenariusz zaprojektowano jako realistyczny kontekst zawodowy, gdzie dane są wrażliwe i compliance z EU AI Act jest wymogiem. Nie akademicki benchmark - środowisko przypominające miejsce pracy, gdzie ktoś musi znaleźć odpowiedź w dokumentach i niesie za to odpowiedzialność.

Uczestnicy pracowali w trzech warunkach: LLM-only (model bez RAG), LLM+RAG baseline (model z RAG, bez człowieka) i Human-AI hybrid (człowiek interaguje z RAG-asystentem przez wiele tur, reformułując zapytania).

Rozmiar modelu testowano w trzech wariantach: 3B, 8B i 70B parametrów - wszystkie open-weight, wszystkie lokalnie deployowalne. Accuracy mierzona przez dwóch niezależnych raterów. Satysfakcja i użyteczność - przez kwestionariusz ASA (10 pytań, skala Likerta).

Kluczowy kontekst projektowy: autorzy wprost wymieniają EU AI Act compliance i wrażliwe dane jako motywację do testowania lokalnych modeli open-weight. Pytanie badawcze nie brzmi "czy AI działa" - brzmi "jak małe AI wystarczy, żeby działało w środowisku z wymogami prywatności".

Trzy wyniki - i co z nimi zrobić

Wynik 1

Human-AI hybrid zawsze wygrywa

Współpraca człowieka z RAG-asystentem dała statystycznie istotnie lepsze wyniki accuracy niż LLM-only i LLM+RAG baseline - niezależnie od rozmiaru modelu. Human-in-the-loop nie jest kwestią compliance. Jest kwestią efektywności.

Wynik 2

Satysfakcja użytkownika nie rośnie z parametrami

Postrzegana użyteczność i satysfakcja uczestników była porównywalna dla modeli 3B, 8B i 70B. Subiektywna satysfakcja użytkownika nie różni się istotnie między rozmiarami modeli. Autorzy nazywają to "nuanced trade-off" - bo rozmiar modelu ma znaczenie dla accuracy obiektywnej, ale użytkownik tego nie odczuwa proporcjonalnie.

Wynik 3

Małe modele wystarczają do lokalnego RAG z wrażliwymi danymi

Modele 3B i 8B są lokalnie deployowalne - autorzy piszą wprost: "can be deployed in edge computing supporting full control over privacy-sensitive data handling". I przyczyniają się do zmniejszenia footprintu środowiskowego w codziennej pracy.

Dla kancelarii: nie musisz inwestować w infrastrukturę 70B, jeśli priorytetem jest lokalny deployment z tajemnicą zawodową. Pod jednym warunkiem: sprawdzasz accuracy na własnych polskich danych prawniczych przed wdrożeniem produkcyjnym.

Trzyfilarowy filtr MateMatic

✓ Co bierzemy

Empiryczny argument za lokalnym RAG na małych modelach - autorzy zaprojektowali scenariusz z wrażliwymi danymi i EU AI Act compliance jako explicit constraint. To zmierzony wynik, nie propozycja teoretyczna. Walidacja HITL - hybrid zawsze > LLM-only to bezpośredni argument do art. 14 AI Act (nadzór ludzki) i art. 32 RODO: nie jako wymóg compliance, ale jako mechanizm obiektywnie poprawiający accuracy. Kontrintuicyjny wynik satysfakcji - jeśli 3B/8B wystarczają subiektywnie, a lokalny deployment chroni tajemnicę zawodową, rachunek decyzyjny dla kancelarii zmienia się.

⚠ Co wymaga kontekstu

Scenariusz nie jest prawniczy - autorzy nie testowali analizy aktów, sporządzania pism ani cytowania orzecznictwa. Transfer do kancelarii wymaga własnej walidacji na polskich tekstach prawnych. Uczestnicy nie byli prawnikami - bagaż tajemnicy zawodowej, deontologii KEA/KERP i odpowiedzialności za treść pisma procesowego zmienia dynamikę interakcji z modelem. Accuracy rośnie z rozmiarem modelu - dla zadań wymagających wysokiej precyzji (cytowanie przepisów, analiza treści wyroku WSA) warto sprawdzić próg przed wyborem modelu 3B.

✕ Czego nie endorsujemy

Traktowania wyniku "3B wystarczy" jako universal argument za najtańszym rozwiązaniem - bez walidacji na własnych danych prawniczych kancelaria nie może zakładać że wynik eksperymentu przenosi się 1:1. Pomijania kwestii języka polskiego - paper testował modele w scenariuszu anglojęzycznym. Dla polskich akt konieczna osobna weryfikacja - Bielik lub PLLuM dają lepszy punkt startowy dla polskich tekstów prawnych niż generyczny model 3B anglojęzyczny (cross-reference BW/036 Kuśmierek).

Mapping na polskie instrumenty

Tajemnica zawodowa KEA i KERP - lokalny deployment jako odpowiedź

Tajemnica adwokacka (art. 6 prawa o adwokaturze, art. 6 KEA) i radcowska (art. 3 ustawy o radcach prawnych, KERP) wymagają, żeby dane klientów nie trafiały do podmiotów trzecich bez podstawy prawnej.

Lokalny model 3B/8B deployowany na sprzęcie kancelarii lub w zamkniętym środowisku sieciowym: dane nie wychodzą do zewnętrznego API. Froma et al. opisują dokładnie ten mechanizm - "full control over privacy-sensitive data handling" - jako uzasadnienie dla lokalnych open-weight modeli.

Kancelaria używająca zewnętrznego RAG przez API bez DPA z dostawcą i bez weryfikacji gdzie trafiają zapytania - na gruncie art. 6 KEA i art. 3 ustawy o radcach prawnych - działa w obszarze ryzyka naruszenia tajemnicy zawodowej, niezależnie od klauzul w regulaminie narzędzia. To interpretacja MateMatic, nie formalne stanowisko NRA ani KIRP.

RODO art. 32 i AI Act art. 14 - dwie regulacje, jeden wynik empiryczny

Art. 32 RODO wymaga środków technicznych adekwatnych do ryzyka dla praw i wolności osób fizycznych. Lokalny deployment modelu jako środek techniczny - zamiast przesyłania danych do zewnętrznego API - jest bezpośrednią implementacją art. 32 dla operacji przetwarzania z aktami klientów.

Art. 14 AI Act (nadzór ludzki) nakłada na deployers obowiązek zapewnienia że systemy AI mogą być nadzorowane i korygowane przez człowieka. Wynik Fromy et al. - human-AI hybrid zawsze bije LLM-only - to empiryczna walidacja, że HITL nie jest tylko compliance checkbox.

Jest to mechanizm obiektywnie poprawiający accuracy. Art. 14 AI Act i art. 32 RODO wskazują w tym samym kierunku co dane z N=112.

Zero-cloud stack dla kancelarii - warstwa modelu językowego

Stack zero-cloud (Bielik/PLLuM/Llama on-premise + lokalne RAG + lokalne przechowywanie danych) dostaje w Fromie et al. empiryczne wsparcie dla warstwy modelu językowego. Małe modele 3B/8B wystarczają dla zadań RAG w środowisku profesjonalnym z wrażliwymi danymi.

Kluczowe zastrzeżenie: autorzy testowali modele w scenariuszu anglojęzycznym. Dla polskich tekstów prawnych warstwa weryfikacji wymaga testów z modelem polskojęzycznym (Bielik) lub wielojęzycznym na własnym zbiorze dokumentów kancelarii - przed wdrożeniem produkcyjnym.

Powiązane materiały MateMatic

BW/036 - Kuśmierek: Polska wobec AGI - polski kontekst LegalTech i argument za lokalnymi modelami językowymi dla polskich tekstów prawnych.
BW/051 - Supesu: Raport Rynku Prawniczego 2025/2026 - 87% polskich prawników używa AI, ale nie rozróżnia między narzędziami z DPA i bez DPA.
BW/053 - Five Eyes: Careful adoption of agentic AI - Privilege risks i art. 32 RODO jako framework bezpieczeństwa dla narzędzi AI.
BW/054 - EDPB Guidelines on DPIA (2026) - mechanizm baseline-eskalacja art. 32/35 RODO dla oceny ryzyka systemów RAG kancelarii.
Akademia MateMatic - Cztery filary i dwa aktywne dashboardy - w tym warsztat lokalny RAG dla kancelarii w module zero-cloud stack.

Leiden i TNO pytają 112 pracowników: czy mały model RAG wystarczy do zadań z wrażliwymi danymi. Odpowiedź zmienia rachunek dla kancelarii.

Co autorzy zbadali

Trzy wyniki - i co z nimi zrobić

Trzyfilarowy filtr MateMatic

Mapping na polskie instrumenty

Tajemnica zawodowa KEA i KERP - lokalny deployment jako odpowiedź

RODO art. 32 i AI Act art. 14 - dwie regulacje, jeden wynik empiryczny

Zero-cloud stack dla kancelarii - warstwa modelu językowego

Powiązane materiały MateMatic