W wyszukiwaniu orzeczeń stary BM25 wciąż bije neuronowe. A reguły, które je ulepszają, da się przeczytać.

Branża sprzedaje „semantic search" jako następcę słów kluczowych: zamiast dopasowywać terminy, model rozumie znaczenie i wyszukuje po sensie. W większości dziedzin to działa. W prawie niekoniecznie. Zespół z chińskiej Akademii Nauk Wojskowych pokazał na benchmarku orzeczniczym, że klasyczny algorytm słów kluczowych BM25 (z 2009 roku) konsekwentnie bije neuronowe wyszukiwarki, nawet te dotrenowane na danych prawnych. Zamiast wymieniać BM25 na embeddingi, autorzy go wzmacniają: agent LLM sam tworzy, testuje i odrzuca reguły przepisywania zapytań, bez trenowania jakiegokolwiek modelu, a każda reguła jest zapisana zwykłym, czytelnym językiem.

Dwie tezy dla kancelarii w jednym paperze: nie ufaj ślepo „wyszukiwaniu po znaczeniu", i jeśli już ulepszasz wyszukiwanie AI, rób to regułami, które możesz przeczytać i zaudytować.

O czym jest ten materiał

Najpierw dwa pojęcia, bo na nich stoi cała praca. Wyszukiwanie leksykalne (BM25) dopasowuje dosłowne słowa zapytania do słów w dokumentach, ważąc je statystycznie. Wyszukiwanie gęste (dense, neuronowe) zamienia zapytanie i dokumenty na wektory liczb (embeddingi) i szuka tych, które leżą blisko w przestrzeni znaczeń. Dominująca narracja ostatnich lat mówi: dense wypiera słowa kluczowe, bo rozumie sens, a nie tylko literę.

Autorzy tę narrację w prawie podważają, i to pomiarem. Porównali BM25 z trzema reprezentatywnymi modelami dense na zbiorze LeCaRD-v2: bge-m3 (ogólny model embeddingowy) oraz SAILER_zh i ReaKase-8B (oba dotrenowane na danych prawnych). Wynik jest jednoznaczny. BM25 osiąga najwyższy średni recall na różnych poziomach odcięcia. Co więcej, oba modele prawnicze tracą względem BM25 od 7,60 do 19,07 procent na Recall@50 i od 6,74 do 20,51 procent na Recall@100. Dopiero przy bardzo szerokim odcięciu (Recall@1000) dense modele zbliżają się do BM25, ale to poziom mało użyteczny w praktyce, bo nikt nie czyta tysiąca orzeczeń na zapytanie.

Algorytm z 2009 roku, bez sieci neuronowej i bez treningu, bije modele embeddingowe dotrenowane na prawie. W prawie to nie nostalgia, to wynik.

Stąd teza, która organizuje resztę pracy: skoro BM25 jest tak mocny, nie wymieniajmy go, tylko wzmocnijmy przez przepisywanie zapytań. Przepisywanie zapytania to wzbogacenie go o terminologię prawną, synonimy i alternatywne sformułowania, tak by lepiej trafiało w język orzeczeń. I tu wchodzi druga część: kto ma pisać reguły tego przepisywania.

Recenzja właściwa

Dlaczego w prawie litera bije sens

Wniosek „BM25 wygrywa" brzmi jak cofnięcie się o dekadę, dopóki nie zrozumie się, czemu prawo jest inne niż przeciętne wyszukiwanie. Tekst prawny żyje precyzją leksykalną. Sygnatura, nazwa instytucji, konkretny przepis, ustawowy termin, to nie są słowa, które wolno „zrozumieć z grubsza". Model gęsty, który mapuje „najem" i „dzierżawa" blisko siebie w przestrzeni znaczeń, bywa pomocny w wyszukiwarce zakupowej, a w prawie myli dwie różne instytucje. Dosłowne dopasowanie, które dla ogólnego wyszukiwania jest wadą, w prawie bywa zaletą.

To nie jest argument przeciw AI w wyszukiwaniu orzeczeń, tylko przeciw odruchowi, że skoro coś jest neuronowe, to musi być lepsze. W prawie ta intuicja zawodzi, bo dosłowność, którą ogólne wyszukiwanie traktuje jak balast, tutaj niesie treść.

Samo-ewolucja reguł, której nie trzeba trenować

Najciekawsza część pracy to nie sam BM25, tylko jak powstają reguły, które go wzmacniają. Pisanie dobrych reguł przepisywania zapytań wymaga wiedzy prawniczej, a naiwne generowanie ich przez model daje wyniki przeciętne. Autorzy rozwiązują to ramą samo-ewolucji: agent LLM dostaje automatyczne środowisko oceny i w pętli sam doskonali zbiór reguł, bez aktualizacji wag jakiegokolwiek modelu.

Mechanizm ma cztery kroki. Agent decyduje o działaniu, generuje nową regułę (analizując, które operacje dotąd poprawiały recall, a które zawiodły), planuje eksperyment walidacyjny na kombinacjach reguł (z zakazem powtarzania już sprawdzonych kombinacji) i eliminuje reguły nieskuteczne. Eliminacja jest celowo ostrożna: dwustopniowa, z mechanizmem self-consistency, żeby nie wyrzucić reguły, która pomaga tylko w części przypadków. Przykład reguły, dosłownie z pracy: „Rozszerzenie o synonimy i warianty terminologiczne: dla każdego kluczowego pojęcia prawnego dodaj jego synonimy, terminy pokrewne i warianty".

Dla prawnika kluczowe jest jedno zdanie autorów: takie reguły dają interpretowalność i kontrolowalność, szczególnie pożądane w domenie prawnej. To nie jest nieczytelny wektor wag, którego nie da się wyjaśnić. To lista reguł zapisanych językiem naturalnym, którą można przeczytać, zaakceptować, odrzucić i pokazać w audycie. Samo-modyfikacja AI, którą da się przeczytać regułę po regule, to dokładnie ten wzorzec, który opisywaliśmy przy SkillOpt: adaptacja w warstwie czytelnego tekstu, nie w nieprzejrzystych wagach.

Haczyk: przewaga zależy od mocnego modelu

Tu uczciwość wymaga przyhamowania entuzjazmu. Samo-ewolucja nie jest darmowym obiadem. Autorzy pokazują, że jej przewaga nad prostszymi metodami (regułami pisanymi przez człowieka, jednorazowym wygenerowaniem reguł przez model, zachłannym wyborem najlepszych) ujawnia się dopiero przy odpowiednio mocnym rdzeniu LLM (w ich eksperymencie gpt-oss-120b). Przy słabszych modelach zysk z samo-ewolucji topnieje. Co więcej, poprawy w liczbach bezwzględnych są umiarkowane, to nie jest skok o kilkadziesiąt punktów, tylko staranne wyciskanie kolejnych ułamków recall.

Dlaczego to ważne, a nie rozczarowujące. Bo precyzyjnie lokalizuje wartość. Headline tej pracy to nie „samo-ewolucja rozwiązuje wyszukiwanie", tylko dwie spokojniejsze prawdy: w prawie lexical matching wciąż wygrywa, a jeśli ulepszasz je automatycznie, opłaca się to tylko z mocnym modelem i tylko gdy mechanizm zostawia audytowalny ślad.

Kancelaria, która usłyszy od dostawcy „nasz agent sam się douczy i będzie lepszy", powinna zapytać o trzy rzeczy: na jakim modelu, o ile dokładnie, i czy zobaczę, co zmienił.

Czego recenzja nie rozstrzyga

Granice trzeba wymienić, tym bardziej że to preprint. Po pierwsze, jeden benchmark i jeden język. LeCaRD-v2 jest chiński, a chińskie i polskie orzecznictwo różnią się strukturą tekstu i terminologią; lekcja „BM25 bije dense" i wzorzec reguł są metodologicznie ogólne, ale konkretne liczby nie przenoszą się wprost. Po drugie, przewaga samo-ewolucji jest warunkowa (mocny core LLM) i umiarkowana co do skali. Po trzecie, jeden z ośrodków to wojskowa akademia nauk, co przy pracy czysto technicznej o wyszukiwaniu nie zmienia matematyki, ale odnotowujemy dla przejrzystości. Autorzy nie udają, że zbudowali uniwersalne rozwiązanie, i to akurat działa na korzyść wiarygodności reszty.

Co z tego wynika

Najmocniejszy wniosek jest metodyczny i przeżyje konkretne modele. Brzmi tak: w wyszukiwaniu prawniczym nowsze nie znaczy lepsze, a wartość narzędzia nie leży w tym, czy używa embeddingów, tylko czy faktycznie znajduje właściwe orzeczenie przy odcięciu, którego używasz, i czy potrafisz wyjaśnić, jak je znalazło.

Stąd trzy konsekwencje dla polskiej kancelarii. Czytam je przez naszą ramkę, to interpretacja MateMatic, nie stanowisko PUODO, NRA ani KRRP.

Pierwsza. Nie kupuj „wyszukiwania semantycznego" na wiarę. Mocny, tani i stary BM25 bywa lepszą bazą niż neuronowa wyszukiwarka, zwłaszcza na orzecznictwie, gdzie liczy się dosłowność. Kryterium zakupu to pomiar na twoim korpusie i twoich zapytaniach, przy odcięciu, którego naprawdę używasz, nie hasło „AI rozumie sens".

Druga. Jeśli ulepszasz wyszukiwanie regułami, żądaj reguł, które da się przeczytać. Lista jawnych reguł przepisywania zapytań jest audytowalna i kontrolowalna, embedding dotrenowany na danych nie. To różnica między narzędziem, które potrafisz wytłumaczyć w razie sporu, a takim, które musisz przyjąć na słowo. Czytelny ślad zmian spina się z obowiązkiem rejestrowania z art. 12 AI Act.

Trzecia. Training-free to także argument o danych. Rama, która poprawia wyszukiwanie bez trenowania modelu, nie wymaga karmienia sieci neuronowej aktami klientów. To wprost wspiera minimalizację danych z art. 5 RODO i logikę zero-cloud: wzmacniasz wyszukiwarkę regułami, nie kopiowaniem wrażliwego korpusu do procesu treningowego.

Dla kogo ten materiał. Dla każdego, kto buduje albo kupuje wyszukiwanie orzeczeń i chce wiedzieć, co naprawdę działa, a nie co lepiej brzmi. Dla compliance i osoby od AI Act, mapujących interpretowalność i ślad zmian na realny wymóg. Dla budujących własne narzędzia: to instrukcja, że reguły w czytelnym tekście bywają lepsze i bezpieczniejsze niż dotrenowany model.

Dla kogo nie. Dla nikogo, kto szuka potwierdzenia, że wystarczy włączyć „AI semantic search" i problem wyszukiwania znika. Praca mówi coś trudniejszego i użyteczniejszego: w prawie wygrywa precyzja, którą umiesz wyjaśnić.

Dla zarządu kancelarii w trzech zdaniach

Badanie pokazuje na benchmarku orzeczniczym, że klasyczny algorytm słów kluczowych BM25 konsekwentnie bije neuronowe wyszukiwarki, nawet dotrenowane na prawie (modele prawnicze tracą do 19 procent na Recall@50 i do 20,5 procent na Recall@100), więc „wyszukiwanie semantyczne" nie jest automatycznie lepsze w prawie. Zamiast wymieniać BM25 autorzy wzmacniają go regułami przepisywania zapytań, które agent LLM sam tworzy, testuje i odrzuca bez trenowania modelu, a reguły są zapisane czytelnym językiem, więc da się je zaudytować. Praktyczny wniosek: kupując wyszukiwanie AI żądaj pomiaru na własnym korpusie i reguł, które potrafisz przeczytać, bo interpretowalny ślad zmian jest zarazem lepszym narzędziem i dowodem należytej staranności pod art. 12 AI Act.

W wyszukiwaniu orzeczeń stary BM25 wciąż bije neuronowe wyszukiwanie. A reguły, które je ulepszają, da się przeczytać.

O czym jest ten materiał

Recenzja właściwa

Dlaczego w prawie litera bije sens

Samo-ewolucja reguł, której nie trzeba trenować

Haczyk: przewaga zależy od mocnego modelu

Czego recenzja nie rozstrzyga

Co z tego wynika