Czym Magika jest, a czym nie jest

Magika to klasyfikator typu zawartości pliku (content type detection). Czyta pierwsze bajty pliku - nie cały plik, niezależnie od rozmiaru - i mówi z prawdopodobieństwem: ten plik to PDF, ten plik to PowerShell script, ten plik to obraz JPEG, ten plik to plik wykonywalny ELF. Nie ufa rozszerzeniu w nazwie. Plik umowa.pdf, który w środku jest .exe z wstrzykniętym malware - Magika powie wprost: "to nie jest PDF".

Co Magika nie robi: nie skanuje pliku pod kątem złośliwego kodu, nie zastępuje antywirusa, nie zastępuje EDR, nie wykryje exploit'a w prawdziwym PDF z wstrzykniętym JavaScript. Należy do warstwy "weryfikacja typu zawartości", nie "detekcja zachowania". To rozróżnienie ma znaczenie - kilka mediów branżowych w ostatnich dniach skróciło Magikę do "1 MB AI malware detector", co jest klikbajtem i wprowadzaniem w błąd.

Rozmiar modelu
~1 MB
Inferencja
5 ms / plik (CPU)
Typy plików
200+
Accuracy
~99% (P/R)
Zbiór treningowy
~100 mln plików
Licencja
Apache 2.0

Bindings: Rust CLI, Python (pip install magika), JavaScript/TypeScript (npm), Go. Inferencja konstantnie szybka niezależnie od rozmiaru pliku - Magika analizuje wybrany podzbiór bajtów, nie całość. System progowy per typ - Magika może odpowiedzieć "nie wiem" zamiast zgadywać, z trzema poziomami pewności (high-confidence, medium-confidence, best-guess).

Trzy use case'y dla kancelarii

Use case 1

Filtr przy bramie pocztowej kancelarii

Klient wysyła "umowa.pdf" jako załącznik. Skrypt z Magiką sprawdza, czy plik to rzeczywiście PDF. Jeśli wykryje typ rozbieżny z rozszerzeniem - flaguje wiadomość do ręcznego sprawdzenia, zanim trafi do skrzynki pełnomocnika prowadzącego sprawę. To jest standardowy, dokumentowalny element środków technicznych adekwatnych do ryzyka z RODO art. 32.

Use case 2

Pre-processing przed indeksowaniem do DMS

Kancelaria zrzuca skany do folderu, asystent uruchamia magika -r na całym katalogu. Plik "skan_orzeczenia.tiff", który jest faktycznie czymś innym, zostaje wyciągnięty z pipeline'u przed indeksowaniem. Higiena DMS to nie luksus - to baza dla każdej dalszej automatyzacji AI nad treścią kancelarii.

Use case 3

Audyt cudzego dysku przy due diligence

Kancelaria robi due diligence digital assets klienta przed transakcją M&A. Folder na dysku ma 50 tysięcy plików o nieoczywistej strukturze rozszerzeń. Magika na lokalnym CPU klasyfikuje wszystko w godzinę. Zamiast otwierać każdy plik ręcznie, dostajemy raport: tyle PDF, tyle obrazów, tyle binariów, tyle skryptów, tyle plików o niezgodnym z rozszerzeniem typie. Pierwsza warstwa data room intelligence.

Mapping na ramy compliance

Magika sama w sobie nie jest narzędziem compliance, ale jako element warstwy weryfikacji plików dokumentowalnie wspiera trzy obszary, które kancelaria i tak musi obsłużyć:

  • RODO art. 32 - obowiązek wdrożenia środków technicznych i organizacyjnych odpowiednich do ryzyka. Zautomatyzowana, logowana weryfikacja typu pliku przy wejściu do systemu kancelarii to jest właśnie taki środek - tani, sprawdzony (Google używa wewnętrznie), open source, bez wysyłania czegokolwiek do third-party.
  • NIS2 (dyrektywa 2022/2555, polska ustawa wdrażająca w toku prac) - jeśli kancelaria świadczy usługi dla podmiotów objętych dyrektywą, musi mieć udokumentowane procedury identyfikacji zagrożeń. Magika jako element pipeline'u to konkretny artefakt do zaprezentowania w audycie.
  • ENISA Multilayer Framework for Good Cybersecurity Practices for AI i zasada security by design - weryfikacja typu zawartości to klasyczny element warstwy input validation w architekturze bezpieczeństwa.

Dlaczego to wpisuje się w nasz wzorzec

Magika trafia w trzy rzeczy, które MateMatic konsekwentnie powtarza polskim kancelariom: open source (Apache 2.0, kod otwarty, audytowalny), lokalna inferencja (zero ekspozycji RODO - plik nie opuszcza infrastruktury kancelarii), vendor-agnostic (nie kupujesz subskrypcji enterprise EDR za 200 zł od stanowiska, instalujesz pip install magika i piszesz 30-linijkowy skrypt). To nie jest pełen stack security - to jeden element, który warto mieć, bo jest tani, sprawdzony i kompetentnie napisany.

Z naszej praktyki: w 8 z 10 polskich kancelarii, z którymi rozmawialiśmy w pierwszym kwartale 2026, weryfikacja typu pliku przy wejściu do systemu sprowadza się do zaufania rozszerzeniu w nazwie. To jest luka, którą Magika zamyka za zero złotych licencji.

Co MateMatic może wnieść

Jeśli kancelaria chce wdrożyć Magikę w realnej infrastrukturze (Workspace, lokalny mailserver, NAS, DMS), MateMatic chętnie pokaże w warsztacie security konkretne wpięcie: skrypt monitorujący folder załączników, polityka logowania, integracja z istniejącym workflow asystentów. To wpisuje się w nasz wzorzec vendor-agnostic edukator - nie sprzedajemy Magiki, uczymy z niej korzystać.

Detektor typu pliku to nie cały security. Ale to jest element, który polskim kancelariom najczęściej brakuje - i Magika domyka tę lukę za zero złotych licencji, lokalnie, w 30 linijkach kodu.

Sprawdź repo i dokumentację

Magika - open source, Apache 2.0, lokalna inferencja.

Repo Google na GitHubie z Rust CLI, Python, JavaScript i Go bindings. Web demo działa lokalnie w przeglądarce - bez instalacji.