O czym jest ten dokument

OWASP GenAI Security Project to projekt OWASP Foundation. Trzech głównych autorów. Scott Clinton - Board Co-chair OWASP GenAI Security Project i jeden z dwóch co-founderów, odpowiada za strategię, operacje i marketing. Kyriakos "Rock" Lambros - Director of AI Standards and Governance w Zenity, firmie LegalTech-adjacent znanej z badań nad agentic AI security. Emmanuel Guilherme Junior - lead inicjatywy GenAI Data Security w OWASP.

Osiemnastu contributors to mix korporacyjny i konsultingowy - lead AI security researcherzy z Neuraltrust, security engineerzy z Tanium, SAP, ServiceNow, Cargill, architekci security z firm finansowych jak Société Générale, Donnelley Financial Solutions, plus konsultanci niezależni i vCISO. Pięciu reviewers w tym dwóch independent researcherów. Projekt finansowany przez listę kilkudziesięciu sponsorów obejmującą hyperscalerów (Microsoft, Google, AWS), dostawców cybersec (Palo Alto Networks, Snyk, Check Point, IBM, Cisco, Trellix), big four-adjacent (KPMG Germany), domeny finansowej (BBVA) i media (Comcast, Yahoo) - z polityką vendor-neutral i bez specjalnej governance dla sponsorów.

Dokument to v1.0 z marca 2026. Stanowi ewolucję wcześniejszego LLM and Gen AI Data Security Best Practices Guide z lutego 2025 - poprzedni materiał został rozbity na dwa dokumenty: enumeracja ryzyk i mitigacji (ten dokument, recenzowany) plus companion implementation guide (osobno).

Pozycjonowanie: dokument explicite nie zastępuje OWASP Top 10 dla LLM ani OWASP Data Security Top 10. To uzupełnienie - lens skoncentrowany na ryzykach data security specyficznych dla LLM, GenAI i Agentic AI applications. Mapping do OWASP Top 10 dla LLM i Agentic AI Top 10 jest explicite zachowany przez cross-references.

Licencja CC BY-SA 4.0 jest istotna operacyjnie. Wolno cytować, adaptować i przebudowywać komercyjnie, ale jest pułapka - share-alike znaczy że pochodne dzieła muszą być pod tą samą licencją. Recenzja MateMatic opiera się na prawie cytatu (art. 29 ustawy o prawie autorskim i prawach pokrewnych), co daje swobodę interpretacyjną niezależną od share-alike. Hosting oryginalnego PDF na matematic.co - bez modyfikacji, z atrybucją do OWASP GenAI Security Project i linkiem do licencji - mieści się w warunkach CC BY-SA 4.0.

Recenzja właściwa

Centralna teza architektoniczna - jeden namespace bez kontroli dostępu

Autorzy stawiają tezę, która powinna trafić do każdej polityki AI w kancelarii. Cytuję wprost. Context window agreguje dane z wielu domen zaufania - system prompt, user input, RAG results, tool outputs, conversation history - do jednego płaskiego namespace bez wewnętrznej kontroli dostępu. Chunk RAG retrieved z poufnej bazy HR siedzi obok user inputu z taką samą wagą zaufania. Nie istnieje dziś mechanizm, który by oznaczył segment kontekstu jako "dostępny dla rozumowania, ale nie dla bezpośredniego output" albo "użyteczny dla decyzji, ale nie do przekazania innemu agentowi".

Konsekwencja - GenAI security musi przyjąć zero inherent trust w model. Model może zarazem leaknąć, regurgitate albo zrekonstruować dane przez memoryzację, inwersję albo output. Te trzy mechanizmy są wprost wymienione. Polski compliance officer dostaje formalnie sformułowaną podstawę, dlaczego DPIA dla narzędzia AI musi traktować model jako untrusted intermediary, niezależnie od tego, co mówi dostawca w karcie produktu.

21 ryzyk DSGAI - dlaczego nie 10

Dokument enumeruje 21 ryzyk DSGAI01-DSGAI21. Decyzja autorów - nie ograniczać do umownej dziesiątki - jest motywowana scope. To nie ranking top, to enumeracja domenowa data security w GenAI. Ryzyka pogrupowane operacyjnie:

Klaster Ryzyka Co pokrywa
Direct exposureDSGAI01, DSGAI02, DSGAI03Leakage modelu i RAG, NHI credentials, Shadow AI
Pipeline integrityDSGAI04, DSGAI05, DSGAI06Poisoning, validation, tool/plugin/agent exchange
Governance fundamentalsDSGAI07, DSGAI08Lifecycle classification, compliance violations
GenAI-specific attack surfacesDSGAI09-DSGAI13Multimodal, synthetic data, conversation bleed, LLM-to-SQL, vector store
Operational infrastructureDSGAI14-DSGAI17Telemetry, context windows, endpoint overreach, availability
Model as artifactDSGAI18-DSGAI21Inference reconstruction, labeler overexposure, exfiltration, disinformation

Każde ryzyko ma sześcioelementową strukturę - jak atak się rozwija, capabilities napastnika, scenariusz ilustracyjny, impact, mitigations w trzech tierach (foundational/hardening/advanced) z anotacją scope (Buy/Build/Both) plus lista CVE.

Tierowanie mitigations to crawl/walk/run. Tier 1 - można shipnąć w jednym sprincie z istniejącym tooling. Tier 2 - wymaga zmian architektonicznych, nowych narzędzi, koordynacji między zespołami. Tier 3 - zakłada dojrzały program, red teaming, differential privacy, formal verification, custom detection models. Dla polskiej kancelarii to mapa drogowa - większość zespołów zaczyna od Tier 1, dochodzi do Tier 2 w roku-dwóch, Tier 3 to perspektywa dużej kancelarii z dedykowanym zespołem LegalTech-security.

Framework AI-DSPM - 13 kapabilities

AI-DSPM (Data Security Posture Management dla GenAI) jest framework rozbudowanym przez autorów. Trzynaście kapabilities w trzech grupach.

Traditional DSPM extended (1-4): GenAI data asset discovery & inventory; classification, labeling & policy binding; data flow mapping, lineage & "GenAI bill of materials" (DBOM); access governance & entitlement posture (RBAC/ABAC plus Just-in-Time Data Access plus per-agent identity).

GenAI specific (5-13): prompt/RAG/output-layer DLP; vector store & embedding security posture; data integrity, poisoning & tamper detection; observability, telemetry & log-retention posture; third-party, plugin/tool & connector governance; lifecycle management, erasure & compliance readiness; training governance & privacy-enhancing fine-tuning; resilience posture for GenAI data dependencies; human i shadow AI controls.

Kapabilita 11 (training governance & privacy-enhancing fine-tuning) wprowadza pojęcie "Hard De-identification" plus zastosowanie Differential Privacy (DP-SGD) i federated learning dla wrażliwych grup. Kapabilita 4 wprowadza Just-in-Time Data Access dla agentów - zamiast permanent credentials, agent dostaje token tylko dla konkretnego zadania, ze scope i TTL baked-in, revoked on completion. Te dwa elementy to bezpośredni operacyjny szablon dla wdrożenia AI w kancelarii zgodnego z RODO art. 32 (środki techniczne adekwatne do ryzyka).

Konkretne CVE i znane exfil paths

Konkretne CVE wymienione z numerami, tytułami i okresem publikacji - od najstarszego do najnowszego, co daje czytelnikowi obraz akumulacji incydentów w ostatnich osiemnastu miesiącach.

CVE Rok System Co
CVE-2024-51842024EmailGPTPrompt injection do system-prompt disclosure
CVE-2025-327112025Microsoft 365 CopilotInformation Disclosure
CVE-2025-547942025Claude AIPrompt Injection ("The Jailbreak That Talked Back")
CVE-2026-06122026The LibrarianInformation leakage przez web_fetch tool
CVE-2026-227082026CursorTerminal Tool Allowlist Bypass via Environment Variables

Pięć CVE rozłożonych na trzy lata - co nie jest historią, to ciągle aktywny pipeline luk w narzędziach najczęściej używanych w workflow kancelarii (Microsoft 365, Claude, Cursor). Plus confirmed exfil paths zidentyfikowane w 2025 przeciwko Microsoft Copilot, Google Gemini, Sourcegraph Amp i VS Code Continue. Mechanizm - markdown image rendering do external URLs i tool callbacks bez allowlist. Mitigation - blokuj markdown image rendering, sanitize tool callback targets, disable API-redirect channels w LLM output rendering.

Dla polskiej kancelarii to wprost. Każda kancelaria, która wdraża Microsoft 365 Copilot albo asystenta Claude w workflow obsługującym dane klientów, dostaje konkretną listę kontrolek do dokumentacji art. 32 RODO i dokumentacji zgodności z art. 9 EU AI Act (interpretacja MateMatic, nie stanowisko NRA ani KRRP).

Czego autorzy nie powiedzieli, a co musi powiedzieć polski compliance

Materiał OWASP jest US-centric w warstwie compliance. Cytuje GDPR/HIPAA/CCPA, ale nie schodzi w polski porządek prawny ani w europejski AI Act enforcement. Cztery białe plamy do wypełnienia przez polskiego compliance officera.

Pierwsza linia. Mapping DSGAI01 (Sensitive Data Leakage) na tajemnicę zawodową adwokacką i radcowską. Art. 6 prawa o adwokaturze i art. 6 ustawy o radcach prawnych stawiają wyższy standard niż RODO. Tajemnica zawodowa jest bezterminowa, nie podlega zwolnieniu przez klienta jednostronnie, a sąd może zwolnić wyłącznie w wyjątkowych przypadkach. Leakage przez model fine-tuned na sprawach klienta - nawet przypadkowy - to potencjalne naruszenie tajemnicy zawodowej, niezależnie od konsekwencji RODO. Tier 3 mitigation OWASP - Verifiable Erasure (cryptographic erasure, machine unlearning) - staje się dla polskiej kancelarii nie luksusem, tylko wymaganym standardem dochowania tajemnicy zawodowej, zwłaszcza w obliczu DSR (Data Subject Rights) klienta-osoby fizycznej (interpretacja MateMatic, nie stanowisko NRA ani KRRP).

Druga linia. DSGAI03 (Shadow AI) i ustawowa odpowiedzialność partnera zarządzającego. Associate, który korzysta z ChatGPT z prywatnego konta podczas analizy umowy klienta, generuje wprost ryzyko DSGAI03 - unsanctioned data flow. Kancelaria jako administrator danych odpowiada za środki organizacyjne (art. 32 RODO), partner zarządzający za nadzór. Polskie organy NRA i KRRP nie wydały dotąd wytycznych operacyjnych pod kątem Shadow AI. OWASP daje gotową listę kontrolek detective i preventive. Polski warsztat z policy AI w kancelarii powinien adresować Shadow AI jako pierwszy temat polityki, nie ostatni.

Trzecia linia. DSGAI11 (Cross-Context & Multi-User Conversation Bleed) i konflikt interesów. Cross-context bleed w modelu używanym do obsługi dwóch klientów z konkurencyjnymi interesami - nawet jeśli formalnie nie ma technicznej eksfiltracji - może naruszyć obowiązek bezstronności adwokackiej. Per-user/per-task memory isolation z mitigacji Tier 2 OWASP staje się dla kancelarii nie hardening, tylko fundamentem zgodności z etyką zawodu.

Czwarta linia. DSGAI16 (Endpoint & Browser Assistant Overreach) i Microsoft 365 Copilot w polskiej kancelarii. Kancelarie używające M365 z Copilotem mają w workspace asystenta z bardzo szerokim scope - dostęp do całej skrzynki mailowej, OneDrive, SharePoint, Teams, czasem do CRM. CVE-2025-32711 (M365 Copilot Information Disclosure) jest konkretnym przypadkiem. Mitigation Tier 1 OWASP - data minimization plus scope restriction - dla polskiej kancelarii powinno znaczyć segregację skrzynek (sprawy klientów wrażliwych poza scope Copilota) i jasną politykę kiedy assistant ma dostęp do akt klienta a kiedy nie.

Słabsze strony dokumentu

Trzy zarzuty uczciwie.

Pierwszy - mapping na compliance europejski jest słaby. Cytowanie GDPR pojawia się głównie w warstwie impact ("regulatory exposure"), bez schodzenia w konkrety art. 6, 9, 22, 32, 35. EU AI Act wspomniany w DSGAI08 i DSGAI21 ale bez identyfikacji konkretnych obowiązków deployerów art. 26 ani providerów art. 16. Polski compliance musi sam zrobić to mapping.

Drugi - inkonsystencja numeracji. We wstępie i w DSGAI21 są odniesienia do DSGAI24 i DSGAI25, których nie ma w spisie treści (dokument zawiera DSGAI01-21). Najprawdopodobniej ślad po wcześniejszych draftach, gdzie były dodatkowe ryzyka, które autorzy zwinęli w ramach editorial consolidation (notki o konsolidacji są w samym dokumencie). Drobiazg, ale dla czytelnika robiącego mapping ryzyk po identyfikatorach to zgrzyt do wyłapania ręcznie.

Trzeci - większość ilustracyjnych scenariuszy operuje na przykładach amerykańskich (customer support chatbot ze SSN, ticket fine-tuning, support documentation). Brakuje scenariuszy z domeny finansowej, medycznej, prawniczej, gdzie regulacja jest tłustsza niż w consumer-grade SaaS. Dla polskiej kancelarii to znaczy, że trzeba samodzielnie zbudować analogiczne scenariusze - assistant w outlooku partner-associate, RAG na bazie KRS, fine-tuning na zanonimizowanych orzeczeniach, DMS z agentem do automatycznej klasyfikacji pism.

Co z tego wynika

OWASP GenAI Data Security 2026 jest pierwszą publikacją, która daje polskiej kancelarii operacyjną mapę data security w GenAI w jednym dokumencie. Centralna teza architektoniczna - context window jako flat namespace bez kontroli dostępu - powinna trafić do każdej polityki AI jako założenie startowe. 21 ryzyk DSGAI z tiered mitigations daje konkretną listę kontrolek mapowalnych na art. 32 RODO i art. 9 EU AI Act. Framework AI-DSPM z trzynastoma kapabilities to gotowy szablon governance dla compliance officera. Konkretne CVE i confirmed exfil paths w Microsoft Copilot, Google Gemini, Cursor, Claude robi z dokumentu narzędzie audytowe - nie tylko teoretyczny framework, ale operacyjny baseline do oceny używanych narzędzi.

Materiał jest do przeczytania przez compliance officera kancelarii albo szefa LegalTech, nie przez zarząd. Zarząd dostaje sześciostronicowy executive summary z pierwszych trzech sekcji (Document Scope, What is Data Security in GenAI Context, AI-DSPM) plus mapa 21 ryzyk z tabelą priorytetów dla kancelarii.

Dla compliance officera w trzech zdaniach

OWASP daje pierwszą operacyjną mapę data security w GenAI - 21 ryzyk DSGAI z tiered mitigations (crawl/walk/run) plus framework AI-DSPM z trzynastoma kapabilities, plus konkretne CVE w Microsoft 365 Copilot, Cursor i Claude jako baseline audytowy. Centralna teza architektoniczna do polityki AI kancelarii: context window agreguje dane z różnych domen zaufania do flat namespace bez kontroli dostępu, więc model musi być traktowany jako untrusted intermediary niezależnie od deklaracji dostawcy. Cztery białe plamy do wypełnienia przez polskiego compliance: mapping DSGAI01 na tajemnicę zawodową, DSGAI03 Shadow AI jako pierwszy temat polityki, DSGAI11 cross-context bleed jako fundament etyki, DSGAI16 endpoint overreach jako konkretna kontrolka dla M365 Copilot (interpretacja MateMatic, nie stanowisko NRA ani KRRP).