LLM poisoning (zatruwanie AI)

LLM poisoning - zatrucie modelu językowego; technika ataku lub niezamierzonego wpływu polegająca na celowym wprowadzaniu do danych treningowych lub mechanizmów uczenia dużych modeli językowych (LLM) treści złośliwych, stronniczych lub fałszywych, w celu trwałego zniekształcenia zachowania modelu, jego odpowiedzi, preferencji lub decyzji, często w sposób trudny do wykrycia po zakończeniu treningu.

Modele językowe (Large Language Models lub po prostu LLMs) weszły do naszego życia na dobre, stając się integralną częścią globalnej infrastruktury cyfrowej. Im bardziej polegamy na tej technologii, tym ciekawsi stają się dla manipulatorów. I tu wkracza LLM poisoning, czyli obecnie jedno z najpoważniejszych zagrożeń dla AI security, bo celuje prosto w fundament, czyli integralność training data. To wyrafinowana technika, w której napastnik wstrzykuje złośliwe próbki do zbiorów używanych do pre-treningu, fine-tuningu, albo po prostu do zewnętrznych data sources (na przykład w systemach RAG), żeby w ukryty i trwały sposób zmienić zachowanie modelu.

To nie jest atak tymczasowy. Poisoning jest trwały, co oznacza, że intruz wprowadza backdoory, biasy albo celowo degraduje model, a w efekcie końcowy system AI zwraca szkodliwe lub błędne odpowiedzi.

Co to jest LLM poisoning i dlaczego jest trwałe?

LLM poisoning jest atakiem adwersarialnym, w którym ktoś manipuluje danymi treningowymi tak, żeby wprowadzić w model ukryte luki. Jak to działa? Chodzi o wstrzykiwanie małych, ale strategicznie dobranych złośliwych próbek do danych treningowych.

Trwałość tego ataku wynika z prostej zasady: zmienia on wagi modelu na stałe. Jeśli poisoned data zostanie użyta już w fazie pre-treningu czy fine-tuningu, skutki zatrucia pozostaną niezmienne, nawet po wdrożeniu modelu do środowiska produkcyjnego. To oznacza, że złośliwe zachowanie może być aktywowane przez konkretne frazy, bez względu na to, jak zaawansowane systemy guardrailowe wdrożysz później.

Badania wykazały, jak minimalne proporcje próbek są wystarczające do osiągnięcia sukcesu. Pomyśl tylko: żeby „zatruć” (poison a model) o rozmiarze od 600 milionów do 13 miliardów parametrów, poisoning attacks on LLMs wymagają stałej liczby złośliwych dokumentów – wystarczy raptem 250. W skali tak ogromnego zbioru danych (jak słynny Pile), to zaledwie 0,00016% tokenów. Ta skuteczność podkreśla, że liczba próbek jest ważniejsza niż ich procentowy udział w całości danych treningowych.

LLM poisoning vs. ataki adversarialne i jailbreaking

Żeby w pełni zrozumieć zagrożenie LLM poisoning, musisz spojrzeć na różnicę czasową. Te ataki stanowią atak na integralność danych (integrity attack) i trzeba je wyraźnie odróżnić od technik inferencyjnych.

Oto zestawienie kluczowych różnic:

LLM Poisoning – mechanizm ataku polega na manipulacji danymi treningowymi. Czas realizacji przypada na fazę treningu lub aktualizacji danych. Efekt jest trwały, ponieważ zmienia wagi modelu na stałe.
Adversarial Attacks – atak polega na dodaniu niezauważalnych perturbacji do wejścia (promptu) w czasie inferencji. Atak ma charakter tymczasowy i działa tylko na konkretne wejście.
Model Jailbreaking – wykorzystuje techniki promptów (na przykład role-playing) do omijania zabezpieczeń w czasie inferencji. Efekt jest tymczasowy i stosunkowo łatwo zablokować go, ulepszając guardraile.

Z perspektywy AI security, poisoning jest atakiem o największej głębokości – wymaga dostępu do pipeline’u danych treningowych, ale jego konsekwencje są najtrudniejsze do zniwelowania.

Techniki data poisoning: Clean-label i wstrzykiwanie backdoorów

Główne wektory data poisoning w przypadku LLM dzielą się na dwie grupy: te łatwe do wdrożenia (i łatwiejsze do wykrycia) i te, które są cholernie trudne do zidentyfikowania.

Clean-label poisoning:To technika, w której atakujący wstrzykuje złośliwe dane bez zmiany etykiet. W rezultacie poisoned data wygląda naturalnie, na przykład jako fałszywy artykuł medyczny zawierający dezinformację. Model uczy się błędnych skojarzeń w sposób subtelny. Ten wariant jest niezwykle skuteczny – nawet 0,001% zatrutych tokenów wystarczy do manipulacji odpowiedziami (na przykład, jeśli chodzi o szkodliwe treści medyczne w dużych zbiorach, takich jak The Pile). Z tego powodu clean-label poisoning jest najtrudniejsze do wykrycia.
Dirty-label poisoning:Polega na jawnej manipulacji etykietami danych, na przykład na inwersji labeli sentymentu. Choć prowadzi do degradacji modelu, jest znacznie łatwiejsze do wykrycia i filtrowania niż metody clean-label.
Backdoor implantation z triggerami:Atakujący wstrzykują „triggery” (frazy lub słowa-klucze), które aktywują ukryte, złośliwe zachowanie. Atak działa na skalę modelu i generalizuje na nowe, podobne triggery. Ta metoda działa skutecznie nie tylko w pre-treningu, ale także w fazach fine-tuningu, takich jak RLHF, gdzie wystarczy 3–5% poisoned data.

Dlaczego Large Language Models są szczególnie podatne na złośliwe dane?

Czemu LLMs są tak podatne na data poisoning? Głównie przez swoją skalę i to, skąd bierzemy dane do ich karmienia. Trening odbywa się na masywnych, często niefiltrowanych zbiorach danych pozyskanych ze źródeł zewnętrznych, na przykład przez web scraping. Im więcej danych masz, tym większa jest powierzchnia ataku.

Co więcej, nowsze architektury, takie jak RAG (Retrieval-Augmented Generation), stają się nowym wektorem ataku. W systemach RAG poisoning może nastąpić nie tylko na poziomie początkowego treningu, ale również poprzez manipulację zewnętrznymi, wektoryzowanymi data sources, z których model pobiera informacje.

A co najważniejsze – badania nad LLM poisoning pokazują, że duża skala modeli AI wcale nie czyni ich automatycznie odpornymi. Jak już mówiłem, liczba wymaganych próbek trucizny pozostaje stała, niezależnie od rozmiaru modelu. To fundamentalne wyzwanie dla obronności w całym LLM lifecycle.

Strategie mitigacji i rola walidacji training data

Skuteczna ochrona przed LLM poisoning wymaga podejścia wieloetapowego, skupiającego się na utrzymaniu integralności training data na każdym kroku.

Główne strategie obronne w AI security obejmują:

Walidacja danych źródłowych – trzeba wprowadzić zaawansowane filtry i audyty na wszystkich data sources, zarówno tych używanych do pre-treningu, jak i w fazie fine-tuningu.
Uziemianie RAG – w systemach RAG należy stosować mechanizmy uziemiające (grounding), które weryfikują wiarygodność zewnętrznych źródeł danych.
Monitorowanie treningu – ciągłe monitorowanie procesu uczenia maszynowego (na przykład analiza gradientów) może pomóc we wczesnym wykryciu nietypowego zachowania w czasie wprowadzania danych do training pipeline.
Wykorzystanie narzędzi badawczych – badania (na przykład projekt PoisonBench) stanowią podstawę do tworzenia lepszych mechanizmów detekcji, które będą w stanie odróżnić złośliwe dane, które zostały celowo ukryte jako clean-label.

Wieczna skaza AI

LLM poisoning to długoterminowe zagrożenie, które wykracza poza standardowe obawy dotyczące cyberbezpieczeństwa. Jest to cichy atak, którego celem jest zmiana natury samej inteligencji. Ponieważ poisoning i jego skutki są trwałe i ukryte głęboko w modelu, wymaga to od twórców AI i specjalistów ds. security fundamentalnej zmiany podejścia – od ochrony infrastruktury do walidacji każdego bitu danych użytego do karmienia systemów AI. Integralne bezpieczeństwo systemów AI zależy od czystości ich training data.

Dominik Fajferek

Head of SEO w SEM House & Konsultant SEO. Specjalizuję się w data-driven SEO, zarządzając budżetami SEO dla wiodących polskich marek.