LLM poisoning - zatrucie modelu językowego; technika ataku lub niezamierzonego wpływu polegająca na celowym wprowadzaniu do danych treningowych lub mechanizmów uczenia dużych modeli językowych (LLM) treści złośliwych, stronniczych lub fałszywych, w celu trwałego zniekształcenia zachowania modelu, jego odpowiedzi, preferencji lub decyzji, często w sposób trudny do wykrycia po zakończeniu treningu.
Modele językowe (Large Language Models lub po prostu LLMs) weszły do naszego życia na dobre, stając się integralną częścią globalnej infrastruktury cyfrowej. Im bardziej polegamy na tej technologii, tym ciekawsi stają się dla manipulatorów. I tu wkracza LLM poisoning, czyli obecnie jedno z najpoważniejszych zagrożeń dla AI security, bo celuje prosto w fundament, czyli integralność training data. To wyrafinowana technika, w której napastnik wstrzykuje złośliwe próbki do zbiorów używanych do pre-treningu, fine-tuningu, albo po prostu do zewnętrznych data sources (na przykład w systemach RAG), żeby w ukryty i trwały sposób zmienić zachowanie modelu.
To nie jest atak tymczasowy. Poisoning jest trwały, co oznacza, że intruz wprowadza backdoory, biasy albo celowo degraduje model, a w efekcie końcowy system AI zwraca szkodliwe lub błędne odpowiedzi.
LLM poisoning jest atakiem adwersarialnym, w którym ktoś manipuluje danymi treningowymi tak, żeby wprowadzić w model ukryte luki. Jak to działa? Chodzi o wstrzykiwanie małych, ale strategicznie dobranych złośliwych próbek do danych treningowych.
Trwałość tego ataku wynika z prostej zasady: zmienia on wagi modelu na stałe. Jeśli poisoned data zostanie użyta już w fazie pre-treningu czy fine-tuningu, skutki zatrucia pozostaną niezmienne, nawet po wdrożeniu modelu do środowiska produkcyjnego. To oznacza, że złośliwe zachowanie może być aktywowane przez konkretne frazy, bez względu na to, jak zaawansowane systemy guardrailowe wdrożysz później.
Badania wykazały, jak minimalne proporcje próbek są wystarczające do osiągnięcia sukcesu. Pomyśl tylko: żeby „zatruć” (poison a model) o rozmiarze od 600 milionów do 13 miliardów parametrów, poisoning attacks on LLMs wymagają stałej liczby złośliwych dokumentów – wystarczy raptem 250. W skali tak ogromnego zbioru danych (jak słynny Pile), to zaledwie 0,00016% tokenów. Ta skuteczność podkreśla, że liczba próbek jest ważniejsza niż ich procentowy udział w całości danych treningowych.
Żeby w pełni zrozumieć zagrożenie LLM poisoning, musisz spojrzeć na różnicę czasową. Te ataki stanowią atak na integralność danych (integrity attack) i trzeba je wyraźnie odróżnić od technik inferencyjnych.
Oto zestawienie kluczowych różnic:
Z perspektywy AI security, poisoning jest atakiem o największej głębokości – wymaga dostępu do pipeline’u danych treningowych, ale jego konsekwencje są najtrudniejsze do zniwelowania.
Główne wektory data poisoning w przypadku LLM dzielą się na dwie grupy: te łatwe do wdrożenia (i łatwiejsze do wykrycia) i te, które są cholernie trudne do zidentyfikowania.
Czemu LLMs są tak podatne na data poisoning? Głównie przez swoją skalę i to, skąd bierzemy dane do ich karmienia. Trening odbywa się na masywnych, często niefiltrowanych zbiorach danych pozyskanych ze źródeł zewnętrznych, na przykład przez web scraping. Im więcej danych masz, tym większa jest powierzchnia ataku.
Co więcej, nowsze architektury, takie jak RAG (Retrieval-Augmented Generation), stają się nowym wektorem ataku. W systemach RAG poisoning może nastąpić nie tylko na poziomie początkowego treningu, ale również poprzez manipulację zewnętrznymi, wektoryzowanymi data sources, z których model pobiera informacje.
A co najważniejsze – badania nad LLM poisoning pokazują, że duża skala modeli AI wcale nie czyni ich automatycznie odpornymi. Jak już mówiłem, liczba wymaganych próbek trucizny pozostaje stała, niezależnie od rozmiaru modelu. To fundamentalne wyzwanie dla obronności w całym LLM lifecycle.
Skuteczna ochrona przed LLM poisoning wymaga podejścia wieloetapowego, skupiającego się na utrzymaniu integralności training data na każdym kroku.
Główne strategie obronne w AI security obejmują:
LLM poisoning to długoterminowe zagrożenie, które wykracza poza standardowe obawy dotyczące cyberbezpieczeństwa. Jest to cichy atak, którego celem jest zmiana natury samej inteligencji. Ponieważ poisoning i jego skutki są trwałe i ukryte głęboko w modelu, wymaga to od twórców AI i specjalistów ds. security fundamentalnej zmiany podejścia – od ochrony infrastruktury do walidacji każdego bitu danych użytego do karmienia systemów AI. Integralne bezpieczeństwo systemów AI zależy od czystości ich training data.