18 maja 2023

Rola uczenia maszynowego w cyberbezpieczeństwie

Chociaż termin AI (sztuczna inteligencja) jest obecnie szeroko stosowany, jego użycie czasami pozostaje niejasne lub niedokładne. Minsky i McCarthy, pionierzy w tej dziedzinie, opisali sztuczną inteligencję jako "każde zadanie wykonywane przez maszynę, które wymagałoby inteligencji od człowieka, gdyby miał je wykonać". Obecnie sztuczna inteligencja wykorzystuje techniki uczenia maszynowego i uczenia głębokiego. Aktualnie to bardzo złożona dziedzina, zwłaszcza jeśli weźmie się pod uwagę, że częścią sztucznej inteligencji są m.in. silniki reguł lub stare metody statystyczne wnioskowania, takie jak regresje liniowe. W czasach, gdy sztuczna inteligencja jest jednym z elementów rozwiązań cyberbezpieczeństwa, konieczne stało się poznanie jej roli i specyfiki. Aby lepiej zrozumieć temat, zadaliśmy kilka pytań czterem inżynierom firmy Gatewatcher: Philippe'a, Aubina, Jérôme'a i Hugo.

INTEGRACJA SZTUCZNEJ INTELIGENCJI W CYBERBEZPIECZEŃSTWIE

Kiedy po raz pierwszy zintegrowano AI z rozwiązaniami cyberbezpieczeństwa?

Miało to miejsce około dziesięć lat temu, ale tylko w określonych obszarach, takich jak wykrywanie oszustw lub identyfikacja spamu. Jednak w ciągu ostatnich trzech/czterech lat obserwujemy silny wzrost wykorzystania sztucznej inteligencji w rozwiązaniach cyberbezpieczeństwa. Spowodowane jest to rozwojem uczenia maszynowego, uczenia głębokiego i innych.

Jakie są obszary działania AI i ich różnice?

Uczenie maszynowe to najszybciej rozwijająca się gałęzią AI, a także tą, która jest często mylona z samą sztuczną inteligencją. Jej pierwsze zastosowania sięgają lat 50. XX wieku. W ciągu ostatnich 15 lat dziedzina ta przeżyła silne ożywienie, dzięki wzrostowi mocy obliczeniowej i możliwości korzystania z dużej ilości dostępnych danych (Big Data). Z technicznego punktu widzenia uczenie maszynowe to technologia oparta na statystyce, która pozwala systemom "uczyć się" autonomicznie na podstawie danych, bez wcześniejszego zaprogramowania ich do tego uczenia. Zamiast ręcznie formalizować reguły, model wyedukuje je z danych.

Sama dziedzina dzieli się na kilka rodzin, z których najważniejsze to:

Uczenie nadzorowane, które wykorzystuje wstępnie sklasyfikowane dane do szkolenia, aby przewidzieć klasę nowych danych. W cyberbezpieczeństwie polega to na wykorzystaniu "zapisów" przeszłych ataków, w celu identyfikacji podobnych przyszłych ataków. Do zalet uczenia nadzorowanego możemy zaliczyć to, że gałąź ta jest dość dojrzała, a algorytmy działają dobrze w rozsądnych czasach obliczeniowych. Jednak wymaga on uzyskania uszeregowanych zbiorów danych do treningu, co często jest czasochłonne lub kosztowne. Ponadto nie pozwala wykryć klas nie występujących w zbiorze treningowym.
Uczenie bez nadzoru wykorzystuje dane nieoznakowane i/lub dane, których klasy nie są znane. Dane są grupowane w klastry, które są jednorodnymi grupami danych zgodnie z dostępnymi atrybutami. Przykładem jej wykorzystania jest wykrywanie anomalii. Plusem jest to, że nie ma etykietowania danych, co sprawia, że ma szersze zastosowanie. Dodatkowo pozwala na identyfikację nowych trendów lub klas. Niemniej jednak algorytmy potrzebują dużo czasu na przetwarzanie, a wyniki często są skomplikowane do interpretacji. Często potrzebna jest dogłębna analiza, która wymaga dużej mocy obliczeniowej.
Uczenie częściowo nadzorowane jest stosowane w przypadku danych częściowo oznakowanych lub danych, dla których podejrzewa się, że wkrótce pojawią się nowe klasy. Metody te mają na celu określenie podstawowego rozkładu danych treningowych poprzez wykrywanie zmian w momencie pojawienia się nowych danych. Ta klasa jest szczególnie przydatna do wykrywania anomalii lub diagnostyki. Jest stosunkowo łatwa w implementacji i nie wymaga wyczerpującego etykietowania. Minusem jest jednak, że nie toleruje błędów w początkowych etykietach, a obszary zastosowania są ograniczone.
Uczenie głębokie to rodzina algorytmów uczenia maszynowego, obejmująca zarówno przypadki nadzorowane, jak i nienadzorowane. Opiera się na głębokich sztucznych sieciach neuronowych, które wydobywają z różnych poziomów informacji z oryginalnych danych i nadają im znaczenie w danych wyjściowych. Ta specyficzna dziedzina uczenia maszynowego jest w stanie poradzić sobie ze złożonymi zadaniami. Główne algorytmy wykrywania obrazów lub NLP (rozpoznawania języka naturalnego) są na nim oparte, ale są niezwykle kosztowne pod względem mocy obliczeniowej i danych potrzebnych do szkolenia. Na przykład GPT-3, najpotężniejszy algorytm NLP opublikowany przez OpenAI, ma 175 miliardów parametrów i został wytrenowany na prawie 500 miliardach słów, co stanowi prawie cały internet.

Jakie są konkretne przypadki użycia działania AI?

Modele nadzorowane mogą być wykorzystywane do wykrywania lub wzmacniania istniejących systemów wykrywania ataków jak i złośliwego oprogramowania, których charakterystyka jest już znana.

Modele częściowo nadzorowane i nienadzorowane mogą być wykorzystywane do wykrywania anomalii, na przykład w zachowaniu użytkowników lub przepływach sieciowych.

Modele nienadzorowane mogą być wykorzystywane do identyfikacji nowych zagrożeń i poprawy analizy istniejących alertów.

SZTUCZNA INTELIGENCJA W ROZWIAZANIACH GATEWATCHER

Czym jest część AI w rozwiązaniach Gatewatcher? W jaki sposób uzupełnia ona silniki?

Sztuczna inteligencja w Gatewatcher pełni rolę wykrywania anomalii w przepływach sieciowych oraz identyfikacji złośliwego oprogramowania.

Uczenie maszynowe jest stosowane do wykrywania DGA (Domain Generation Algorithm) oraz w wykrywaniu złośliwych skryptów powershell. Algorytmy generowania domen (DGA) to algorytmy obserwowane w różnych rodzinach złośliwego oprogramowania, które są wykorzystywane do okresowego generowania dużej liczby nazw domen, które mogą być wykorzystywane jako punkty styku z ich serwerami kontroli.

Obecność nazw domen wygenerowanych przez DGA jest silnym wskaźnikiem kompromitacji zabezpieczeń infrastruktury. Wynika to z faktu, że atakujący często wykorzystują żądania http z nazwami domen wygenerowanymi przez pewne typy algorytmów w celu połączenia złośliwego oprogramowania z serwerami C&C (dowodzenia i kontroli). Te nazwy domen mają inne właściwości niż prawidłowe nazwy domen. Tradycyjne metody wykrywania, umieszczone na czarnych listach itp. nie są wystarczające, ponieważ nie zaliczają do nich pokrewnych szczepów złośliwego oprogramowania. Nazwy domen obecne w zdarzeniach DNS przechwyconych przez Gcap’ysą analizowane przez silnik uczenia maszynowego. Dla każdego takiego zdarzenia otrzymujemy informację o prawdopodobieństwie w jakim stopniu nazwa domeny jest DGA. Silnik wykorzystuje wstępnie wytrenowany model, tworząc jego architekturę opartą na głębokiej sieci neuronowej typu LSTM (Long Short Term Memory networks). Uczenie nadzorowane odbywa się tylko na podstawie nazw domen: nie są wykorzystywane żadne dodatkowe informacje kontekstowe (NXDomain...).

Jeśli chodzi o PowerShella, wykrywanie anomalii opiera się na modelu uczenia maszynowego oraz na fakcie, że skrypty te zazwyczaj wykorzystują zaciemnianie kodu lub podobne techniki (base64, konkatenacja, konwersja typów…).

Jakie są zalety i wady systemu wykrywania z AI w porównaniu z systemem wykrywania bez AI?

Do plusów możemy zaliczyć to, że może przetwarzać ogromną ilość dostępnych danych i "zrozumieć" je, identyfikować powiązania między różnymi źródłami danych w celu lepszego wykrywania. Działania te pozwalają zaoszczędzić czas analityków na mozolnych zadaniach i umożliwić wykrywanie zagrożeń zero-day. Z drugiej strony, sztuczna inteligencja jest bardziej kłopotliwa do wdrożenia względem łatwych do rozpoznania, znanych zagrożeń.

Jak działa AI w Gatewatcher i co robi?

Niektóre cyberataki, które wyglądają jak niegroźne aktywności często określane jako odchylenie są możliwe do modelowania i świetnie nadają się do uczenia maszynowego. Taki rodzaj ataku jest często złożony, ponieważ przypomina lub wykorzystuje techniki kamuflażu, które przypominają standardowy ruch. Sztuczna inteligencja Gatewatcher została zaprojektowana w skalowalny sposób, aby badać te zachowania. Dzięki zdolności do gromadzenia dużej ilości danych, algorytmy są w stanie szybko się uczyć i izolować zagrożenia.

Jakie są zalety sztucznej inteligencji w Gatewatcher?

Przewagą niewątpliwie jest to, że zamiast próbować wykryć wszystko w oparciu o AI, podejście jest bardziej pragmatyczne i realistyczne. Bada kategorie ataków i sprawdza, które technologie są dostosowane do danego zagrożenia. Jeśli sztuczna inteligencja jest dostosowana, włączają się algorytmy wykrywania. Jeśli nie, dostosowują się inne silniki detekcji do zagrożenia.