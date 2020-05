Klasyfikowanie złośliwego oprogramowania

Wizualizowanie wirusów i ich katalogowanie na podstawie uzyskanych obrazów to zajęcie, którym zajęły się dwie potężne firmy: Microsoft oraz Intel. Współpraca specjalistów z tych koncernów obejmuje badania w ramach projektu STAMINA (Static Malware-as-Image Network Analysis).

Celem przedsięwzięcia jest ustandaryzowanie szkodliwych kodów na podstawie pozyskiwanych na ich temat danych, które generowane są przez algorytmy w formie obrazów. Sztuczna inteligencja (SI), którą zaangażowano w studiowanie tych grafik (stworzonych w skali szarości), jest potem trenowana w rozpoznawaniu wirusów.

W projekcie STAMINA specjaliści stosują głębokie uczenie maszynowe, wykorzystując gigantyczny blok danych dostarczanych przez Microsoft z bazy Windows Defendera.

Strumień pikseli

Binarna forma zarażonego pliku jest studiowana przez odpowiednio wytrenowane algorytmy, tak aby wygenerować prosty strumień pikseli. Zostaje on potem przez sztuczną inteligencję przekształcony w obraz o wymiarach zależnych m.in. od rozmiaru pliku wyjściowego. Na podstawie tak pozyskanych informacji wyszkolona sieć neuronowa jest w stanie określić, czy dostarczony do badania plik został zainfekowany, a jeśli tak – co go zakaziło.

Technologia zastosowana w projekcie STAMINA nie wymaga pełnowymiarowego odtwarzania wirusów piksel po pikselu, co jest bardzo przydatne szczególnie w styczności z potężnymi programami, np. malware. Zamiast wytwarzać gigantyczne zdjęcia, analogiczne do wielkości zainfekowanego pliku, SI wygeneruje tylko potrzebny do skatalogowania wirusa obraz.

Zdecydowana skuteczność

Jak dotąd STAMINA okazała się bardzo skuteczną metodą wykrywania konkretnych wirusów i przyporządkowywania ich do wybranych kategorii. Sprawdza się z ponad 99-procentową dokładnością w klasyfikowaniu szkodliwego oprogramowania, a wynik fałszywie dodatni jej analiz to zaledwie ok. 2,6%.

Projekt wymaga jednak dopracowania, gdyż dobrze sobie radzi tylko w przypadku niewielkich plików. Z ogromnymi bazami danych jest już nieco gorzej – algorytm "męczy się" podczas ich przetwarzania.

Gdy jednak naukowcy doprowadzą projekt do momentu, w którym będzie go można rozpowszechnić i używać, stanie się on niezwykle przydatnym narzędziem do rozpoznawania i katalogowania szkodliwego oprogramowania.

fot. Michael Geiger