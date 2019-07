Elektroniczny ślad, jaki pozostawiamy po sobie w sieci, wciąż rośnie. W większości przypadków dane te nie są zbyt interesujące – to informacje o rodzaju pizzy, jaką zamawiamy co piątek do domu, ostatnich zakupach przez internet czy hotelu zabukowanym na wakacje. Są jednak dane, które są szczególnie osobiste – to informacje dotyczące zdrowia, stanu majątkowego czy orientacji seksualnej.

Najczęstszym sposobem zabezpieczenia danych gromadzonych w rejestrach publicznych jest anonimizacja, która polega na ich przekształceniu danych osobowych w taki sposób, aby nie było ustalenie, jakiej konkretnie osoby dotyczy dany dokument czy zestawienie. Polityki prywatności stosowane przez organizacje i firmy zapewniają nas, że nie ma żadnego ryzyka, że możemy zostać zidentyfikowani po usunięciu danych.

Jeśli tak myślisz, jesteś w błędzie – dowiedli tego naukowcy z Imperial College London i University of Louvain. Stworzyli oni algorytm, który pozwala określić, jak łatwo (z jaką dokładnością) można zidentyfikować konkretną osobę na podstawie nawet niepełnego zestawu danych. W Stanach Zjednoczonych w 81 proc. przypadków wystarczy podać zaledwie trzy parametry danych, aby prawidłowo odnaleźć siebie w bazie anonimowych danych. Po podaniu 15 cech demograficznych osoby mieszkającej w Massachusetts mamy 99,98 proc. szansy na jej odnalezienie w ogólnodostępnej bazie danych. Mieszkańcy Stanów Zjednoczonych i Wielkiej Brytanii mogą sami przeprowadzić eksperyment i sprawdzić prawdopodobieństwo ponownej identyfikacji w bazie anonimowych danych. Wystarczy, że wpiszą tu swój kod pocztowy, płeć i datę urodzenia.

Narzędzie powstało poprzez integrację 210 różnych zestawów danych z pięciu źródeł, w tym spisu ludności Stanów Zjednoczonych. Naukowcy przekazali te dane do modelu uczenia maszynowego, który „nauczył się", które kombinacje są bardziej unikalne, a które mniej, a następnie przypisał im prawdopodobieństwo prawidłowej identyfikacji. – Instytucje publiczne i firmy mówią nam, że nasze dane są bezpieczne, ponieważ zostały zanonimizowane. Stworzone przez nasz narzędzie pokazuje, że wcale tak nie jest – mówi Yves-Alexandre de Montjoye, jeden z autorów badania z Imperial College London.

Wyniki badań amerykańskich naukowców zostały opublikowane na łamach czasopisma Nature Communications. Praca ta nie jest pierwszą, która pokazuje, jak łatwo jest wyśledzić osoby na podstawie baz anonimowych danych. Badanie przeprowadzone w 2007 roku na The University of Texas at Austin wykazało, że na podstawie tylko kilku ocen filmów w serwisie Netflix można zidentyfikować daną osobę tak łatwo, jak poprzez numer ubezpieczenia społecznego.

fot. Gerd Altmann/Pixabay