Wizards | RODO w IT – Anonimizacja

RODO w IT – Anonimizacja

#anonimizacja #RODOwIT

Borykasz się z problemem zwiększonego ryzyka wycieku danych osobowych podczas pracy zdalnej?
Chcesz ograniczyć dostęp do wrażliwych danych w swojej firmie?
Chcesz dowiedzieć się więcej na temat procesu anonimizacji danych?
A może zastanawiasz się, czy proces anonimizacji, który masz wdrożony w swojej firmie można usprawnić?

Jeśli tak, ten artykuł jest dla Ciebie. Wspólnie z Mirkiem Gumularzem, Radcą Prawnym zajmującym się zagadnieniami związanymi z RODO, postanowiliśmy poruszyć temat poprawnej, szybkiej i bezpiecznej anonimizacji danych osobowych.

Z artykułu dowiesz się m.in.:

Jakie są różnice między anonimizacją a pseudonimizacją?
Dlaczego warto anonimizować dane z punktu widzenia IT, compliance, czy biznesu?
Jakie są korzyści i ryzyka związane z anonimizacją?

Zapraszamy do lektury!

Artur Żórawski, Founder&CTO Wizards
i Mirosław Gumularz, Radca Prawny w GKK Gumularz Kozik

Zapraszamy,

Artur Żórawski, Founder i CTO Wizadrs

Architekt IT z ponad 20 letnim stażem, autor pomysłów na rozwiązania IT do detekcji, anonimizacji i retencji danych.

dr Mirosław Gumularz, Radca Prawny GKK Gumularz Kozik

Audytor wewnętrzny systemu zarządzania bezpieczeństwem informacji wg normy ISO 27001:2013. Członek Grupy Roboczej ds. Ochrony Danych Osobowych przy Ministerstwie Cyfryzacji.

———————————

Anonimizacja a pseudonimizacja

Mirosław Gumularz (MG): W ostatnim artykule mówiliśmy sporo na temat zmian, które zaszły wraz z RODO w podejściu do zapewnienia zgodności z ochroną danych. Jednym ze sposobów, w jaki możemy o dane dbać jest anonimizacja, lub pseudonimizacja danych, czyli odpowiednio: zerwanie lub ograniczenie identyfikowalności osób fizycznych.

Mówiąc o anonimizacji i pseudonimizacji widzę duży problem w rozróżnieniu obu pojęć. Wiele osób uważa, że zrealizowało wymogi co do ochrony danych (np. ich usuwania), bo zanonimizowało dane. W praktyce okazuje się często, że to nie jest anonimizacja, tylko pseudonimizacja, czyli nie zerwanie, a odwracalne ograniczenie identyfikowalności, ponieważ cały czas istnieje jakiś rodzaj powiązania (chociażby poprzez zebranie dodatkowych danych ze źródeł publicznie dostępnych np. strony rejestrów publicznych, takich jak np. geoportal). Nie wiem, jak to z Waszej perspektywy wygląda, osób technicznych?

Artur Żórawski (AŻ): Mam podobne obserwacje. Jest to związane pewnie z tym, że przeprowadzenie anonimizacji przy zachowaniu odpowiedniej jakości charakterystyki bazy, nie jest taką banalną sprawą. Podstawową wartością anonimizacji jest jej nieodwracalność. Jeśli udało się ją osiągnąć, to to oznacza właśnie dobrze zrobioną anonimizację. Możemy mieszać, maskować, ale rezultat powinien być jeden: brak możliwości zidentyfikowania konkretnej osoby. Z pseudonimizacją jest inaczej. Pseudonimizacja zakłada posiadanie klucza, za pomocą którego możemy odwrócić anonimizację i odzyskać dane. W efekcie nie tracąc ich.

MG: Tak, dokładnie. To, na co warto zwrócić uwagę to fakt, że od strony prawnej nie ma czegoś takiego, jak wymóg anonimizacji/pseudonimizacji. Są to narzędzia do realizacji określonych celów/wymogów np. bezpieczeństwa, czy ograniczenia czasowego przechowywania danych. Oba pojęcia dotyczą identyfikacji osoby fizycznej, czyli najogólniej rzecz ujmując – powiązania informacji z wyodrębnioną osobą fizyczną.

Anonimizacja – służy zerwaniu powiązania pomiędzy informacją a wyodrębnioną osobą fizyczną. Anonimizacja to de facto zmiana informacji i alternatywa dla fizycznego usuwania danych. Informacja zanonimizowana nie jest już daną osobową. Oczywiście prawidłowo zanonimizowana informacja.
Natomiast pseudonimizacja służy ograniczeniu powiązania informacji z wyodrębnioną osobą fizyczną. RODO definiuje pseuodonimizację jako: “Przetworzenie danych osobowych w taki sposób, by nie można ich było już przypisać konkretnej osobie, której dane dotyczą, bez użycia dodatkowych informacji, pod warunkiem, że takie dodatkowe informacje są przechowywane osobno i są objęte środkami technicznymi oraz organizacyjnymi uniemożliwiającymi ich przypisanie zidentyfikowanej, lub możliwej do zidentyfikowania osobie fizycznej.”

W praktyce, dane speudonimizowane są cały czas danymi osobowymi. Oznacza to, że przetwarzając je, musimy zapewnić realizację wszystkich wymogów, o których mówiliśmy w pierwszym tekście, m.in. co do czasu przetwarzania danych, ograniczenia celu i minimalizacji.

Nie mniej RODO traktuje pseudonimizację przede wszystkim jako środek do realizacji wymogu bezpieczeństwa według prostego rozumowania: jak wyciekną dane pseudonimizowane, to ryzyko dla osób fizycznych jest mniejsze, bo identyfikacja będzie utrudniona, lub wręcz niemożliwa (dla uzyskującego dostęp do części danych bez tego “klucza”, o którym mowa w definicji).

Korzyści wynikające z anonimizacji

Rozwiązanie problemu ograniczenia celu przetwarzania

MG: Wiemy już, jaka jest różnica między anonimizacją a pseudonimizacją. Zastanówmy się teraz, po co w ogóle anonimizować dane? Z punktu widzenia RODO anonimizacja ułatwia przede wszystkim „obejście” problemu celu przetwarzania. To z pozoru bardzo ogólny wymóg, który ma bardzo konkretne konsekwencje techniczne. Jeśli w trakcie przetwarzania chcemy zmienić cel przetwarzania, (np. wykorzystać te dane do rozwoju „uczenia” sztucznej inteligencji) to możemy w tym zakresie mieć kłopot z zalegalizowaniem tej zmiany celu. Wprawdzie RODO tego nie wyklucza, ale zawiera szereg obostrzeń m.in. obowiązek informowania o tym osób, których dane dotyczą. Anonimizacja rozwiązuje ten problem. Dane anonimowe nie podlegają RODO.

AŻ: Tak, masz rację. Jakiś czas temu braliśmy udział w projekcie z zakresu sztucznej inteligencji i uczenia maszynowego, w ramach których wnioskowaliśmy i uczyliśmy algorytmy w oparciu o zbiór danych. Jednym z wyzwań była anonimizacja tego zbioru w taki sposób, że dane osób i w efekcie cały zbiór miały zachowywać charakterystykę i swoją tożsamość. Dane miały być w pełni wartościowe. Musieliśmy wymyśleć, jak to zrobić. Biorąc wszystkie te wszystkie wymogi pod uwagę można zażartować, że najlepiej tak naprawdę to tych danych nie mieć, ale w biznesie jest to praktycznie niemożliwe.

Ograniczenie czasu przetwarzania

MG: Masz rację. Trzeba pamiętać że sensie prawnym anonimizacja jest równoznaczna z fizycznym usunięciem danych. W obu przypadkach nie mamy danych osobowych (oczywiście o ile ten proces nastąpił w sposób prawidłowy). Dlatego anonimizacja ma także znaczenie przy realizacji wymogu ograniczenia czasowego przetwarzania, czyli jednego z fundamentów RODO. W tym wypadku anonimizacja oznacza wykonanie pewnego procesu, który powoduje, że informacja, która wcześniej dotyczyła zidentyfikowanej, lub możliwej do identyfikacji osoby, teraz już jej nie dotyczy. Stała się daną anonimową. Dlatego anonimizacja (jako metoda przetworzenia informacji) może być pomocna, gdy fizyczne usuwanie danych zgodnie z terminami przyjętymi w wewnętrznych politykach organizacji nie jest faktycznie możliwe (np. ze względu na realizację pomiędzy bazami danych).

Realizacja wymogów bezpieczeństwa

MG: Anonimizacja pozwala zrealizować także wymogi bezpieczeństwa w zakresie poufności danych. To jest tym bardziej istotne w przypadku:

pracy na urządzeniach mobilnych, które można zgubić, lub które mogą zostać ukradzione,
lub pracy zdalnej, podczas której dane mogą zostać wykradzione przez np. niezabezpieczoną sieć.

Anonimizując dane, ograniczamy ryzyko ich wycieku. Anonimizacja spowoduje, że osoba niepożądana, która zyska dostęp do baz danych, nie zyska tym samym dostępu do danych osobowych, a jedynie do ich zanonimizowanej wersji. Jest to szczególnie gorący temat w kontekście obecnej pandemii COVID-19, który wymusił na firmach wysłanie zdecydowanie większej ilości pracowników na pracę zdalną, niż to było do tej pory. Praca zdalna na danych anonimowych nie rodzi ryzyka związanego z naruszeniem RODO.

AŻ: Anonimizacja z punktu widzenia programisty, architekta w takim przypadku daje możliwość spokojnego skupienia się na tym, na czym znamy się najlepiej – programowaniu i projektowaniu.

Ja widzę jeszcze kilka korzyści z punktu widzenia IT.

Systemy informatyczne nie lubią usuwania danych. Większość systemów preferuje gromadzenie dużych ilości danych, ponieważ w niektórych przypadkach fizyczne ich usunięcie może wpłynąć na efektywność systemu. Konieczność usuwania pojawia się w momencie, w którym użytkownik zażąda usunięcia jego danych osobowych, z których my akurat korzystamy. Z tego też względu tam, gdzie można oczywiście usuwamy te dane. W miejscach gdzie byłoby to kłopotliwe, dane ulegają anonimizacji. Oznacza to, że pod względem RODO dane znikają, ale nie są usuwane fizycznie.

Miejscem, gdzie anonimizacja jest jeszcze stosowana w kontekście systemów informatycznych są testy. Wiemy, że zapewnienie odpowiedniej jakości testów też jest bardzo ważne. Przygotowanie testowych danych osobowych często jest trudne ze względu na ilość oraz charakter tych danych. W tym przypadku można wykorzystać te dane produkcyjne, które przeszły przez proces anonimizacji, dzięki czemu przestają podlegać RODO. Dzięki temu systemy mogą być testowane nie tylko pod względem funkcjonalności, ale mogą być również testowane pod kątem obciążeń – kontroli, czy dany system informatyczny będzie w stanie wytrzymać ruch i obciążenie systemu przez wszystkich użytkowników. Jest to ważne bo przecież nikt nie podpisuje zgód na wykorzystanie jego danych osobowych do testowania systemu.

Wykorzystanie anonimizacji w biznesie

AŻ: Jeżeli chodzi o korzyści biznesowe, to jest ich kilka. Na przykład jedna firma prosi inną firmę o rozwój swojego systemu i w związku z tym dochodzi do przekazania danych osobowych. Ze względu na to, że system już istnieje trzeba go utrzymywać i w takim przypadku może dojść do przekroczenia danych osobowych między dwoma organizacjami. Dzięki anonimizacji baz danych będziemy w stanie przekazać jakościowe dane, lecz bez prawdziwych danych osobowych.

Należy pamiętać, że żadna firma nie są samotną wyspą, dlatego w dzisiejszym biznesie dane dość swobodnie pływają pomiędzy podmiotami bez żadnych dodatkowych umów, czy obostrzeń. Mimo tego świadomość na temat danych osobowych w organizacji jest niska. Z doświadczenia mogę powiedzieć, że jedną z wątpliwości, którą często słyszę podczas spotkań w związku z wdrożeniem narzędzi anonimizacji danych jest brak wiedzy na temat przechowywania i przetwarzania danych osobowych. Dopiero gdy poznamy ten proces, możemy się zastanawiać się nad tym, co powinniśmy zmienić w systemach informatycznych i jakie procedury informatyczne oraz narzędzia powinny zostać wdrożone.

Ryzyka związane z anonimizacją

MG: Anonimizacja to korzyści, ale również ryzyka.Trzeba pamiętać, że proces anonimizacji może rodzić ryzyko dla ludzi, którego źródłem jest błąd i brak zerwania powiązania informacji z osobą fizyczną. W zakresie mierzenia tego ryzyka polecam dwa dokumenty:

Opinia Grupy Roboczej art. 29 6/2013 dostępna pod linkiem: https://archiwum.giodo.gov.pl/pl/1520167/6944
Rekomendacje ICO https://ico.org.uk/media/1061/anonymisation-code.pdf

Oba dokumenty zawierają przykłady błędów, dobre praktyki oraz kryteria szacowania ryzyka, którego źródłem może być nieprawidłowa anonimizacja. Więcej o tych dokumentach będziemy mówić również na webinarium.

W obu dokumentach podkreśla się, że granica pomiędzy danymi prawidłowo zanonimizowanymi jest płynna. Zresztą RODO wskazuje, że te same informacje w zależności od kontekstu (i możliwości zestawienia z innymi danymi przez dany podmiot) mogą być danymi anonimowymi, lub danymi osobowymi.

Zgodnie z motywem 26 rodo:

„(…) aby stwierdzić, czy dana osoba fizyczna jest możliwa do zidentyfikowania, należy wziąć pod uwagę wszelkie rozsądnie prawdopodobne sposoby (w tym wyodrębnienie wpisów dotyczących tej samej osoby), w stosunku do których istnieje uzasadnione prawdopodobieństwo, iż zostaną wykorzystane przez administratora lub inną osobę w celu bezpośredniego lub pośredniego zidentyfikowania osoby fizycznej. Aby stwierdzić, czy dany sposób może być z uzasadnionym prawdopodobieństwem wykorzystany do zidentyfikowania danej osoby, należy wziąć pod uwagę wszelkie obiektywne czynniki, takie jak koszt i czas potrzebne do jej zidentyfikowania, oraz uwzględnić technologię dostępną w momencie przetwarzania danych, jak i postęp technologiczny. Zasady ochrony danych nie powinny więc mieć zastosowania do informacji anonimowych, czyli informacji, które nie wiążą się ze zidentyfikowaną lub możliwą do zidentyfikowania osobą fizyczną, ani do danych osobowych zanonimizowanych w taki sposób, że osób, których dane dotyczą, w ogóle nie można zidentyfikować lub już nie można zidentyfikować”.

Powyższy cytat oznacza, że pojęcie danych osobowych obejmuje informacje o różnym stopniu powiązania z wyodrębnioną osobą fizyczną, a granica pomiędzy danymi osobowymi oraz danymi anonimowymi jest często trudna do wytyczenia.

W związku z tym można wyróżnić następujące sytuacje:

Identyfikacja jest możliwa w oparciu o dane, którymi dysponuje administrator, nawet jeżeli identyfikacja wymaga ich zestawienia (np. dane w różnych bazach danych, przetwarzane lokalnie na urządzeniach, w usługach chmurowych). W tej kategorii mieszczą się także dane spseudonimizowane.
Identyfikacja jest utrudniona (np. wymaga pozyskania dodatkowych danych), ale możliwa bez nadmiernych trudności.
Zidentyfikowanie osoby fizycznej chociaż potencjalnie możliwe, jest nadmiernie uciążliwe (biorąc pod uwagę kryteria z motywu 26 RODO).
Zidentyfikowanie osoby fizycznej nie jest możliwe nawet po uzyskaniu dodatkowych informacji (biorąc pod uwagę kryteria z motywu 26 rodo)

Oznacza to, że ustalenie czy określona informacja jest daną osobową wymaga oceny. Jak wskazują przytoczone dokumenty należy ocenić ryzyko, którego źródłem jest błąd na etapie anonimizacji prowadzący do re-identyfikacji. Chcąc oszacować to ryzyko należy:

znać kontekst przetwarzania m.in. powiązania pomiędzy informacjami przetwarzanymi m.in. w różnych systemach obsługujących różne bazy danych;
ocenić wagę takiego ryzyka (czyli upraszczając – jakie szkody dla ludzi wywoła wystąpienie ryzyka);
ocenić prawdopodobieństwo ryzyka.

Niezwykle trudne jest oszacowanie prawdopodobieństwa ryzyka re-identyfikacji. Jeśli chcemy to zrobić idąc w ślad za rekomendacjami, warto posłużyć się testem tzw. zmotywowanego intruza. Na czym on polega?

Test zmotywowanego intruza

MG: Polega on głównie na rozważeniu, czy „intruz” byłby w stanie dokonać re-identyfikacji, gdyby był do tego zmotywowany. Podejście to zakłada, że „zmotywowany intruz” jest kompetentny i ma dostęp do zasobów współmiernych do motywacji, jaką może mieć do ponownej identyfikacji.

Niektóre rodzaje danych będą bardziej atrakcyjne dla „zmotywowanego intruza” niż inne. Na przykład intruz może być bardziej zmotywowany do re-identyfikacji danych osobowych, jeśli takie dane:

mają znaczącą wartość handlową (w tym na czarnym rynku lub poza Unią Europejską) i dlatego można je kupować i sprzedawać w celu uzyskania korzyści finansowych;
mogą być wykorzystywane do celów egzekwowania prawa lub wywiadowczych;
mogą ujawniać godne uwagi informacje o osobach publicznych;
mogą być wykorzystywane do celów politycznych lub aktywistycznych (np. jako część kampanii przeciwko konkretnej organizacji lub osoby);
mogą być wykorzystywane z osobistych powodów opartych na złych intencjach (np. prześladowania, nękania, zastraszania).
mogą wzbudzić ciekawość.

AŻ: Tutaj poruszyłeś też bardzo ważny temat. Bezpieczeństwo danych to nie tylko RODO. Dane finansowe, tajemnice firmowe to są wszystko kategorie danych, które chcemy ochronić przed osobami nieuprawnionymi. W tym kontekście zabezpieczenie danych za pomocą anonimizacji jest znacznie szersze. Niektóre z naszych projektów bezpośrednio dotyczyły anonimizacji systemów finansowych i przetargowych, gdzie kwestie związane z danymi osobowymi praktycznie nie występowały, aczkolwiek zabezpieczenie danych finansowych oraz informacji powierzonych przez firmy trzecie było kluczowe dla działania całej organizacji.

Jeśli zainteresował Was temat anonimizacji oraz warunków, jakie muszą być spełnione, żeby mówić o dobrej jakości anonimizacji, zerknijcie również na jeden z moich wcześniejszych artykułów: https://wizards.io/2020/02/anonimizacja/

Znajdziecie tam m.in. rozwinięcie każdego z pojęć wykorzystanych przeze mnie w poniższym wykresie:

———————————————

Odpowiadasz za techniczny lub prawny aspekt ochrony danych osobowych, ochronę bezpieczeństwa danych osobowych lub wrażliwych w swojej organizacji? A może w obszarze, którym się zajmujesz?

Przez kolejne 2 tygodnie będziemy publikować na blogu Wizards nowe artykuły z cyklu RODO w IT, z których dowiesz się kolejno:

jak poradzić sobie z wyzwaniem skutecznej retencji danych osobowych
jak realizować projekty z zakresu sztucznej inteligencji w kontekście wymogów RODO

Masz dodatkowe pytania, chcesz wymienić się doświadczeniami, dowiedzieć się więcej o anonimizacji, detekcji i retencji danych osobowych, cykl życia produktów IT w kontekście RODO, w tym privacy by design, a także posłuchać o ciekawych case studies związanych np. z definicją danych osobowych, lub kolejnych etapach wdrażania RODO w Polsce.

Zapisz się już dziś na nasz webinar RODO W IT.

Śledź nasz profil na LinkedIn.

Do usłyszenia!

Artur i Mirek