Duże dane małych firm
Wiele startupów oferuje usługi analizy Big Data oparte na algorytmach wykorzystujących uczenie się maszynowe. Wynikami takich analiz mogą być zainteresowane wszystkie podmioty, które profilują swoje produkty lub działania marketingowe. Aby jednak analizy były wiarygodne, konieczne są dane: im więcej, tym lepiej. Algorytmy wykorzystujące uczenie się maszynowe muszą mieć na czym się uczyć. Od zakresu dostarczonych im danych treningowych zależeć będzie celność prognoz dokonywanych później w celach biznesowych. Jeśli algorytm od początku będzie skazany na analizę okrojonej próby obserwacji, rośnie ryzyko, że nietrafnie pogrupuje dane, pominie ważne korelacje lub powiązania przyczynowo-skutkowe albo dopatrzy się ich tam, gdzie ich nie ma. Dopiero szkolenie algorytmu na dużych zestawach danych pozwala zminimalizować ryzyko uchybień w diagnozach i prognozach.
Zapewnienie dostępu do wielkich zbiorów nie jest jednak łatwe w przededniu wejścia w życie najbardziej rygorystycznych przepisów o ochronie danych – RODO. Zwłaszcza dla startupów, które w przeciwieństwie do większych graczy, jak sklepy internetowe lub serwisy społecznościowe, nie mogą same generować Big Data przez obserwację rozbudowanej bazy użytkowników. Również gromadzenie danych dostępnych publicznie nie jest zbyt pomocne. Są to w większości dane makro o ograniczonej przydatności w zindywidualizowanej ocenie problemów klienta, nierzadko przestarzałe, a w przypadku danych naukowych – gromadzone na podstawie mniej lub bardziej arbitralnych wyborów autora badania, co ogranicza do nich zaufanie.
Małym graczom pozostaje jeszcze pozyskiwanie danych od swoich usługobiorców. Banki, instytucje medyczne czy inne podmioty zlecające startupom analizy mogą powierzyć im dane swoich klientów, w dodatku przy zachowaniu dość swobodnych wymogów formalnych (o czym pisaliśmy w październiku). Dane tak powierzone mogą jednak być wykorzystywane tylko w celach, co do których klienci wyrazili zgodę. Sprawa komplikuje się więc, gdy zgoda klientów nie obejmuje przetwarzania w celu szkolenia algorytmów. RODO przewiduje co prawda sytuacje wyjątkowe, w których dane takie mogłyby być przetwarzane nawet bez zgody klientów, np. w ramach realizacji nadrzędnych i prawnie uzasadnionych interesów, niekoniecznie jednak za przypadek taki można uznać wykorzystanie danych do doskonalenia algorytmu – w dodatku nie przez samego usługodawcę, lecz przez działający na jego zlecenie startup. Duże trudności mogłyby się też pojawić przy sprecyzowaniu zakresu zgody. Samo pojęcie wykorzystania danych na potrzeby doskonalenia procesu uczenia się maszynowego mogłoby być kwestionowane jako niedostatecznie precyzyjne, niejasne lub nawet niezrozumiałe.
Rozwiązaniem, które może przyjść z pomocą, jest anonimizacja danych. Anonimizacja to takie przekształcenie danych, które trwale uniemożliwia przypisanie ich konkretnej osobie – inaczej niż w przypadku pseudonimizacji, która polega na zaszyfrowaniu danych z możliwością ich powtórnego przyporządkowania do konkretnych osób. O ile pseudonimizacja jest więc środkiem realizacji ochrony danych osobowych, anonimizacja to sposób, aby tę ochronę wyłączyć. Skoro bowiem dane zanonimizowane nie mogą być przyporządkowanie do żadnej osoby, to przestają być danymi osobowymi, a RODO traci do nich zastosowanie (co potwierdza motyw 26 rozporządzenia). Anonimizacja może więc umożliwić startupom szerokie wykorzystanie Big Data pozyskanych od ich usługobiorców. Należy jednak zwrócić uwagę na dwie istotne kwestie.
Po pierwsze, całkowita anonimizacja, która trwale uniemożliwia przypisanie danych do osoby, jest trudniejsza niż może się wydawać. Intuicyjne rozwiązania, takie jak usunięcie ze zbioru danych imion i nazwisk, nie wykluczają jeszcze ponownej identyfikacji (co można prześledzić na przykładach np. w tegorocznej publikacji w Journal of Biomedical Informatics). Na ustalenie tożsamości może pozwolić informacja o miejscu zamieszkania lub wieku danej osoby. Badanie przeprowadzone w Stanach Zjednoczonych w 2006 r. wykazało, że zestawienie samego kodu pocztowego z datą urodzenia i informacją o płci niemal w każdym przypadku zawężało krąg „podejrzanych” do zaledwie 5 osób spośród prawie 300 milionów obywateli USA, a 63% tych obywateli pozwalało bezbłędnie zidentyfikować (sic!).
Po drugie, choć dane zanonimizowane nie podlegają już RODO, to jednak do samej anonimizacji przepisy te jeszcze się stosuje. Rozporządzenie obejmuje swoim zakresem przetwarzanie danych osobowych, a przetwarzanie definiuje jako operacje na danych osobowych lub ich zestawach przeprowadzane w sposób zautomatyzowany lub niezautomatyzowany. Jako przykłady takich operacji RODO wskazuje m.in. adaptowanie, modyfikowanie, dopasowywanie, ograniczanie, usuwanie i niszczenie danych. Proces anonimizowania sprowadza się zaś do operacji takich jak adaptacja i modyfikacja. Za jego zaliczeniem do przetwarzania przemawia też fakt, że pojęciem tym objęto również inne czynności powodujące, że podmiot, który ich dokonał, przestaje podlegać RODO, tj. usuwanie i niszczenie danych.
Oznacza to, że również do anonimizacji odnoszą się przepisy pozwalające na przetwarzanie danych tylko w celach objętych zgodą osób, których dotyczą. W konsekwencji usługodawcy korzystający z analiz startupów i gotowi przekazać im dane do dalszego szkolenia algorytmów muszą uzyskać wcześniej zgodę klientów na to, aby ich dane osobowe zostały zanonimizowane. Treść takiej zgody powinna być jednak łatwiejsza do zredagowania niż treść zgody na przetwarzanie danych w celu szkolenia algorytmów. Tym bardziej że w tym przypadku nie powinno być konieczne określenie, na jakie sposoby przetwarzania danych po anonimizacji zgadza się klient, skoro po jej przeprowadzeniu dane te nie będą już ani danymi klienta, ani danymi chronionymi przez RODO, w związku z czym ewentualnych ograniczeń i tak nie dałoby się wyegzekwować.
Anonimizacja może więc ułatwić wykorzystywanie danych pozyskanych przez startupy od klientów dysponujących większą bazą użytkowników. Nie kończy jednak poszukiwań jeszcze prostszych schematów pozyskiwania Big Data przez małe przedsiębiorstwa.
Bartosz Troczyński