Dozvedeli sme sa, ako Google anonymizuje dáta. Používa všeobecnú metódu

ZDROJ | Google / Jan Berghauer

Internetový gigant Google ponúka viaceré služby, ktoré nám zvyšujú komfort pri hľadaní informácií. Využíva na to naše osobné dáta, ktoré anonymizuje. Vieme ako.

Po stále prísnejšej ochrane súkromia v digitálnom prostredí sa v poslednej dobe volá intenzívnejšie a intenzívnejšie. Samozrejme, môžu za to najmä samotní internetoví giganti, ktorí majú na svedomí celý rad škandálov.

V prípade tých najosobnejších údajov miesto na debatu o tom, do akej miery majú byť informácie ochránené nie je. Jednoznačná odpoveď je absolútna ochrana. Zbieraných údajov je však cely rad a pri niektorých tu miesto na debatu o tom, či sa s nimi môže pracovať je.

Aké to sú? Ide o nazbierané údaje, ktoré môžu byť použité na akademické účely, analýzu verejne dopravy alebo tie, ktoré môžu pomôcť pri snahe predísť prírodnej katastrofe. Samozrejme, aj v týchto prípadoch platí, že na základe použitých údajov sa nikto nesmie dopátrať ku konkrétnej osobe.

Pozrite siGoogle uzavrel spoluprácu, ktorou získal zdravotné dáta miliónov Američanov

Google využíva množstvo takýchto dát, aby v rámci svojich služieb ponúkal používateľom čo najvyšší komfort. Ako príklad môžeme uviesť graf návštevnosti reštaurácií, ktorý vás informuje, kedy je prevádzka najviac navštevovaná. Údaje o tom, kedy a kto navštívil konkrétne miesto sú zaradené do vyššej ochrannej skupiny, no sú spôsoboy, ako sa dá bezpečne aj tieto dáta využiť v prospech užitočnej verejnej informácie.

Rôznoúrovňová ochrana informácií je pre vývojárov pomerne komplikovaná. Na jednej strane je pomerne veľa možností, ako s dátami rôznej úrovne citlivosti pracovať, na druhej samotná implementácia riešení a ich nuansy sú pomerne náročné.

Na stretnutí v pražskej pobočke Google, sme sa od Janina Voigt, z Google Safety Engineering centra dozvedeli, že Google nazbierané dáta, ktoré používa pre služby ako napríklad graf návštevnosti reštaurácie, anonymizuje a až následne použije.

ZDROJ | Google / Jan Berghauer

Možno trochu prekvapivo Google na anonymizovanie nepoužíva žiadnu vlastnú, unikátne vyvinutú metódu. Janina Voigt vysvetlila, že by to bol zbytočne komplikovaný a zdĺhavý proces, ktorý by so sebou mohol vo finále priniesť zbytočné komplikácie a chyby vo výsledkoch.

Anonymizácia nazbieraných údajov v Google sa realizuje pridaním šumu do dát, čo jednou z metód k-anonymity. Tento postup je z roku 1998 a vo všeobecnosti slúži na anonymizovanie údajov do vedeckých prácach, v ktorých je dôležité, aby sa k dátam nedal spätne priradiť ich pôvodca. Zároveň je však dôležité to, že tieto dáta nestrácajú na hodnote a hodnovernosti.

Pozrite siGoogle Earth vám umožní zaznamenať spomienky spojené s konkrétny miestom

V Google nám pridanie šumu do dát zjednodušene vysvetlili na príklade výskumu, v ktorom je cieľom zistiť koľko ľudí užíva nelegálne drogy. Predpokladá sa, že užívatelia budú klamať, preto je dôležité vstupné údaje anonymizovať.

Zo skúmanej vzorky ľudí sa metódou náhodného výberu vytvoria dve skupiny. Jedna musí odpovedať na otázku, či užívajú ilegálne drogy, pravdivo, druhá skupina je automaticky braná, že drogy užíva, bez ohľadu na to, či je to alebo nie je pravda. Postup na prvý pohľad vyzerá, ako absolútne manipulovanie s dátami, no v skutočnosti sa takýmto spôsobom dáta zašumia, anonymizujú a stále dokážu ponúknuť pravdivý výsledok.

Samozrejme, tu vzniká istá miera chybovosti. „Tento spôsob anonymizácie dát, aj s jeho chybovosťou, je absolútne postačujúci na to, aby sme našim používateľom vedeli s pomerne vysokou presnosťou povedať, kedy má reštaurácia najrušnejšie otváracie hodiny. Nie je to však metóda, ktorá by ponúkla relevantnú anonymnú štatistku k voľbám, tam by som ju nepoužila,“ povedala Voigt.

Tiež dodala, že metóda je použiteľná len vtedy, keď sa sú vstupné dáta od rádovo tisícok ľudí, čo pre Google nie je problém. Ak by ste pridanie šumu do dát chceli použiť na skupinku pár jednotlivcov, alebo desiatok ľudí, vyjdu vám zo štatistiky hlúposti.

Dôležitosť veľkosti skúmanej skupiny demonštrovala Voigt na fiktívnej tlačovej konferencií Google. Vymysleného stretnutia sa zúčastnila skupina novinárov z piatich krajín a ich počet bol v desiatkach. Keď ku skupine pridali jedného človeka, aj napriek anonymizácii sa podarilo zistiť, že je z Poľska. Avšak nič viac. Ak by sa fiktívnej tlačovej konferencie zúčastnili tisícky novinárov, pridaného poľského novinára sa nepodarí vypátrať.

Prečo si Google dáva s anonymizovaním dát toľkú prácu a jednoducho len nevymaže meno spojené s nazbieranými dátami? Pretože, aj keď meno zmažete, pomerne jednoducho sa dá spätne informácie pospájať, čo ukazuje aj obrázok nižšie.

Anonymizovanie dát je v článku veľmi zjednodušené pre lepšie pochopenie a predstavu čo najširšiemu publiku.

Komentáre k článku