Csupán nyolc bitnyi információt, az IP-cím utolsó számát törli a felhasználói adatok anonimizálásának érdekében a Yahoo. Az internetes cég december közepén jelentette be, hogy a piac többi szereplőjénél hamarabb mond le a szolgáltatásait használók által beírt keresőszavakból épített adatbázisról. A bejelentés szerint a teljes adatsort három hónapig tartaná meg az internetes cég, a felhasznlókat azonosító adatok törlése után maradó adatbázist pedig további hat hónapig őriznék meg. Utóbbira a Yahoo szerint csupán biztonságból, az internetes csalások elleni küzdelem megkönnyítse miatt lenne szükség. Az Ars Technica szaklap szerint azonban az adatsorok anonimizálásának elégtelen módja a felhasználók IP-címének megcsonkítása.
A netes cég által törölt nyolc bitnyi információ csupán arra elég, hogy a ne lehessen azonnal egy számítógépre szűkíteni a keresést, hanem 256 IP-cím jöhessen szóba. A cikket jegyző Julian Sanchez szerint a fennmaradó adat még mindig sok, az IP első három számából többnyire kideríthető az adott felhasználó netszolgáltatója és lehet tippelni a földrajzi helyére is. A felhasználói szokásokból felépített személyiségprofilokkal pedig egészen pontosan tovább lehet szűkíteni a névtelenített adatokban való keresést.
A szakértő szerint jó az irány
Túlzottnak érzi a Yahoot érő kritikákat Timothy B. Lee, a Princeton Egyetem IT szabályozási kérdésekkel foglalkozó kutatója. Lee három olyan forgatókönyvet vázolt fel, amely során az anonimizált adatbázis nyilvánosságra kerülhet. A kutató szerint ha a Yahoo akarja megsérteni a felhasználó privacy-hez fűződő jogait, arra az első három hónap, az érintetlen adatbázissal bőven elég. Az esetlegesen fellépő adatvesztés esetén sokkal értékesebb információkat - például bankkártya-számokat vagy társadalombiztosítási számot - is el lehet tulajdonítani, ami gyorsan eladható. A harmadik forgatókönyv szerint az adatok peres ügy kapcsán is előkerülehetnek. Ebben az esetben hasznos, ha egy pontosan behatárolható felhasználó helyett 256 adatairól van szó, ráadásul a bizonyítás is nehézkessé válik, így kevéssé valószínű, hogy a céget az adatok kiadására kötelezik.
Az adatok árulkodnak
Két cég is kénytelen volt már saját kárán megtanulni, hogy nem minden adatsor anonim, amit annak szántak. Az AOL internetes médiacég 2006 augusztusában adott ki egy olyan csomagot, ami 650 ezer felhasználó három hónap alatt beírt keresőszavait tartalmazta. A kutatási céllal közzétett adatbázis elvben anonimizálva volt, azonban az önmagukra, a társadalombiztosítási azonosító számukra rákeresőket vagy épp lakóhely környéki nevekre, üzletekre rákeresőket könnyen beazonosíthatták az érdeklődők. A problémára a New York Times hívta fel a figyelmet, az újságírók az AOL adatbázis 4417749-es sorszámmal névtelenített felhasználóját, Thelma Arnoldot "leplezték le".
Másodszorra a Netflix netes filmkölcsönző szolgáltatás járt pórul. A cég egymillió dolláros díjat tűzött ki annak a csapatnak, amelyik tökéletesíteni tudja a szolgáltatás filmajánló algoritmusát. A díjért indulók letölthettek egy anonimizált, tesztelésre szolgáló adatbázist, ami 480 ezer felhasználó értékeléseit tartalmazta 18 ezer filmről. A több mint 100 millió rekordot tartalmazó adatbázis a biztonsági szakemberek érdeklődését is felkeltette. Végül Arvind Narayanan és Vitalj Smatikov azonosította be a Netflix adatbázisban szereplő felhasználók egy részét az IMDB-n adott szavazataik alapján. Az esetről, és a névtelenített adatbázisok csapdáiról Bruce Schneier kriptográfus írt remek elemzést a Wired magazinba.