Prozradí vás otisk vašeho prohlížeče? – Radkův→poznámkový→blok

Pokaždé, když ve svém prohlížeči otevřete libovolný web, obdrží webserver údaje o vašem prohlížeči, jeho možnostech a další informace, které se obvykle využijí pro správné vygenerování a přizpůsobení stránky pro váš prohlížeč. Co když jsou informace o konfiguraci vaše prohlížeče tak unikátní, že mohou být zároveň i vaším identifikátorem? A mohla by vás libovolná internetová služba spolehlivě rozpoznat mezi miliony uživatelů? Odpověď na tyto otázky chce poskytnout projet Panopticlick, který se snaží o osvětu a výzkum problematiky tzv. otisku prohlížeče.

V rámci projektu Panopticlick, který zahájila EFF (Electronic Frontier Foundation) se vyhodnocuje kolik informací obsahuje hlavička, kterou odesílá váš prohlížeč a jak moc je vaše konfigurace prohlížeče unikátní. Jedním z podnětů výzkumu byla také otázka, zda by informace z hlavičky společně s dalším doplňkovým údajem mohly stačit k rozpoznání a sledování uživatele. Server by pak po rozpoznámí uživatale na základě charakterisk prohlížeče mohl automaticky obnovovat smazané cookies.

Hlavička (User-Agent header) vypadá například takto:

Mozilla/5.0 (Windows; U; Windows NT 5.1; cs; rv:1.9.2) Gecko/20100115 Firefox/3.6 GTB6 (.NET CLR 3.5.30729)

V průměru tato informace obsahuje 10,5 bitů informace využitelné pro identifikaci. Konkrétní hodnota se liší u každého prohlížeče, záleží na verzi a operačním systému, a pohybuje se v rozmezí 5 – 15 informačních bitů. Pomocí informace s průměrnou délkou 10,5 bitu lze identifikovat maximálně 2^10.5 – tedy 1448 osob.

Trocha teorie nikoho nezabije

Připadá-li vám to nesrozumitelné, lze pro lepší pochopení použít analogii třeba s poštovním směrovacím číslem. Na otázku, zda na základě znalosti směrovacío čísla můžete identifikovat nějakou osobu, nelze prostě jednoduše odpovědět ano nebo ne. Pokud vše co víte o nějaké osobě je její PSČ, stále nevíte o koho se konkrétně jedná. Víte, že osoba X je jedním člověkem se skupiny osob se stejným směrovacím číslem, přičemž jednotlivé slupiny mohou být různě veliké.

Je-li vše co víte o osobě datum jejího narození, opět nevíte kdo to je. Znále-li pohlaví, víte zda je osoba mužem nebo ženou, ale stále nevíte kdo to je. Pokud ovšem znáte všechny tři zmíněné údaje současně, můžete VYDEDUKOVAT identitu konkrétní jedné osoby. Každý z těchto faktů poskytuje pouze část identifikátoru a pro každý z mnoha částečných osobních identifikátorů lze vypočítat hodnotu jedinečnosti informace. Ta je vydřána tzv. bitovou entropií a čím je tato hodnota větší, tím přesněji určuje konkrétní osobu.

Jelikož na Zemi nyní žije kolem 7 miliard lidí, je pro jednoznačnou identifikaci konkrétní osoby potřeba pouze 33 bitů informace. 2^33 je 8 miliard. S každým novým faktem, který o neznámé osobě zjistíme, se snižuje rozptyl (míra neurčitosti, entropie) její identity o určitou část podle vzorce:

ΔS = – log2 Pr(X=x)

kde ΔS je rudukce neurčitosti měřená v bitech a Pr(X=x) je jednoduše pravděpodobnost, že zjištěný fakt je platí pro libovolnou osobu. Použití vzorce si můžeme ukázat na příkladu dvou faktů:

Znamení zvěrokruhu:
ΔS = – log2 Pr(Znamení=Kozoroh) = – log2 (1/12) = 3,58 bitu

Den narození:
ΔS = – log2 Pr(Narozeniny=2. ledna) = -log2 (1/365) = 8,51 bitu

Příklad ukazuje dvě věci. Zaprvé, čím je pravděpodobnost výskytu faktu nižší, tím více je údaj jedinečný a poskytuje více bitů informace pro identifikaci. Pravděpodobnost, že osoba se narodila ve znamení Kozoroha je 1/12, a přínost k identifikační informaci je 3,58 bitu. Známe-li den narození, přináší znalost této informace 8,51 bitu.

Druhou věcí je skutečnost, že některé údaje nám nedávají žádnou novou a zpřesňující informaci. Pokud známe den narození, je informace o znamení zvěrojruhu zbytečná, neboť nám nijak nepomáhá konkretizovat hledanou osobu. Nelze tedy říci, že se znalostmi dvou faktů z uvedeného příkladu bychom měli 12,09 (3,58 + 8,51) bitu z potřebných 33 bitů. Kombinovat lze totiž pouze údaje, které jsou na sobě nezávislé. Například den narození a pohlaví (8,51 + 1 = 9,51). Pro den narození bychom měli použít pravděpodobnost ΔS =-log2 Pr(1/365.25) , neboť jsou zde přestupné roky s datem 29.února.

Výpočet podle tohoto vzorce může být použitý i pro fakty s různou pravděpodobností. Například pravděpodobnost, že neznámá osoba bude mít PSČ 90210 (Beverley Hills, California) je odlišná od pravděpodobnosti že její PSČ bude 40203 (část Louisville, Kentucky). V roce 2007 žilo v oblasti 90210 údajně 21733 osob, kdežto v oblasti se směrovacím číslem 40203 žilo jen 452 osob. Na celé planetě tehdy žilo zhruba 6,625 miliardy lidí.

Žije v oblasti 90210: ΔS = – log2 (21,733/6,625,000,000) = 18.21 bitů
Žije v oblasti 40203: ΔS = – log2 (452/6,625,000,000) = 23.81 bitů
Žije v Moskvě: ΔS = -log2 (10524400/6,625,000,000) = 9.30 bitů

Kolik informací je potřeba k identifikaci

Jak bylo zmíněno, v roce 2007 žilo na planětě kolem 6,625 miliard lidí a pro identifikaci kohokoli z celé lidské populace je potřeba 32,6 bitů informace.

S = log2 (1/6625000000) = 32.6 bitu, po zaukrouhlení 33 bitů.

Pokud tedy známe den narození neznámé osoby a máme potvrzeno že žije v oblasti 40203, máme jen z těchto dvou údajů k dispozici (8,51 + 23,81 = 32,32) informaci na základě které můžeme učinit závěr, že v dané oblasti pravděpodobně budou pouze 2 osoby se stejným dnem narození. Přidáním informace o pohlaví osoby dostanemě 33,32 bitů a můžeme již přesně říci o koho jde. Podobně postupují kriminalisté při sestavování a hledání identity pachatele.

Hlavička User-Agent obsahuje jméno a přesné číslo verze prohlížeče a operačního systému, což jsou velmi specifické údaje. Kromě nich je v každé hlavičce ještě preferovaný jazyk uživatele. Váš prohlížeč posyktuje každému webserveru i další informace: hlavičku HTTP_ACCEPT, detaily o instalovaných pluginech – prozradí zda máte například MS Office nebo OpenOffice, Acrobat Reader, verzi Javy a jaké mediální soubory umí váš prohlížeč přehrát, časové pásmo, rozlišení obrazovky a barevnou hloubku, systémové fonty, nastavení-povolení a omezení pro cookies.

Podle výsledku Panopticlick můj prohlížec sděluje serveru 17,63 bitů identifikační informace a každý 203 tísící intenetový uživatel má stejný otisk prohlížeče. Podle statistiky ČSÚ je v ČR zhruba 5 milionu uživatelů. Prostým podílem 5*10^6/2*10^5 vychází pro ČR skupina 25 osob se stejnou konfigurací prohlížece a systému, jako je na počítači na kterém byl napsán tento článek. Dost přesné, nemyslíte?

Pro uživatele, kteří si doposud mysleli, že pro zajištění svého soukromí stačí jednou za čas vymazat cookies, může být takové zjištění znepokující. Kromě toho, webserverům jsou obvykle k dispozici i jiné informace, např. vaše aktuální IP adresa, stránka ze které jste přišli a na kterou jste pokračovali a pod., ve skutečnosti se ale tyto údaje využívají pouze pro statistiky, nikoli pro rozlišení konkrétního uživatele.

Mozné způsoby obrany soukromí

Na základě vyhodnocených dat EFF navrhuje čtyři možné způsoby zlepšení ochrany soukromí, ale žádný z nich není ideální.

1. Použití prohlíže s běžným otiskem

Nejjednodušším způsobem, jak ztížit využití otisku prohlížece, je použít co nejrozšířenější běžné prohlížeče se „standardním“ nastavením. Tím je dnes pravděpodobně Firefox běžící na nějaké verzi Windows. Bohužel tento nejoblíbenější kandidát umožnuje uživatelům přidávat tisíce dalších různých pluginů, které zlepšují funkce tohoto prohlížece, ale zároveň je možné podle kombinace různých neobvyklých pluginů celkem přesně určit konkrétního uživatele.

2. Naprostý zákaz JavaScriptu

Vypnutí Javascriptu je nejsilnějším způsobem ochrany proti otisku prohlížeče, protože znemožní webserverům detekovat instalované pluginy a fonty a zabrání používat tzv. supercookies. Bohužel, JavaScript je dnes nezbytný pro správnou funci většiny webů. Existuje možnost vypnout JavaScript pro konkrétní servery, nebo ho vypnout zcela a manuálně ho povolit pro určité servery. To je ovšem poněkud pracné a neřeší to problém, že některé weby nebudou s vypnutým JavaScriptem fungovat.

3. Použít TorButton

TorButton se snaží „standardizovat“ charakteristiky prohlížeče včetně User-Agent řetězce a tím v důsledku brání sledování otisku, respektive rozlišení jednotlivých Tor uživatelů. TorButton také dokáže poměrně agresivně blokovat JavaScript. Díky těmto dvěma vlastnostem je TorButton nejsilnější ochranou proti sledování otisku prohlížeče. Bohužel, TorButton výrazně zdržuje a zpomaluje prohlížení webů.

4. Vylepšení anonymního prohlížení

Většina tvůrců dnešních moderních prohlížečů se snaží uživatele ochránit před rizikem sledování pomocí možnosti tzv. anonymního prohlížení. Zde je ovšem řešení a zlepšování na vývojářích, na tom zda se rozhodnout z poskytovaných informací odstranit všechny čísla verzí pluginů, flashe, quicktimu a ostatní údaje, které se využíjí skutečně ojediněle pro dubbuging při vývoji a pro bezchybné zobrazování stránek jsou prakticky zbytečné.

Poslední možností, kterou EFF neuvádí je použití různých prohlížečů pro různé aktivity, takže jeden konkrétní uživatel může vytvářet několik různých otisků, avšak ani toto řešení nemusí být spolehlivé a já bych takové řešení spíše než ochranou nazval vstupenkou do psychiatrické léčebny… :)

Zatímco dosavadní způsoby identifikace se zaměřovaly na cookies nebo IP adresu a získání záznamů od poskytovatelů připojení (k tomu je nutný soudní příkaz), identifikace podle otisku prohlížeče by mohla zjistit identitu uživatele s notebookem v okamžiku, kdy se kdekoli na světě připojí k síti, bez ohledu na providerem právě přidělenou IP adresu. A to už může být pro marketingové firmy skutečně zajímavé. Možná více, než by si řada uživatelů přála.

Zdroj: EFF / Infojet.cz / rn

Napsat komentář