互聯(lián)網(wǎng)時(shí)代下,通過(guò)網(wǎng)站搜集信息和資源是一件極為普遍的事情,通常,網(wǎng)頁(yè)瀏覽器會(huì)記錄用戶(hù)訪問(wèn)過(guò)的網(wǎng)站列表,即網(wǎng)頁(yè)瀏覽歷史記錄。
然而,即便是這樣簡(jiǎn)單的網(wǎng)絡(luò)行為,都存在著隱秘的風(fēng)險(xiǎn)。在8月舉行的 USENIX 會(huì)議上,Mozilla 的研究人員展示了他們對(duì) 5.2 萬(wàn)名(事先同意)的Firefox 用戶(hù)在兩周內(nèi)的瀏覽歷史數(shù)據(jù)集進(jìn)行了分析的結(jié)果。
結(jié)果顯示,48,919 份瀏覽資料具有可區(qū)分性,即 99% 的瀏覽歷史是獨(dú)一無(wú)二的。超過(guò)八成用戶(hù)可通過(guò)瀏覽歷史被識(shí)別身份。而且,只需要考慮 50 個(gè)最常用網(wǎng)站就足夠。
事實(shí)上,在 2012 年就有對(duì)用戶(hù)瀏覽記錄分析用戶(hù)身份的研究。其中,研究者首先建立了一個(gè)測(cè)試網(wǎng)站,并使用 CSS 代碼從 6000 個(gè)域名列表中識(shí)別出參與者訪問(wèn)過(guò)的網(wǎng)站。當(dāng)時(shí)的研究結(jié)果顯示,基于這 6000 個(gè)域名,參與的受試者,97%都形成了非常具有獨(dú)特性的瀏覽歷史,僅此數(shù)據(jù)就可以用來(lái)追蹤確認(rèn)這些參與者。
而時(shí)下, Mozilla 這一次研究所采用的數(shù)據(jù)則更精確,Mozilla的研究收集了 5.2 萬(wàn)名參與者的全部瀏覽記錄,數(shù)據(jù)包括對(duì) 66 萬(wàn)個(gè)獨(dú)特域名的 3500 萬(wàn)次網(wǎng)站訪問(wèn),也是該領(lǐng)域規(guī)模比較大的一次研究。
參與者首先和 Mozilla 團(tuán)隊(duì)分享他們的瀏覽歷史,然后,Mozilla 團(tuán)隊(duì)開(kāi)始試驗(yàn)他們是否能從大量數(shù)據(jù)中重新識(shí)別出這些用戶(hù)。結(jié)果顯示,99%的瀏覽記錄被發(fā)現(xiàn)具有獨(dú)特性,能與用戶(hù)“對(duì)號(hào)入座”。
此外,2012年和2020年的兩次研究對(duì)比也展示了互聯(lián)網(wǎng)時(shí)代的變化:八年前,對(duì)于用戶(hù)訪問(wèn)量比較大的前50個(gè)網(wǎng)站,識(shí)別用戶(hù)的準(zhǔn)確率為38%,對(duì)于500個(gè)網(wǎng)站的數(shù)據(jù)集,準(zhǔn)確率為70%;今天,以50個(gè)網(wǎng)站為基礎(chǔ)的重新識(shí)別準(zhǔn)確率為50%,以150個(gè)網(wǎng)站為基礎(chǔ)的重新識(shí)別準(zhǔn)確率為90%。
伴隨著5G技術(shù)的發(fā)展,人們創(chuàng)造的信息總量也以幾何級(jí)數(shù)進(jìn)行累積,研究顯示,過(guò)去幾年中人類(lèi)制造的數(shù)據(jù)占整個(gè)人類(lèi)歷史數(shù)據(jù)量的95%,換言之,大數(shù)據(jù)時(shí)代已經(jīng)真正降臨。
在互聯(lián)網(wǎng)時(shí)代的后半場(chǎng),我們的生理信息都將進(jìn)入傳播渠道,成為5G技術(shù)下的重要信息資源。而通過(guò)用戶(hù)瀏覽記錄分析用戶(hù)身份無(wú)疑會(huì)成為進(jìn)入傳播渠道的另一重要數(shù)據(jù),如何規(guī)避這一數(shù)據(jù)信息下的隱私暴露風(fēng)險(xiǎn),創(chuàng)造更好地保護(hù)隱私的路徑,依然有待實(shí)踐探索。但任何技術(shù)的狂想始終來(lái)自人和人性,人類(lèi)的智慧是技術(shù)的智慧,也是破解技術(shù)困境的智慧。