Mozilla研究:浏览历史非常独特,足以可靠地识别用户
原文地址:Mozilla research: Browsing histories are unique enough to reliably identify users
Mozilla研究:浏览历史非常独特,足以可靠地识别用户
在线广告商不需要我们访问的网站的庞大列表。我们最喜欢的网站中只有50-150个就足够了。
最近由三名Mozilla员工发表的一项的研究关注了浏览历史记录所提供的隐私。
他们的研究结果表明,大多数用户都有独特的网络浏览习惯,使得在线广告商能够创建准确的个人资料。
这些配置文件可以用来跟踪和重新识别不同的用户数据集中的用户,这些数据集甚至包含用户浏览历史的小样本。
实际上,这项研究消除了一个网络神话,即浏览历史,即使是匿名的历史,对在线广告商也没有用处。事实上,这项研究表明,即使是一个由50到150个用户最喜欢和最常访问的域名组成的小名单也能让广告商创建一个独特的跟踪档案。
2012年的类似研究
Mozilla的研究论文名为“回答:为什么我们仍然不能在和平中浏览:论网络浏览历史的唯一性和可再识别性”[PDF]。
这篇论文在本月早些时候的USENIX安全会议上发表,是2012年发表的另一项学术研究的后续。
这项研究是当时分析用户隐私的最大项目之一,也是研究团队的一项重大任务,该研究团队收集了38万多名互联网用户的浏览器历史数据。
在2009年1月到2011年5月期间,研究人员让用户访问一个在线测试站点,在那里他们使用一些聪明的CSS代码来确定用户访问过的预定义列表中的哪些网站。
2012年的研究发现,97%的访问过这个测试站点的用户在他们的浏览历史中有一个唯一的站点列表,这使得浏览器历史成为一个可靠的用户指纹识别载体。
此外,当要求用户再次访问测试站点时,研究人员表示,他们能够根据第一次访问时的浏览历史记录重新识别用户。
当研究人员查看50个用户最流行的域名的浏览历史数据集时,准确率为38%,当他们分析500个域名的数据集时,准确率为70%。
Mozilla 2020论文
但去年,Mozilla的研究人员希望重新评估浏览历史是否仍然是有效的指纹识别载体,以及2012年的研究是否仍然成立。
这项新实验于2019年7月16日至8月13日期间进行,当时Mozilla鼓励Firefox用户参与这项实验。
Mozilla的研究人员表示,超过52000名用户同意参与,并同意提供匿名浏览数据。
然而,这一次,由于数据是从Firefox本身收集的,而不是通过执行长时间CSS测试的网页收集的,因此数据更加准确可靠。此外,Mozilla研究人员收集的数据也与当今在线分析公司收集的关于用户的数据类型相同,无论是通过数据合作伙伴关系、移动应用程序、在线广告或其他机制。
与之前一样,数据收集分两个阶段进行,在两周内,用户在第一周共享浏览历史,然后在第二周再次共享,这样Mozilla的研究人员就可以重新识别用户了。
Mozilla团队表示,他们总共收集了660000个独立域的3500万个网站访问量数据。这项研究的发现立即反映了对更高质量数据的获取。
Mozilla说,他们为这项研究收集的99%的浏览资料对每个用户都是独一无二的。
这种独特性使得Mozilla的研究人员在研究的第二周很容易重新识别用户。
准确性也优于2012年的研究,Mozilla声称,对于包含用户浏览历史的50个域的数据集,其可重新识别率接近50%。当Mozilla的研究人员将浏览历史数据集扩展到150个域时,重新识别率增长到了80%以上。
后一项发现表明,分析公司和在线广告商不需要庞大的浏览历史数据列表来跟踪用户,而且每个用户的浏览癖好和他们最喜欢的网站最终都会泄露出去,即使数据是匿名的,网址也会被截断以删除用户名,只留下核心域名。
Mozilla团队的演示视频在这里提供。
本作品采用《CC 协议》,转载必须注明作者和本文链接