Mozilla研究:浏览历史非常独特,足以可靠地识别用户
原文地址:Mozilla research: Browsing histories are unique enough to reliably identify users
Mozilla 研究:浏览历史非常独特,足以可靠地识别用户#
在线广告商不需要我们访问的网站的庞大列表。我们最喜欢的网站中只有 50-150 个就足够了。
最近由三名 Mozilla 员工发表的一项的研究关注了浏览历史记录所提供的隐私。
他们的研究结果表明,大多数用户都有独特的网络浏览习惯,使得在线广告商能够创建准确的个人资料。
这些配置文件可以用来跟踪和重新识别不同的用户数据集中的用户,这些数据集甚至包含用户浏览历史的小样本。
实际上,这项研究消除了一个网络神话,即浏览历史,即使是匿名的历史,对在线广告商也没有用处。事实上,这项研究表明,即使是一个由 50 到 150 个用户最喜欢和最常访问的域名组成的小名单也能让广告商创建一个独特的跟踪档案。
2012 年的类似研究#
Mozilla 的研究论文名为 “回答:为什么我们仍然不能在和平中浏览:论网络浏览历史的唯一性和可再识别性”[PDF]。
这篇论文在本月早些时候的 USENIX 安全会议上发表,是 2012 年发表的另一项学术研究的后续。
这项研究是当时分析用户隐私的最大项目之一,也是研究团队的一项重大任务,该研究团队收集了 38 万多名互联网用户的浏览器历史数据。
在 2009 年 1 月到 2011 年 5 月期间,研究人员让用户访问一个在线测试站点,在那里他们使用一些聪明的 CSS 代码来确定用户访问过的预定义列表中的哪些网站。
2012 年的研究发现,97% 的访问过这个测试站点的用户在他们的浏览历史中有一个唯一的站点列表,这使得浏览器历史成为一个可靠的用户指纹识别载体。
此外,当要求用户再次访问测试站点时,研究人员表示,他们能够根据第一次访问时的浏览历史记录重新识别用户。
当研究人员查看 50 个用户最流行的域名的浏览历史数据集时,准确率为 38%,当他们分析 500 个域名的数据集时,准确率为 70%。
Mozilla 2020 论文#
但去年,Mozilla 的研究人员希望重新评估浏览历史是否仍然是有效的指纹识别载体,以及 2012 年的研究是否仍然成立。
这项新实验于 2019 年 7 月 16 日至 8 月 13 日期间进行,当时 Mozilla 鼓励 Firefox 用户参与这项实验。
Mozilla 的研究人员表示,超过 52000 名用户同意参与,并同意提供匿名浏览数据。
然而,这一次,由于数据是从 Firefox 本身收集的,而不是通过执行长时间 CSS 测试的网页收集的,因此数据更加准确可靠。此外,Mozilla 研究人员收集的数据也与当今在线分析公司收集的关于用户的数据类型相同,无论是通过数据合作伙伴关系、移动应用程序、在线广告或其他机制。
与之前一样,数据收集分两个阶段进行,在两周内,用户在第一周共享浏览历史,然后在第二周再次共享,这样 Mozilla 的研究人员就可以重新识别用户了。
Mozilla 团队表示,他们总共收集了 660000 个独立域的 3500 万个网站访问量数据。这项研究的发现立即反映了对更高质量数据的获取。
Mozilla 说,他们为这项研究收集的 99% 的浏览资料对每个用户都是独一无二的。
这种独特性使得 Mozilla 的研究人员在研究的第二周很容易重新识别用户。
准确性也优于 2012 年的研究,Mozilla 声称,对于包含用户浏览历史的 50 个域的数据集,其可重新识别率接近 50%。当 Mozilla 的研究人员将浏览历史数据集扩展到 150 个域时,重新识别率增长到了 80% 以上。
后一项发现表明,分析公司和在线广告商不需要庞大的浏览历史数据列表来跟踪用户,而且每个用户的浏览癖好和他们最喜欢的网站最终都会泄露出去,即使数据是匿名的,网址也会被截断以删除用户名,只留下核心域名。
Mozilla 团队的演示视频在这里提供。
本作品采用《CC 协议》,转载必须注明作者和本文链接