写点什么

数据挖掘与隐私:你真的匿名了吗?

作者:qife122
  • 2025-09-09
    福建
  • 本文字数:1292 字

    阅读完需:约 4 分钟

数据挖掘与隐私:你真的匿名了吗?

Sam Carroll //


当我加入 BHIS 时,对生日等个人数据的敏感性感到惊讶。这让我回想起去年选修的数据挖掘课程,当时卡爾森博士(南达科他矿业理工学院)首先讲解了伦理问题,特别是关于用户数据匿名化与个人数据再识别的伦理风险。


敏感信息若经拙劣混淆处理,可被逆向还原以获取个人具体信息。自 1998 年 GeoCities 向客户承诺不共享数据却出售给第三方后,这一问题便成为个人与企业的重要关切。美国联邦通信委员会(FCC)裁定企业不得在隐私政策上撒谎。


许多公司要求用户同意隐私政策,但糟糕的匿名化可能导致敏感信息泄露。最典型的案例来自 90 年代初:拉塔尼娅·斯威尼发现约 90%的美国人口可仅通过邮编、出生日期和性别被唯一识别。为验证这一点,她购买选民名册(公开记录)并与州政府雇员健康保险购买方 GIC 的数据结合。尽管 GIC 已删除姓名、社保号和住址,斯威尼仍成功识别出州长的医疗记录(包括处方),而州长本人曾亲自担保匿名化措施的安全。


尽管医疗数据再识别事件仅限于马萨诸塞州,但再识别问题影响几乎所有人,包括科技巨头。


2006 年发生两起知名公司隐私泄露事件:Netflix 和 AOL。Netflix 为优化推荐算法举办竞赛,提供了 50 万用户的评分数据并替换用户名为唯一标识符。研究人员将 IMDB(含用户名)的评分与 Netflix 数据库关联,仅需 6 条电影评分即可识别几乎所有用户。


AOL 同样发布了三个月内的数千万搜索查询,通过删除用户名和 IP 地址进行匿名化,但仍为每个用户分配唯一标识符。研究人员通过合并单个用户的搜索内容(如“纽约市天气”“18 岁周六娱乐活动”、搜索自身姓名或社保号)即可推断其个人信息。甚至涉及更私密的内容,如如何向家人坦白受虐经历或逃离虐待关系。


2009 年卡内基梅隆大学发现通过分析数据可推断个人社保号。该方法仅需出生地点(社保号前 5 位对应物理位置)和公开死亡记录(含社保号)中与出生日期高关联的后 4 位模式。仅凭两条常见于社交网站的信息即可相对容易地破解社保号。


上周国会通过法案,允许政府及商业无人机运营商收集含面部识别在内的个人标识数据且无需披露。该法案未规定数据使用和销毁机制,表明隐私问题仍待解决。


Pokemon Go 在 iOS 版本中存在严重隐私漏洞,最初要求获取用户整个 Gmail 账户权限(包括发送邮件、读取日历、通讯录和照片)。尽管开发公司 Niantic 声称未收集信息,但隐私风险不容忽视。


谨慎分享信息:最隐蔽的隐私获取方式往往是直接索要。人们会对明显危及自身的数据保持警惕,却可能自由分享看似无害的信息。但即使专业人士也未必能保证数据真正匿名,私密数据可能因此泄露。请假设自己已处于风险中,并主动采取防护措施。


资料来源


http://digital.law.washington.edu/dspace-law/bitstream/handle/1773.1/417/vol5_no1_art3.pdf


https://epic.org/privacy/reidentification/#process


www.nytimes.com/2016/07/14/technology/personaltech/how-to-protect-privacy-while-using-pokemon-go-and-other-apps.html


www.computerworld.com/article/3095491/robotics/faa-compromise-bill-drops-key-drone-privacy-provisions.html 更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码


办公AI智能小助手


用户头像

qife122

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

评论

发布
暂无评论
数据挖掘与隐私:你真的匿名了吗?_数据挖掘_qife122_InfoQ写作社区