隐私之谜
reedy在全国创新隐私算法竞赛中获得第一名。
Reed统计威博体育APP的一组学生在一项享有盛誉的全国竞赛中获得第一名,他们的创新算法帮助研究人员从数据集中收集信息,同时不损害个人隐私。
Zeki Kazan ' 20, Kaiyan Shi ' 20和Simon Couch ' 21凭借他们的项目“一个差异私有的Wilcoxon签名秩检验”赢得了本科统计研究项目竞赛,该项目概述了一种用于维护底层数据隐私的假设检验的新算法。事实上,他们的技术是标准私人方法的两倍,这意味着它只需要不到一半的数据就能达到相同的统计能力。
当西蒙听到这个消息的时候,他正和凯利·麦康维尔教授一起上统计学课。“我太惊讶了!他告诉我们。“能有这个机会,我感到非常兴奋、自豪和感激。”
该项目由Adam Groce教授、Anna Ritz教授和Andrew Bray教授建议,Andrew Bray教授说他一点也不惊讶。他说:“这个团队的生产力令人难以置信。”“我知道评委们马上就能看出他们的作品质量。这是一个真正科学问题的原创解决方案。”
简单地说,问题在于大型数据库对回答科学问题有着巨大的希望,但许多组织不允许研究人员威博体育它们,因为有无意中侵犯隐私的风险——即使姓名和地址等明显的标记已经被删除。例如,2014年,纽约市出租车和豪华轿车委员会(New York City Taxi and Limousine Commission)应信息自由要求,发布了一个巨大的出租车乘车数据库。该委员会试图将这些数据匿名化,但有魄力的记者们拼凑出了各种线索,找出了名人乘坐的汽车。
要理解Reed项目,您需要知道统计学家经常使用一种被称为假设检验的工具来比较两组数据。每个假设检验都需要一定数量的数据才能检测出两组数据之间的关系——所需的数据越少,其统计能力就越强。
现在再深入一点。
有许多不同类型的假设检验。里德团队专注于Wilcoxon sign - rank测试,这通常用于配对样本数据,即两组数据之间存在自然关联(例如,患者在观看恐怖电影前后的血压)。它比较这些集合,试图确定是否存在统计上显著的关系。
该团队重新设计了Wilcoxon测试以确保隐私,并采用了一种创新技术来减少所需的数据量。通过这两个看似简单的调整,增强的算法变得更加强大,产生了重要的现实意义。经过测试,他们的模型具有更接近公共设置测试的统计能力:仅用早期私人设置模型所需数据的40%就实现了相同的统计能力。由于效率的提高,Reed算法可以用于更小的数据集,而以前的模型需要大量的数据。
标签:学者,奖项和成就,研究,学生,酷项目