人工智能面临新挑战:怎样解除学习?
机器学习概念图。
人工智能软件通过大量的数据、复杂的算法得出各种结果。现在这个领域遇到了新的挑战:当某些用户要求把自己的数据从系统中删除的时候,这些系统怎么办?
传统的电脑、数据库就是简单地把数据删除。但是对于人工智能系统情况就不是这么简单。这就像在一个人成长过程中经历的事情,对这个人日后的性格、人生观造成种种影响,你怎样才能从这个人的记忆中删除某件事情,仿佛它从来没有发生过?
这正是现在人工智能领域面对的新挑战,研究人员把这个课题叫做人工智能解除学习(unlearn)。研究人员想到的最直接的办法是,把要删除的数据从原始数据库中删除,然后让整套人工智能系统从头开始、重新训练得出新的结果。但是显然,这个办法耗费的资金和时间成本太高,不可行。
近年来,人工智能领域出现的隐私数据争议,逼迫研究人员必须找到方案实现人工智能解除学习。
例如按照欧洲和美国加利福利亚州的法律,任何公民即使最初同意分享他们的数据,但是后来他们改变了主意不愿分享,所有使用了他们数据训练而成的人工智能系统,都要把这些数据、以及这些数据造成的影响从系统中删除。
再比如今年年初,美国联邦贸易委员会(FTC)要求面部识别软件初创公司Paravision从系统中删除一组照片。这些照片没有得到正式授权,可是他们的人工智能面部识别系统已经在包括这组照片的大数据基础上训练而成。
目前人工智能技术还没有好的方案可以解决这个问题。致力于人工智能解除学习领域的学者之一美国宾夕法尼亚大学(University of Pennsylvania)教授罗斯(Aaron Roth)告诉连线网(WIRED):“新兴的领域正是这样,需求和实际能力之间存在落差。”
2019年一些研究人员提出一个办法,把人工智能系统使用的数据集分成很多小单元,分别进行训练,最后再组合在一起。将来哪个数据需要删除,只要重新训练受到影响的那个小单元,这样不用拆解整个人工智能系统全部重来。
然而,罗斯与哈佛大学、斯坦福大学的研究员合作完成的一份研究,发现了这种方法存在明显漏洞:如果要求删除的是一系列数据,而且具有时间先后的顺序,那么这种方法就完全无能为力。这份研究6月8日发表于预印网arXiv。
不仅如此,这些系统怎样向监管机构证明它们已经把这些数据造成的影响完全从系统中剔除?另一些研究人员则开始了这方面的研究。
牛津大学教授、研究数据保护的专家宾斯(Reuben Binns)说,近年来在美国和欧洲,越来越多的人意识到自己有权利了解人工智能系统产生的结果里面,是否含有自己的数据所产生的影响。
加拿大滑铁卢大学(University of Waterloo)教授说:“现在还没有好的办法,但是将来的审计员很可能需要管理这些事情。”