【Deep Dive: Al Webinar】人工智能数据隐私

Michael Meehan 开源社KAIYUANSHE



大家好,欢迎来到本场由开源促进会主办的深入探讨人工智能的网络研讨会系列。今天,我们将听取 Michael Nihan 对人工智能数据隐私的看法。别走开,我们将在最后回答大家的问题。


大家好,我叫 Michael Meehan。我是 HOWSO 公司的首席法律官兼总法律顾问。我已经帮助很多公司在筹资和收购准备中取得优势,我也帮助启动了一些开源项目,我将在这里多谈一点,并为许多初创公司提供建议。您可能最了解的是我在 Uber 领导知识产权部门的工作,以及在 Google 担任知识产权律师的经历。


在成为律师之前,我获得了计算机科学博士学位,并在许多实验室担任研究员,包括斯坦福大学、意大利医院、伊士曼柯达(如果你还记得柯达公司的话),还有瑞士政府的研究实验室。我还曾在许多公司担任过工程师,在成为律师之前,我从程序员一路晋升为首席技术官、工程总监。这是关于我的一些信息。


HOWSO 公司大约成立于六年前,当时我们以 Diplane Corporation 的名义成立。从那以后,我们重新命名了。我们还启动了一个开源项目,我们的整个项目都是为学术研究的学生和业余爱好者准备的,他们可以随意使用它。这就是我们的希望,我们今天要把它发布出去。


今天,我要和大家谈谈数据隐私和人工智能。人工智能已经取得了巨大的飞跃,这就是为什么我们要举办这个网络研讨会系列,这也是为什么在国会、在白宫、在世界各地有很多讨论和很多潜在的立法正在进行。当然,人工智能公司的律师和首席法律官会密切关注这一点。目前很多立法正在进行,这是思考数据隐私和人工智能的好趋势。


我想我们都知道私人数据会进入人工智能模型,所以机器学习引擎会吸收私人或是是非私人的信息,并建立任意模型。但今天我们要讨论的是,如果你建立一个基于个人信息的模型,根据你使用的人工智能类型,有不同的方法来思考数据在过程中可能会如何泄露,这是每个人都需要计划的事情。


人工智能的最新进展使得保护这些用于训练这些系统的个人信息变得越来越重要。首先,我们真正需要理解的是,人工智能系统可能会无意中泄露用于训练人工智能的数据,并产生包含该个人信息的结果。这是一种可能性,当然不会每次都发生,但会发生吗?可能。


我的意思是,我想我们都看到了 Copilot 的一些例子。Copilot 有能力透过某些提示来重现大量的代码,以产生用来训练 Copilot 系统的信息。这是已经发生过也被报道过的事情。现在,我们将从另一个视角看待这个问题。在这里我们看到了一个最著名人工智能模型泄露数据的例子,Copilot 是一个从 Github 获取大量信息和代码的模型,它会广泛地再生产信息,让你更快更有效地编码,并且有一些理论保证不会产生太多的信息,但我们也见过一些例子不是这样的。


所以,这里的 DocSparse 能够用一些适当的提示来重现代码,它能够生成 Copilot,本质上是它的整个 cs_转置函数,基本上和读进去的是一样的。当然,这种情况不会每次都发生,但这些都是我们必须考虑的事情。你知道,作为人工智能专家,我们需要考虑这样一个事实,即我们的模型可能会泄露输入的信息


作为另一个例子,你知道,也许更引人注目,我们有一个来自谷歌和 Deep Mind 的小组,讨论无意中从 DALL-E 中提取信息,它源于 Stable Diffusion。你可以看到训练图像几乎是一样的,也许是他的双胞胎,没有什么不同,我能很容易地发现制作的图像基本上是相同的。我是基于一个特定的提示,我说了某人的名字,这里是训练图像。我们看到这些,也许头发有点不同,但我们看到这些基于神经网络的系统,真正有潜力产生原本存在于训练数据中的信息,这是我们需要考虑的一个方面。


所以如果你在使用人工智能,用私人数据训练它,有一种可能性是,您的模型将在某些提示、某些决策场景下产生用作输入的信息,其中一些可能是私有信息。这是要记住的,我们稍后会讨论可能的解决方案。


你要确保的第二件事是,你有适当的许可去使用你记录的个人信息,我不打算在这方面深入讨论,但我想我们都知道世界上有很多隐私法。幸运的是,这些法律有一些相同的地方,所以你对待一个司法管辖区的人的方式和你对待另一个司法管辖区的人的方式是相似的。但情况并非总是如此, 所以这是一个复杂的行业。103 个国家有国际隐私法,这是令人震惊的,你必须遵守这些国家的隐私法,得到他们的许可。在美国、CCPA、GDPR、俄罗斯都有自己的法律, 中国、日本、澳大利亚都有,我们在所有这些地方都有客户。我们得到的数据是由这些不同的数据点的数据隐私法所控制的。因此,我们必须确保我们遵守所有这些法律。更复杂的是,还有一些人工智能方面的法律,所以使用人工智能处理个人数据会有一些法律上的重叠。我想我们都听说了欧盟正在实施人工智能法案,欧盟和英国加州刚刚推出了自己的法案,提出了各自的人工智能法案,这很不幸。我更希望有一个联邦立法来简化事情,但是我们都知道美国联邦政府正在努力,中国有自己的人工智能法律,我相信,就像数据隐私法一样,我们将在世界各地看到很多人工智能数据隐私法。


所以在你训练你的模型之前,你要确保你有所有的权利去使用你所有的信息。你要在训练模型之前做这些,你要确保你有权利这么做,如果你想知道如果我们没有使用所有数据的权利,这对你的业务来说可能是半灾难性的。这取决于所使用的数据,所提供的信息,以及被你的模型所吸收的信息。


关于这一点,最主要的例子可能还是 Everalbum 和联邦贸易委员 (FTC) 许可法令。Everalbum 是一家允许消费者上传照片的公司,他们在公司存续期间的某个时候,在其相册中推出了图像识别和面部识别功能。从本质上讲,这些相册包含了个人信息,这就是脸部的个人隐私信息。当时有许多与面部识别相关的法律和这起案件相关,Everalbum 也试图遵守这些法律。他们在一些司法管辖区得到了许可,但问题是并没有获得模型所使用的所有信息的许可。因此,一方面,他们有权利对一组数据进行面部识别,而他们没有权利对另一组数据进行面部识别。把所有这些混合在一起,你会建立一个部分信息已授权,部分信息未获得许可的模型。所以把这些结合在一起,Everalbum 就能够制作出人们可能喜欢使用的东西。但是联邦贸易委员要求 Everalbum 将没有得到正式许可的数据拿出来。这是一个没有倒带按钮的基于神经网络的系统,所以为了取出数据,你必须用你得到许可的数据重新训练整个模型。


我不是太清楚 Everalbum 背后真正发生的事情。我猜测他们并没有掌握所有的训练数据,或者他们无法区分有许可的训练数据和没有许可的训练数据。顺便说一下,我在这上面没有任何私人信息,我只有我所读到的和我所写的关于我对这个问题的看法,所以无法区分哪些信息获得了适当的许可,哪些信息没有获得适当的许可。这很可能导致他们无法从经过适当许可的数据中创建一个新的模型。只是有部分许可的数据不足以训练他们的模型。无论如何,这都是灾难性的。如果你现在找 Everalbum,它们已经不存在了。


因此,由于最初这些无法绕开的许可,最终导致了大多数人所说的 “永远的消亡”。所以你需要咨询专家或律师如何使用这些训练模型的正确许可,还要考虑一些其他的事情。除了神经网络还有其他类型的模型,有基于实例的模型,这使得提取数据变得容易得多,它们通常也能更好地处理小数据。如果适合您的情况,可以考虑基于实例的模型。


所以要考虑的第三件事是,除了使用真实的个人信息来训练模型之外,还有其他选择。这是非常吸引人的东西,在某些情况下会适用或者完全不适用。为什么我说要用一些不是真人的信息训练模型呢?因为如果你使用个人信息以外的东西来训练模型,那么你就有希望从我告诉你的前两件事中解脱出来。人工智能系统可能会无意中泄露用于训练模型的数据。如果你用非个人信息训练你的模型,你就不会泄露个人信息。第二,如果你有权使用虚假的个人信息来训练你的人工智能模型,那么你也可以摆脱 Everalbum 的问题,因为你只需要对初始数据有权利。


我会讲更多的细节,这是我们在 HOWSO 公司里经常谈论的事情。我相信其他公司也经常谈论这个问题。所以一个特别吸引人的方法是,使用真实的个人数据来创建一个统计上相似的合成数据,并用这些合成数据训练你的人工智能模型。让我来告诉你为什么这有帮助,如果你有权从个人数据中创建合成数据,你可以创建一些权威人士所说的 “适当创建的合成数据” 。基本上,如果你能创造出具有效用统计相似性的东西,并且实际上是真正独立的,所以可以证明,不需要重新创建个人数据,然后你可以使用合成数据来训练你的人工智能系统。


你有一个最初的权利创造这个合成数据,这是什么意思呢?某些法律,如 GDPR , HIPPA ,确实限制了你可以用它做什么。现在,假设你有一些被收集的东西,并且适用于 GDPR 规范,你必须获得在 GDPR 下你想做的所有事情的确定权利,以便以不同的方式使用这些数据。现在,如果你只是从原始数据中创建合成数据,也就是假数据,我们称它为假数据。你从原始数据中创建假数据,那么你就处于创建假数据集的情况。如果您想获得法律意见,请咨询你的法律顾问。但是,如果您正在创建统计上相似的数据,则可以证明它与原始数据不同。你有权利这么做,新数据相当于根据法律产生的,根据 GDPR, HIPPA, CTPA 等法规。它相当于你随机产生的信息,它不再受这些法律的限制,所以你可以用它来训练任何模型。


回想一下 Everalbum, 这是一个很好的例子,因为很难想象在这种情况下它是如何工作的,但假设他们可以创建人脸的合成数据,作为中间层,可以证明与所有客户的隐私信息不同。他们可以在此基础上训练人工智能模型。如果他们有权创造合成数据,他们还会处于现在的境地吗?他们本可以做很多事情,例如可以做衬衫纽扣分析,或者一种衬衫分析。比如说他们想根据你朋友的衣服做广告,这在理论上是可能发生的。它可以检测到这是一种特定类型的衬衫,然后点击它,这样你就可以买它了。一旦你看了我精彩的演讲,你可以说,我喜欢演讲者的衬衫,我们就买那个吧。所以 Everalbum 可以做类似的事情,他们不再需要单独获得这样做的许可。如果他们使用合成数据创建模型,并能证明是实际的合成数据。所以,从理论上讲,如此就能挽救 Everalbum 了。


我记得他们有个广告就是这样继续的。当你用合成数据训练一个模型时会发生什么?你在训练一个只能显示合成数据的模型。所以在最坏的情况下,你泄露了合成数据,这是在法律方面。我知道大多数观看这个演讲的人可能会说,是的,但是这些合成数据不会像真实数据那样好,这可能是真的,对吧?所以为了隐私,你放弃了一点准确性,这是一种平衡。如果你最终走上了 Everalbum 的道路,你会说,天哪,我真希望我们采纳了这个建议,并研究一下我们是否可以使用合成数据来训练这些模型。因为现在我们摆脱了一堆隐私制度,我们的处境更好了。 


我的演讲到此结束,我想总结一下,多加考虑如何保护个人隐私信息还有其他敏感信息很重要, 这也适用于商业机密。如果你是一家大型物流公司,你想要能够使用一堆客户数据来训练一个模型,你会担心流失的数据产生什么影响?这些数据可能以某种你不想要的方式被泄露;或是,你有敏感的政府数据,您希望能够确保在此基础上跟踪一些合成数据,而不会泄露实际的底层数据、个人信息或其他敏感信息。只是担忧而不采取有效行动,并不能帮助我们所有人确保人工智能技术能够安全、负责任地被使用,也不能确保以更少的风险享受人工智能的好处。



Michael Meehan

General Counsel and Chief Legal Officer, Howso



作者 | Michael Meehan

翻译 | 二一

审校 | 刘天栋

视频 | 陈玄

策划 | 李思颖、罗蕊艳
编辑 | 储黄蕾


相关阅读 | Related Reading


【Deep Dive: AI Webinar】数据合作和开源人工智能

【Deep Dive: Al Webinar】开源人工智能中赋能、透明性和可重复性三者之间的关系

【Deep Dive: AI Webinar】将SAFE-D原则应用于开源人工智能中