【Deep Dive: AI Webinar】基于共享的数据治理

大家好，欢迎来到这场由开源促进会主办的深入探讨人工智能网络研讨会系列。今天我们将听取 Alek Tarkowski 和 Zuzanna Warso 关于基于共享的数据治理的演讲。我希望你们喜欢这次分享。最后我们会回答大家的问题。

Zuzanna：

大家好！很高兴来到这里。感谢大家今天的到来。我们是 Open Future，一个数字公地的智库。我叫祖扎娜·沃索，和我一起的是亚历克·塔可夫斯基。你好。亚历克，接下来交给你了。

Alek：

我们很高兴能成为 OSI 深入探讨开源人工智能的一员。今天我们可以谈论数据共享、人工智能、数据集治理，主要是关于数据集的。因为我们认为，关于数据集的管理、共享和公开的方式是争论的关键。这基本上是关于 AI 发展的民主化。数据共享对我们的组织来说是一个非常重要的理念。在讲座中，我们会回到过去做过的一些工作，我们认为这是我们应该思考的关键思想之一 ——人工智能如何发展成为开放、协作或民主的技术。

首先，我们讨论内容共享。换句话说，我们不能用 Python 编写代码。顺便说一下，“内容” 这个词并不理想，“数据” 这个词也不理想。我可能会在演讲中交替使用这两者，注意这是两个不同的东西。但最后，当我们说到数据集时，对话通常会捆绑或混淆各种资源，其中有数据信息和各种各样的内容。很长一段时间以来，我们一直关注如何管理内容共享，这些是我们组织的主要工作。我们相信它是一个知识共享，文化共享管理者组成的社区。我们真的需要和人工智能开发者谈谈。因此，我们很高兴能参与次对话。先给大家介绍一下背景。

我们如何看待过去 12个月的发展? 在这段时间里，BLOOM 和 Stable Diffusion 发布了开源人工智能大模型，并开始成为人们关注的焦点。一方面，在这方面有很多关于模型共享、框架和创新的探索，有些是好的，有些是坏的，还有一些，在我们看来，显然是名不副实的。但是，值得一提的是，RAIL (负责任的人工智能) 许可证正在开发中。澄清一下，我们不认为它名不副实。Llama 2 或最近的新 Falcon 180G 模型这样的项目采取了更有争议的方式。二者的许可证都有一些我们认为有争议的条款，但不是本次演讲的主题。

我们提到模型共享领域的创新，是因为我们认为数据集共享领域的创新较少。有一个 ChatGPT 和 GPT 白皮书的负面案例。我们认为这是在数据共享、信息披露和透明度的最差实践案例。Meta 从 Llama Llama 2 走了回头路，新模型的方法不那么透明。就在几周前，AI2 研究所的新模型 Dolma 就是一个正面的例子。在这里，我想我们也应该提到一个正在进行的 Book3 案例。这是一个基本上有版权的书籍的数据集，两者都无处不在，这也是现有数据集不稳定的来源。我们在这里将 “开放” 用引号括起来，因为我们认为开放的数据集和模型都是如此，但我们知道这也被用于许多其他项目。

为了给你们提供一些背景，我还想简单谈谈我们过去所做的工作。当我们启动 Open Future 时，我们想要研究人工智能共享。我们真正感兴趣的案例之一是使用公开许可的照片，主要来自 Flicker，也来自 Wikimedia Commons 用于人脸识别训练。我们和亚当 · 哈维一起工作，他是一名研究员和艺术家，他花了很长时间，对这些数据集进行了深入的研究。从第一个开始，它们的根源都是YFC100M。

这是一个引人入胜的故事。2014年，有 1/4 的现有公开许可照片，很大一部分共享资源被打包到数据集中。你可以看得出来，这正是我们这样的公共资源倡导者，我们在等待一个重大的再利用案例，清晰地展示了公共资源的使用如何带来创新和新技术的发展。但很明显，亚当通过他的研究很好地证明了这一点，这不再是被讲述的故事。相反，我们开始听到关于利用公共资源的故事，公平的资源如何被公开分享。最后，他们打破了各种社会习俗，可能还有法律规则，例如，世界上一些地方的隐私保护，这是一个很有趣的例子。

亚当给出了一个清晰的例子。看看这个数据集的白皮书，你可以看到黑体部分，这是一个公开的、典藏的数据集，近一亿张照片和视频，对所有人都是免费和合法的。但是当你深入挖掘的时候，我们发现在表面上这是公开共享许可证的，但后来你发现许可证和条件没有得到尊重，作者归属声明是一团乱。然后放眼版权之外，我们相信我们现在就必须中止所有围绕隐私，其他数据权利，研究伦理等问题。所以我们认为亚当很好地展示了这一点。有更多的人脸识别训练数据集，其中大多数都有一个麻烦的谱系。这让我们萌生了这个想法。

最后，人工智能共享的报告说，基本上数据治理真空是实际存在的。这十年来建立这些数据集的历史表明数据治理，即数据集的管理和设计，根本没有得到适当的处理。我认为很多研究人员都有这种感觉。例如，已经成功开发了数据集的数据表概念的团队。这就是我们认为需要解决的治理真空，特别是在今天围绕开源人工智能的对话中也许值得一提的是，我们所说的共享是什么意思，因为这是我们的主要论点, 如果存在真空，如何填补它以服务于公众利益，服务于人民的方式，是建立在共享观念的基础上。所以从广义上讲，当我们谈到共享时，我们想到集体的、以社区为基础的或民主的方式来管理数据，为基于个人财产的专有管理模式提供替代方案的方法，是非常广泛的项目和方法。我们试图通过出版物来组织它，试图建立一个概念框架。我们称之为“数据共享入门”，它提供了一个基于以下三个想法的蓝图：集体治理、管理访问和公共价值。

顺便说一下，我们很高兴在本会议系列中有探讨了一些数据治理的方法。我们知道，今天早些时候，在人工智能发展的背景下，有一个关于数据合作的对话，我们认为这些正是我们需要一起进行的对话。

Zuzanna：

谢谢，让我来解释一下 "数据" 这个术语。讨论人工智能数据集的挑战在于，在一个看似简单的术语 "数据"，背后隐藏着大量的来源和上下文。在关于人工智能数据集治理的讨论中，我们经常抽象地谈论数据，我们忽视了它的丰富，但数据这个词对不同的人有不同的含义，它可以引起非常不同的反应。

我们已经知道，例如，在欧盟政策辩论期间，关于数据共享、或是数据隐私和数据开放的理念发生冲突，最终损害了我们认为的公益数据共享。在这次演讲中，Alek 和我很可能在我们的脑海中有一个巨大的生成模型。因为在过去的几个月里，他们占据了我们大部分的想像。但我们尽量不要目光短浅，我们知道其意义远不止于 ChatGPT。因此，如果我们想开发一种更通用的方法或标准，我们必须考虑这种多样性。就像有各种各样的数据源一样，也会有各种各样的人工智能系统。所以对于拿着锤子的人来说，一切都像钉子，而对于人工智能来说，一切都像数据。但在将数据集放在一起之前，需要在脑海中分析一系列不同的来源。这些来源包含了事实和统计数据。严格意义上的数据，包括个人数据。但它们也包括不同的类型，正如 Alek 已经说过的，不同类型的文本、图像、音乐、艺术和一般知识的内容。因此，人工智能数据集的来源可能包括创造性作品、研究论文、整个维基百科、社交媒体、帖子、我们的电子邮件，世界上所有的开放数据，代码，健康数据等等。

因此，各种各样的数据来源表明，提出一个标准是一项挑战。所以当你看到所有这些品种和不同的数据来源，以及这个领域有多复杂时，然后你让我们来讨论基于公共的人工智能数据集。这看起来非常非常困难。那么你怎么才能理解一切呢？今天我们想提出并与大家讨论的一个想法是这样的。因此，并非所有用于人工智能训练的数据来源都可以被视为数据共享，更少的是作为共享来治理，就像 Alek 刚才解释的那样。然而，如果我们希望人工智能系统服务于公共利益，而非从数据中提取人的价值，就像我们在使用 Flicker 数据的例子中看到的，以及我们现在几乎每天都看到的。所以，如果我们想让人工智能系统服务于公共利益，而不是榨取价值，我们需要公共空间数据来治理人工智能。在接下来的演讲中，我们将尝试更详细地解释这是什么意思，以及为什么我们认为这对人工智能开发者很重要，尤其是对开源人工智能开发者。

Alek:

就像我们说的，我们的很多东西都是围绕生成式人工智能。所以我们想向你们展示的是，即使是肤浅地看一下使用的数据集，显示了需要考虑的多样性。基本上，有两种主要类型的数据源：一种是我们所说的专用数据源，另一种是使用专用数据源的网络抓取。

其中很多是我们特别感兴趣的，是在公共领域获得许可的，正因为如此，获取和使用的条件非常明确。比如维基百科，大家都知道，它是训练和微调模型的主要来源。例如 Stack，它是一堆许可代码。但显然，也有一些专门构建的数据源没有提供如此明确的规则。我又想起了 Book3，它们很受欢迎。他们创造了一个很有趣的故事。《连线》杂志上有一篇关于它的文章，基本上是以开放的轴心和开放的精神来构建的。但是它的法律地位最多只能被描述为不稳定的不明确来源，目前，它在美国正面临一系列严重的法律挑战。

以上是一种数据形态。另一个完全不同的是网页抓取数据。通常，这是从 Common Crawl 获取的数据，或者它是 C4 数据集的一个子集，然后就不清晰了。如果你仔细观察，就会发现有很多种方法。这在 Common Crawl 管理员的观点中得到了承认。他说，我们没有制作抓取的内容，我们只是在网上找到它。因此，如果内容有问题，我们不担保也不承担责任。所以，如果你使用它，在使用方面，但这适用于 Common Crawl 本身作为框架，然后隐藏在这个框架内的基本上是一个动物园，一个最好的数据区域。

当然，我认为值得一提的是，为什么要使用这些数据。我们思考的部分原因是，我们在面部识别训练中注意到的故事。事实证明，没有足够的关注来确保数据可以合法以及适当的使用。但我认为故事的另一半。在许多情况下，有例外情况使这种使用成为可能，或者至少有一种假设是可能的。在美国，这是关于合理使用的争论。在欧洲，这是版权和数字单一市场指令中引入的文本和数据挖掘规则。

所以，如果我们把这两种数据考虑在内，真正需要注意的是网页抓取或网页扒取数据，因为我们认为，只要机器学习项目依赖于原始互联网上的数据来源，这似乎是必要的，这就是你找到数十亿符记（token）的地方，那么你就不能将数据集治理建立在明确的规则之上。例如，对于公开授权的数据，对于公开授权的内容，你不能只拥有基于维基数据、公共开放数据存储库和开放获取文章的数据集，你还需要考虑数据治理标准。我们想提到的另一件事是关于在网络抓取数据中发现的公开许可内容，这是其中的一小部分，在这些专门构建的数据集中。到目前为止，我们需要考虑版权之外的问题。我们已经在 AI Commons 论文中写过了。最近在《科技政策》上有一篇很棒的文章，作者是普莱斯伯里·德里克·斯莱特，认为这超出了版权的范畴。

值得注意，我现在要讲的更多的是关于隐私，关于公开的问题，或者人格权，围绕着研究伦理，围绕着其他被广泛理解的数据权利。当你考虑到这些因素时，你基本上需要更精细的治理。换句话说，基于公共的方法。

Zuzanna：

谢谢，Alek。所以 "尽可能地开放，有需要才封闭"。这是研究人员使用的原则，也是研究资助机构推广的原则，因为在最初收集数据的目的之外，数据的真正用途是研究人员每天都要处理的问题，科学进步依赖于对数据的获取和经常对数据的再利用，即所谓的数据的二次利用。所以在这种情况下，就像我说的，有一个原则是尽可能地开放，有需要才封闭。这应该指导如何使用和重用数据。有一种狭隘的理解是，正如我提到的，开放是为了促进数据的可用性，并加快研究，但同时，数据应该是封闭的，以保护受试者的隐私。所以在这里，平衡主要是在开放性之间完成的，即研究数据的可重用性。另一方面，隐私，人们的全部数据被使用。因此，这一原则在研究背景下的应用范围更为狭窄。但我认为，从更广泛的意义上讲，它也可以是相关的，也可以是有用的，尤其是当我们放大 “必要” 部分，我们问 “必要” 到底是什么意思。从另一个角度来说，我们想要保护的利益是什么？为什么要保持分享的精神? 为了回答这个问题，我们提出了这四个原则，以某种方式总结 Alek 所说的这些不同的担忧。这些挑战是在数据被重用时出现的，让我向你们介绍一下这些原则以及我们在这方面的想法。

第一原则是，我们应该尽可能多地分享，尽可能公开地分享尽可能多的内容和数据。这基本上是开发基于共享数据集治理的先决条件。没有共享，就很难谈论数据共享或公共空间数据集。但有趣的是，基于共享的数据集治理，实际上可以通过两种方式来解读。首先，它可以意味着数据集应该作为公共资源来管理，这是第一种解释。但这也意味着数据集是建立在公共资源的基础上的，有它们的根和公共资源，并使用 Commons 作为混合不同隐喻的资源。所以这些理解通常是互补的，特别是在基于开放互联网资源的数字共享和数据集的情况下。所以，我们希望这些原则触及到这两个方面，所以这两个数据集都是公共的，还包括建立在开放的互联网和数字公共资源之上的数据集。

因此，第一个原则强调了开放共享数据源和数据集的重要性。因为这其中有明显的联系。当然，我们有一些注意事项，我一会儿会讲到。但目前，训练数据的可用性是例外，而不是规则。而商业人工智能模型也越来越像一个包，Alek 也提到了这一点。在使数据透明和可用方面存在倒退。公开可用的训练数据集的稀缺性，使得开源人工智能开发人员很难与拥有大量专有数据的大型科技公司竞争。除了从互联网上抓取的数据外，还来自公共互联网。因此，所有这些都是支持公开共享数据源和创建可广泛访问的数据集的论点。话虽如此，由于不同的原因，这些数据抓取实践和从不同来源收集数据是有问题的。这些理由并不局限于创作者的隐私或权利。要认识到将不同的数据集整合在一起的挑战和问题，我们有剩下的原则。

因此，这就引出了我们想要提出的基于共享的数据集治理的第二个原则，治理机制应该提供版权工具，并以尊重数据主体、创造者或管理者的决定为基础。基本上，我们相信在网上分享信息的人，应该对该信息是否用于人工智能的训练有发言权，不管这是他们的创造性工作，还是他们的个人数据。欧盟有一些法律框架提供了一定程度的保证，个人信息或艺术创作将受到保护，不得用于人工智能训练。我这里指的是版权指令下的文本和数据挖掘规则，或 GDPR 关于使用公开可用数据的规定。这些规定是很好的起点但就像法律通常的情况一样，问题当然在于执行（魔鬼藏在细节里）。我认为需要更多的社区和道德标准来平衡机构的开放性和共享性，对于那些创造的人来说，人工智能使用的数据集的数据源可能是什么？过一会儿，我将更详细地讨论可能有助于进行平衡活动的机制。但就目前而言，我认为重要的是要知道，这应该不仅仅意味着是或否和进或退。我们相信一种更加细致入微的方法。例如，尽可能地使用人工智能的类型。

数据集治理的第三条规则涉及回馈共享。目前，几乎没有任何保障措施可以确保在人工智能应用程序中使用开放或公开可用的数据不是剥削性的。换句话说，要确保人工智能的发展不是搭别人的劳动和努力的便车。数字公共资源随处可见，且重度依赖于免费劳动力和志愿者，当然，有时候人们抽出时间想要为这个社区共建的资产做出贡献是非常令人鼓舞的。但如果我们期望人们为公共资源做出贡献，我们必须适当地奖励创造者和管理者，使他们能够继续建设和关心数字共享资源。在缺乏更可持续、更包容的模式的情况下，只有那些有时间做志愿者的人才有能力参与。这可能会对数字公共资源的多样性产生负面影响，然后可能会转化为偏见和歪曲。这些社会经济条件下的数字公共资源，创造和维护，对这些项目的长期可行性至关重要。我认为，重要的是要知道，方法可能因具体领域而异，领域和正在考虑的数据或数字共享的性质。然而，我认为我们想说的是，在倡导开放和数字共享时，保持谨慎是很重要的，特别是在艺术和文化生产的背景下，没有全面了解参与创作的人的工作条件。

最后，第四个原则，保护公共资源免受污染。因为，就像我说的，我们一直在思考生成式人工智能。但这一原则也可能涉及其他风险。我们通过回馈创造者和管理者来保护共享资源。这和我刚才讲的有关。但也存在其他类型的风险。在生成式人工智能的情况下，当输出反馈到共享池时，存在污染共享资源的风险。但是，通过保护共享资源，我们也意味着它们的质量得到了保障，它们没有固有的偏见。

我认为，主要的结论应该是，将人工智能可用的数据、内容和数据集视为共享资源，提供一个框架来平衡开放和共享与确保数据可持续性和保护其创建者的利益的需要。我们希望它也有潜力解决独立的、开源的人工智能开发者所面临的数据劣势。通过这样做，我们认为它解决了我们所谓的开放悖论。所以现在的情况是，开放既是挑战，也助长了权力的集中。那么在实践中呢？这是否意味着，这些原则如何被操作？

我已经提到了一些可用的工具，现在让我快速概述一下，共享空间人工智能数据治理可能需要什么。列表并不详尽，是仍在发展的想法的样本。因此，许可证无疑扮演着重要角色。但我不想讲太多细节，我只想要指出，这也是 Alek 在讨论 Rail 许可证以及它们是否开放时提到的。我认为在我们对共享空间数据集治理的思考中，可以预见到引入许可证的可能性或者使用条件，可能与我们从当前的开放许可证方案中所知道的不同。例如，我们现在所知道的是所有商业许可元素。但我们也可以设想引入其他条件，例如，非军事用途或非安全用途。

从我们对人工智能共享的研究来看，我们知道这些是在互联网上分享数据的人关心的事情，所以我开始谈论开放性，但考虑人工智能是否开放的第一步应该是透明度。没有透明度，就很难考虑开放。所以，我指的不仅仅是透明度和知道哪些数据被用来训练人工智能，但也要知道数据集是如何创建的，数据源是什么，数据是如何注释的，等等。因此，透明度将是起点，然后将首先设置使用数据集的条件。这里有授权许可的角色，但这不仅仅是版权问题，因为版权并不能解决所有与我们的数据集如何被使用有关的问题。我们需要参考其他机制，比如隐私权，还有人格权。也许我们甚至需要想出新的方法来保护我们的网络形象。我知道这一点特别重要。比如，以某种方式逃避版权保护的表演者。在某些方面，数据保护机制可能无法完全解决这个问题。因此，在设定使用条件的同时，还应该建立一个可持续的、包容性的生态系统，因此，商业模式将奖励创造者并允许人们参与治理。那么，所有这些与关于人工智能开源和机器学习定义的争论有什么关系呢? 下一张幻灯片。

Alek:

也许在这里我只想再说一遍，如果你看一下我们的数据共享入门，然后我们尝试用这些不同的元素绘制和创建一个蓝图，这通常感觉像是来自完全不同的监管辩论和治理对话，这些可以放在一起。我们知道还有许多其他团队在研究些框架，我们认为这就是我们要走的路，不要寻找某个单一的解决方案，就像祖扎娜说的，一个更好的锤子。但我认为我们需要建立一个工具箱。

Zuzanna：

这些都是治理机制。为了做到这一点，你需要考虑不同的法律领域和不同类型的方法。所以这需要跳出常规思考。所以把这个对话放在关于开放人工智能和开放机器学习定义的讨论的背景下。所以，很多人认为，我们也倾向于同意他们的观点，机器学习系统和人工智能系统要真正开放，在其开发中使用的训练数据必须以可重用的格式提供。我们已经知道，开源人工智能的发展受到开放训练数据稀缺的阻碍。因此，在定义开放人工智能时，对数据没有一点野心会违背开放精神。所以这可能会使机器学习系统的开放性对开发人员来说毫无意义，进一步阻碍了开源人工智能领域的发展。但另一方面，雄心勃勃会鼓励社区投资开发这样的数据集。我们希望通过遵循我们概述的原则，管理数据集成为共享，通过实现和使用这些工具来实现这些原则，这为以公平和可持续的方式创建和维护这些数据集提供了路线图。

Alek:

我想这是最后一点，有很多关于如何定义标准的讨论。但我们也想说，我们需要围绕这点启动任务。正如 Zuzanna 所说，这些数据集至关重要，这就是作为公共资源共享的数据集需要被标准认可的原因，但它们也需要被建造。因此，我们希望看到更多的对话和更多的行动，共同建立这些数据集。这是内容管理员和 AI 开发人员可以共同完成的工作，使用开放及共享空间的模型。我们认为，正如祖扎所说，这是必要的，只是为了支持这个领域的发展。它将为开发人员提供安全保障，他们处理的数据是合法的，但也是公平的，是尊重权利的，是公正的。在这个过程中，当然，这不仅仅是开放数据，正如 Zuzanna 所说。是关于公平劳动的，是关于保护数据权利我认为这是我们真正感兴趣的。关于公共选择人工智能的讨论越来越多。有很多机构可以参与其中，也有一些公民项目，我们是维基媒体的忠实粉丝，但公共机构也可以发挥强有力的作用。

Zuzanna：

好，我想就这样了。谢谢大家的聆听。我们期待着你们对我们所分享的内容提出你们的见解，谢谢你。

Zuzanna Warso

Director of Research, Open Future