【Deep Dive: AI Webinar】数据合作和开源人工智能

Stefano Maffulli：

大家好，欢迎来到由开源促进会主办的《深入探讨人工智能》网络研讨会。今天，我们将听到 Siddharth Manohar 和 Tarunima Prabhakar 谈论数据合作和开源人工智能。祝大家愉快，最后我们会留时间来回答大家的提问。

Tarunima Prabhakar :

大家好。我是来自 Tattle 社区的 Tarunima ，今天和我一起的是我的同事 Siddharth 。

我们是印度的民间科技组织，专门制造软件工具以及应对国内不准确和有害内容的数据集。我们的工作包括制作工具，用来从印度流行的研究平台收集数据以及分析印度语言和多媒体数据的机器学习模型。比如我们有像 Flutter 这样的项目，我们也通过一个名为 Uli 的工具来部署机器学习模型，用于检测印度语言的滥用。

我们从一开始就是开源的，但我们的机器学习和数据校正工作在不断发展。在这种情况下，我们发现自己进入了一个模糊的领域，但是我们正试图对自己和他人阐述我们如何践行开源的价值观，一如我们启动这个项目时所陈述的初心以及这在机器学习的背景下意味着什么? 我们决定参与这一系列的讨论，在这里其他演讲者也在思考类似的问题，我们的谈话主要围绕我刚刚提到的项目 Uli 。但这是一个初步的实践，我们要为我们的机器学习和人工智能工作制定一个全面的方法。

在我开始之前，我们应该提一下这次演讲中表达的观点是一些讨论和阅读的结果。最值得注意的是，我想呼吁将人工智能系统作为数字公共产品组织起来的实践社区，由数字公共产品联盟 (DPGA) 组织。特别是和我们的同事的谈话， Arnav Arora ，他是我们的数据科学家，为我们提供数据科学方面的建议。

我们在 Irene Solaiman 的关于“生成 AI 发布梯度”的论文中借鉴了很多内容。正如你们将看到的，这在我们谈论机器学习许可证的方式中是一个相当关键的部分。好吧，开放是闲谈的核心价值，但我们也把开源看作是达到目的的一种手段。

现在，对于开源，可以有几种不同的目的。ChatGPT 列出了12个原因，其中包括：法律保护，防止锁定，提供学习和发展的机会。在我们的案例中，当我们将开放定义为我们的五大核心价值观之一时，我们在一篇博客文章中阐述了这样做的动机。我们说过，错误信息既是一个全球性问题，也是一个地方性问题，它比任何单一平台或任何单一团队都还重要。在这个领域，任何持久的解决方案都必须是参与性的，也是多学科的。我们说过，开放是一种承诺，任何人、每个人都可以使用、改变，并分享他们在 Tattle 为自己独特的目的而制作的工具。

最后，我们提到开放不仅仅是开源软件，它也与交流有关，但它基本上是开发这些工具的一种手段，这些资源是公共的。所以我们在 Tattle 最关心的结果，当我们谈论开源是适应、扩展和透明时，它最终成为了社区共同所有权和社区发展的代理。我们现在在这个目标的背景下谈论我们的项目 Uli ， Uli 是一个浏览器插件，可以检测和调整印度地区语言中的性别滥用，它还为集体响应提供了工具。

这个项目由两个因素推动，其中之一是印度边缘化性别的人受到的骚扰比其他国家的人高得多。我的意思是，边缘化性别的人是全球范围内的目标，但在印度，顺序是，对于某些研究来说，看到这个的骚扰程度要高一些，比美国和英国同行收到的要多。第二，审核工具很少，包括开源工具，而且缺乏适用于印度语言者，其它许多缺乏资源的语言也一样。

我们去年推出了一个基于机器学习的功能，它从一个人的推特，现在是 X，的时间轴上编辑辱骂式的推文。这个模型依赖 18 名活跃人士所注释的分为三种印度语的 24,000 条推文，每 6 位活跃人士负责一种语言的注释。然后我们用这些数据对现有的模型进行微调。因此，最适合我们使用的是出色的 Twitter-RoBERTa 。基于去年部分数据所做的所有工作都将被公布，并在最大限度的开放政策下被释放。数据将被共享或已经被共享 OdBL 许可证下进行了共享。代码遵循的是 GPL 3.0 许可。这个模型放在 Hugging Face 上，当模型和数据结合在一起时就可以下载。它可以被调查、复制和发布。

但展望未来，我们正在考虑改变许可条款，特别是数据的许可条款，这就对该模型授权给下游的方式产生了影响。数据许可和模型许可之间的紧张关系是本次演讲的主旨。由于我们花了很多时间讨论数据许可或对数据许可替代方案的需求，我认为理解这些数据的含义很重要。Uli 数据基本上是数据集的集合，每个数据集都描述了滥用的实例。目前，这个 Uli 数据包括 450 多个侮辱性词汇的列表，这是针对印度边缘化性别人群的。这个列表包含印地语、泰米尔语和印度英语中的单词。我们现在正在众包元数据，例如，这个术语的含义是什么? 这个侮辱性或冒犯性的词汇，针对的是哪些不同的身份? 这也包含了来自于支持本项目的活跃分子社区的众包元数据。另一个被纳入 Uli 数据的数据集是我之前提到的，这是一组由活跃者和研究人员注释的 24,000 条推文。未来，Uli 的数据可能会扩展到包括来自其他社交媒体平台的图片和帖子，而不仅仅是 Twitter/X 。

考虑从现有的开放数据许可协议出发，来制定替代的数据许可政策主要有两个原因，我们很快就会讲到。但在我把它交给 Siddharth 之前，我还想做一些背景介绍，亦即我们如何看待我们目前建立的机器学习模型。所以这个模型是通过微调我提到的现有模型中基于特定环境的数据所建立起来的。这个模型正在被 Uli 插件使用，但我们不会把这个机器学习模型作为产品来推销给其他团体和公司。我们确实认为数据本身是其他平台可以用来查找其内部技术和研发的相关消息。

所以在我们找到相反的证据之前，我们正在研究一种机器学习模型，任何关于许可证或整体机器学习模型的对话，都是为了进行审查并获得反馈。正如我们所说，某种程度上使共同所有权成为可能，如果人们愿意的话，他们也可以对这个模型做出贡献或进行深入了解。说到这里，我将把麦克风交给 Siddharth 。

Siddharth Manohar：

我们考虑过的一种形式是按目的区别访问。这就区分了学术研究机构、政府机构、非营利组织或对数据有商业应用的公司对数据的使用。

所以这里的区别在于上述这些合作对象，谁可以将这些数据用于研究或某种对社会有益的目的，例如防止滥用，或研究这些滥用是如何起作用的，也许可以改进网路滥用语言的列表等。这些都是免许可证的，而任何想要将其产品化的人，任何想要建立商业解决方案的人，将被加上关于补偿或付款的许可证条款。

这与我们之前讨论的一致，我解释了如何正确认知创建这些数据注释的劳动投入，这将使任何一种产品，或任何一种对这个数据集有用的应用成为可能。

当然，另一方面也是关于防止滥用，并确保这些数据有防止高风险事件发生，或者任何对数据滥用的高风险影响的闸门。一方面，它防止了这种情况的发生，但另一方面，它也迫使我们的许可证有一个有效的审查过程，以更多了解这些数据在世界上是如何被使用的，如何影响其他社区，如何影响平台和社会，一旦它在某种意义上脱离了管理。

这又回到了数据公正的概念，这些框架的价值是建立在数据公正的基础上的，是一种很重要的表达和解释。现在由 Tarunima 接着讲述机器学习模型。

Tarunima Prabhakar :

所以，这对我们来说意味着，既然没有向公众完全发布数据集，这种模式将不可避免地成为一种面向公众的模式。这里有三个选择。有托管访问，也就是说，我们把模型放在一个网络界面后面，然后人们就可以用特定的帖子查询它，模型会吐出来回答这是否是网络语言的滥用。有基于云的 API 访问，其中模型托管在云上，人们可以在基于云的模式上进行一些实验和调整。第三，它是可下载的，也就是说人们可以下载整个 Uli 模型，你可能会找到一个单位，摆弄、研究它。所以它将不会完全开放。

所以，没有数据集。这是最开放的了。既然我们不打算将我们的机器学习模型产品化，我们不打算在讨论中考虑基于云的 API 访问模型，那么，在我们的例子中，比较的结果是托管访问的模型与可下载的模型之间的比较。在这个阶段，重要的是要强调，我们不是在谈论对机器学习模型的不同访问。Siddharth 前面描述的所有场景都是关于对数据的不同访问，以及关于机器学习模型许可的决定（无论是商业实体还是非商业实体），如何统一适用于所有人。

但是，您使用该许可模型所能做的事情显然会发生变化。这取决于你是否可以访问数据以及你可以访问的数据的形式。Siddharth 会描述另一种不同的数据访问方式，也就是按时间对数据的区别访问。

Siddharth Manohar：

按时间差异访问数据，这将是一种完全不同的构建区别访问的方式，然后我也会强调这是对数据的访问，而不是模型。这里的前提是为 Uli 提供动力的数据库的新子集。由于网络滥用的本质，这部分数据实际上更有价值。因为滥用行为演变的方式，语言演变的方式以及在线使用的方式。这种价值在某种程度上反映在我们处理数据许可的方式上，也就是说，旧的数据不是当前的问题领域，比如说不是时下热点话题，也就是说，这不是在线材料持续状态的一部分，不管它是什么，它都不是一个有问题的领域，因此可以是开放的。

而更新的数据从注释中获得了某些特定的附加价值，这甚至可能需要一定程度的专业知识在某一语言滥用领域的专业知识，某一种滥用，在某个冲突地区，这类数据的许可将受到限制。这种专业知识，这种劳动投入，这两种东西都反映在这种许可模式中。真正的体验是在接收端，真正获得这种专业知识，也反映在这上面。

就网络语言滥用而言，它是如何反映在我们对滥用的理解中，这种数据集的门控防止了误用，阻止了我之前描述的那种防止滥用的消除。它可以防止访问这种特定数据集可能导致的任何类型的滥用放大。这就是对时间差异的访问类型的理解，或者根据数据的相关性或时间相关性。

Tarunima Prabhakar :

在这种情况下，拥有最新的数据是有好处的，但至少对于每个人都能获得的旧数据来说，我们可以探索一种完全开放的机器学习模型的可能性，在这种模型中，任何人都无法获得更新的数据。我们又回到了之前的情景，不同目的的区别访问，我们必须决定是否要释放机器学习模型链，在托管访问或可下载模型下。

所以，我认为这可能是显而易见的，但是，我们将重新为自己重申一下。也就是说，如果数据是可用的，可下载的模型就是一个完全开放的模型。

因此，可下载模式允许更高程度的扩展。它允许更大的透明度，但也允许更大的滥用。托管访问允许没有数据，允许最小的扩展性，适应性和透明度，滥用也少了。

但是，即使一般数据是可用的，在扩展和透明度方面，可下载比托管访问更好。我们会在哪里考虑使用托管模型而不是可下载模型，因为我们担心滥用，但在这里我们应该反思我们如何看待滥用机器学习模型。

所以 Siddharth 说了一些关于数据滥用的问题，但是机器学习模型本身是对某事是否为滥用提供影响的载具。我们不认为我们的主要威胁媒介，比如个人社交媒体。你知道，印度的内容创作者或喷子或喷子农场正在骚扰人们，我们并不认为他们会花时间在一个高度专业化的模型上，以滥用侦查去追踪其他人。

因此在这个阶段，我们还不清楚这个模型是如何被滥用的。这就是为什么对我们来说，可下载的模型才是更好的选择。可下载比托管访问更好。这在实践中意味着什么? 假设在情形一中，有不同的数据访问方式，通过某人请求数据的目的。

对于那些拥有数据的人来说，它提供了与开源模型类似的优势。他们可以调查，给我们反馈以改进它。但对于那些没有数据的人来说，他们所能做的就是微调模型，可以进行一些调查，并将我们的模型与其他模型进行比较。

当我们讨论按时间区别访问数据时，它使机器学习模型将旧数据完全开源，所以它不是最新的模型。但在某种程度上，它是一个开源模式，这第一种按目的对数据的区别访问是不被允许的。这个将对公众开放，并在 Uli 中使用的模型，是一个浏览器插件。在这两个模型之间，Uli 模型用最新数据更新可能会有滞后，但公众可用的模型是在旧数据上训练的。

但是人们仍然可以把旧的数据附加到他们自己的数据集上，你知道，在某些方面创建和研究模型，这绝对是一个比按目的区别访问数据更开放的解决方案。我们并不是说，我们会选择其中之一。这个对话是考虑我们如何授权数据的一部分。这对机器学习的开放和扩展意味着什么，或者机器学习模型的透明度? 这是我们实际上如何授权数据需要考虑的。

我们有可能将这两种模型结合起来，这是为了某些目的，有不同的考虑，或者可以访问不同时间范围的数据，某些用例，获得实际的最新数据。这对机器学习模型来说意味着非常混乱，就像矩阵变得非常复杂一样。

请随时给我们反馈。我们来这里也是为了问答。谢谢！

Siddharth Manohar

Data Governance Consultant