【Deep Dive:AI Webinar】以知识产权和赔偿为基础的保障措施
Stefano Maffulli:
大家好,我是 Stefano Maffulli,开源促进会 ( OSI ) 的执行董事,欢迎来到深入探讨人工智能的网络研讨会系列。今天,我们将会听到 Samantha Mandell, Tammy Zhu 和 Justin Darfman 的发言,他们将会讨论关于 “以知识产权和赔偿为基础的保障措施”。谢谢,我们会最后回答大家的问题。
Justin Darfman :
大家好,欢迎收看“以知识产权和赔偿为基础的保障措施”,我叫 Justin Darfman,是 Sourcegraph 的开源交流经理,我们很高兴来到这里。很荣幸能成为这个社区的一员,Sourcegraph 是一家帮助开发人员构建更好软件的公司。我们对开源充满热情,致力于实现我们的长期使命,让每个人都能编写代码。我们要感谢 OSI 组织这次活动,并邀请我们在这里发言。
今年3月,我们推出了人工智能代码助手 Cody。从那时起,我们的公司已经从像 Uber、reddit 和80%的粉丝公司这样的企业基础扩展到更多致力于开源和个人项目的个人开发者。正如你所看到的,有很多快乐的 cody 用户,这真是太棒了!Cody 正在帮助开发人员提高生产力并编写更好的代码。在这次演讲中,将涉及三个主要话题:第一部分将是我们的代码 AI 平台如何驱动 cody,首先我们会总体概述 cody 它是什么?它如何运行?我们将讨论开发人员在使用 cody 时经常遇到的一些 copyleft 问题。第二部分是如何保护我们的客户,我们的法律副总裁 Tammy Zhu 将讨论我们如何在客户使用 cody 时保护他们。第三部分将讨论知识产权和赔偿,我们的商业顾问 Samantha Mandell 将提供更详细的知识产权和赔偿,以及它如何保护使用 cody 的开发者。
正如我刚提到的,今年三月我们推出了名为 Cody 的人工智能代码助手,cody 需要一个平台来运行。我们的代码 AI 平台了解对用户最重要的代码,即他们自己的代码,我们的长期目标是让每个人都能编程,这样我们对 AI 全力以赴 Cody 回答技术问题,并直接在您的 IDE 中编写代码,使用您的代码图来实现上下文和准确性。目前,它可以通过 web 应用,VSCode 和 JetBrains 使用,该代码在 Apache License 2.0 下是开源的,我们有很棒的贡献者,我想花点时间感谢他们,他们都对人工智能、开源和 Cody 充满热情。他们对代码和非代码的贡献使 Cody 成为一个了不起的工具。特别感谢 Deepak Deepak 超出预期帮助 Cody 成为最好,他总是愿意投入和帮助,他总是提出新的想法来提高 Cody。谢谢 Deepak 的贡献!
当用户查询 Cody 时,Cody 生成一个专门用于帮助回答有关用户代码的问题的提示,像这样的提示被发送到 LLM Large 语言模型,在这段录音中,它是 Anthropic 的 Claude 2。提示符中包含的信息是 LLM 在基线模型之外拥有的唯一信息,因为 LLM 缺乏关于用户代码库的信息,上下文非常重要,Cody 通过搜索相关的代码片段来获取上下文。Cody 有两种方式来做:关键词搜索或嵌入。如果你想知道为什么我们要使用服务而不是训练我们自己的模型,让我来解释一下。我对开源人工智能的未来感到兴奋,我相信人工智能有潜力对世界产生积极的影响,我认为开源人工智能在这方面发挥着主导作用。然而,在我们实现开源人工智能的广泛采用之前,还有一些挑战需要解决,最大的挑战之一是培训定制模型的成本,训练像 GPT 4、Claude 2 或 Llama2 这样的模型,将花费超过1000万美元,耗时184天。这就是为什么我们依靠与其他公司(如 Anthropic 和 open AI )的合作伙伴关系来帮助推动我们的 Cody AI 平台。希望当我们都弄清楚如何定义开源人工智能的时候,sourcegraph 将能够正确地开源我们自己的模型。
租用 LLM 的一个缺点是,你不能挑选训练的内容。这可能是一个挑战,因为您不知道模型接触过的代码或数据类型。用户问我 Cody 是否接受过 copyleft 代码的培训。我花了几天时间与我们的供应商来回交涉,希望得到一个答案。但我没有得到一个明确的答案,最后,我找到了 Tammy 她告诉我不用担心,她将告诉您 Sourcegraph 如何保护其客户免受这些类型的风险。
Tammy :
嗨,我是 Tammy。谢谢 Justin 的介绍,作为我工作的一部分,我思考了很多关于使用AI编码工具的法律风险,以及如何为用户减少这些风险?所以对于人工智能编码辅助的用户来说,首先了解这些风险是什么是很重要的。所以今天我将为大家详细分析一下,然后,我将分享法律诉讼领域的最新进展,最后,我将以我们在SourceGraph 中考虑的一些风险缓解策略作为结束。
首先,风险到底是什么?以下是用户关心的问题:假设我是一个用户,我使用Sourcegraph Cody AI 来自动完成我的代码行 Cody 使用 openAI 的大型语言模型,如 anthropics,、claude 和 GPT 4,它们在大量公开可用代码库上进行训练,其中可能包括 copyleft 代码。那么,copyleft 代码到底是什么? Copyleft 代码是在开源、Copyleft 许可下发布的代码。这类授权的关注点在于病毒式传播,因此,如果您的程序是基于 copyleft 代码构建的,那么您可能无法为您的程序选择使用哪种许可协议,而您可能不得不在相同的 copyleft 许可协议下许可您的程序。回到我身上,作为一个cody用户,谁知道cody是否会给我一些 copyleft 代码行,结果,我将不得不将我的大型作品置于 copyleft 许可之下,这是我可能不想做的。此外,我可能想知道,我使用 Cody 的建议是否会导致我因违反某些开源许可条款或在工作中不恰当地使用他人的版权而陷入困境。我把这些风险统称为版权风险。那么作为一个用户,我有多大可能会面临这些版权风险?这里的风险其实很低,是怎么分析出来的呢?首先,这些AI编码辅助的输出是什么?是代码片段。什么是代码片段?它是几行代码,告诉机器如何执行常见任务。
现在,在美国和世界其他地方的版权保护,他们不扩展到过程,方法或指令,但这正是代码片段。除了方法和指示,它们并没有什么别的含义。我们不是在谈论整个软件包或程序,其组件的排列或顺序可能具有版权。我们只是讨论代码片段。所以你看,我得到的是你的代码片段从这些工具是不受版权保护的,对于版权许可的条款适用,包括copyleft 许可,编码的问题必须是受版权保护的,如果代码不受版权保护,那么这些许可条款就不适用。这包括 copyleft 许可及其病毒式传播条款,对于完整的列表,你应该知道,如果你的代码片段是受版权保护的呢? 你仍然有一些防御措施,你可能听说过其中的一些,所以我将很快地过一遍。有三个:一是自主创造,这时你就会说,嘿,你并没有复制别人的代码。第二种是半公平的,但这是当你的代码片段是样板或通用代码,出现在许多不同类型的许可中。第三是合理使用,这通常包括一种论点,就是你用一种与原始形式不同的转换方式使用一段代码。
接下来,我想历遍,与人工智能编码提供商相关的诉讼环境,你们可能见过很多,在生成人工智能领域的诉讼。其中一些是版权集体诉讼,其中许多人反对人工智能图像和文本生成器,这侵犯了艺术家、喜剧演员和作家的版权。所以需要明确的是:我们还没有看到任何针对 AI 编码辅助或其他生成 AI 工具用户的诉讼。此外还有一起与人工智能编码协助有关的诉讼,这是针对 GitHub 和 openAI 的诉讼,原因是他们构建 Copilot 的方式。该诉讼主要涉及删除版权通知的当事人,我在这页中间放了一个版权声明的例子它附在源代码上。所以如果我们仔细看一下这些权利要求书,我们会发现,这里并没有版权要求书。即使在这里提出索赔,包括DMCA,违反合同,这些都很难声称这些让 AI 工具的用户被控,原因是他们需要意图的证据意图删除版权通知或者意图进入许可协议的条款。对于用户来说,这种意图很难判断是否真实,用户没有故意删除任何东西,甚至没有故意进入任何特定的开源或其他版权许可,对吗?以上就是对 AI 编码领域诉讼现状的总结。
我们如何考虑进一步为用户减少这些类型的风险?这里有一些不同的策略,第一种是使用在尽可能大的数据集上训练过的模型,这是你的 GPT 4 和 Claude Sourcegraph 和这些集成了吗?为什么训练集的大小很重要?这是因为训练集越大,你的模型给出的输出就越不可能与输入的自由相匹配,所以从版权的角度来看,它更安全。另一种策略实际上是使用只在许可下训练的模型,按照规定,我们一直在测试一些只接受许可训练的模型,那我们观察到什么了呢?到目前为止,我们已经看到了积极而令人印象深刻的结果,可以与一些知名的,同类中最好的模型相媲美。第三个策略是建立过滤和归因工具,它们的作用是可以删除与公共代码匹配的代码建议,或者当这些代码建议与公共代码匹配时,它们可以推断出正确的许可证或代码来源,以便用户进行归属。
这些都很难很好地构建,我还没有听说过任何完美的解决方案,但这是人工智能编码提供商,包括 SourceGraph 在内正在构建的东西。另一个想法是,客户可以运行常规的开源软件扫描来清理他们的开源许可证遵从程序,如果这是我提供的最好的方案,这通常在离职尽职调查期间使用,并且更频繁地使用这些也很好。最后,人工智能编码协助可以为客户提供知识产权和赔偿,以覆盖客户发生这些类型风险的任何事件。现在,我要让Mandell告诉你们更多关于源图的知识。知识产权和赔偿。
Samantha Mandell :
我是 Samantha Mandell,我是Source Graph 商业委员会的。今天,我要讲的是知识产权和赔偿。在人工智能工具的背景下,需要考虑的重要事情是:赔偿应该流向最终用户。首先快速定义一下,赔偿是双方之间的一种合同协议,其中一方同意支付第三方因其关系而索赔的潜在损失或损害。
在软件行业中,通常是这样的:一方使用另一方的软件,销售软件的一方说,嘿,如果发生了什么事,如果你因为使用我们的软件而侵犯了第三方的知识产权,我们将确保你不会遭受经济损失,我们将代替你在诉讼中为你辩护。通常,如果一项关系或交易涉及多方,可能会有多个赔偿协议,例如:许多供应商都有子处理器,并要求有子处理器来补偿它们。如果对供应商客户的知识产权侵权是由于子处理器故障造成的,那么赔偿将从子处理器流向供应商,从供应商流向最终用户。
当你具体谈论人工智能工具时,我们认为有些东西你应该关注,首先,你应该寻找一个全面的知识产权和赔偿条款。你不希望有漏洞说,嘿,会赔偿你,但只在少数情况下,老实说,可能不会同时发生。因此,我们所说的全面知识产权和赔偿责任条款至少包括以下所有内容。赔偿没有上限,赔偿包括所有可能的第三方。这意味着个人版权所有者和开源许可方。即使用户对输出进行了更改,也适用赔偿。最后一点的合理程度可能是有限的,如果你改变了输出结果,以至于它看起来与原始输出完全不同,那么可以合理地说,这并不是一个适合赔偿的情况,但是,如果我们讨论的是次要的改动,比如战术性的小改动、小的编辑,以使其更好地适应你的代码库,那么这仍然应该被赔偿条款所涵盖,否则你永远无法自由使用你的工具,你只是复制粘贴,像 Cody 这样的代码辅助工具之所以如此特别和重要是因为你,作为用户,可以按照你认为合适的方式使用你的工具。如果你的赔偿条款要阻止你充分发挥工具的潜力,那就有问题了。
现在,让我们来谈谈 AI 编码援助中赔偿的情况 Source Graph 制作的 Cody 是其中一个编码辅助工具,我们已经研究了我们的一些竞争对手和该领域的一些其他供应商,看看他们也提供什么。现在,你可能猜到了,科迪履行了我们 SourceGraph 认为最重要的所有赔偿义务,我们的赔偿没有上限,它涵盖了所有可能的第三方,即使您对输出进行了更改,它也适用。我们的其他一些竞争对手采取了不同的方法,其中一人表示,上限取决于与其他服务提供商的协议,如果你使用那个供应商的编码助手和其他东西,同样的责任限制也适用。现在,这可能是无限的,但也可能不是。它涵盖了所有像我们一样可信的第三方,但如果用户对输出进行了更改 则不适用,并且需要使用过滤。
我知道 Tammy 之前谈到过过滤,以及它是 Sourcegraph 路线图的重要组成部分。我们在 AI 编码助理领域的其他两位同事有非常不同的赔偿方法,他们不为用户提供任何赔偿。事实上,他们中的一个要求他们的用户赔偿他们,我们的立场是:这是完全不合理的。供应商,即 AI 编码助理提供商,是对生成内容,输出内容以及从中提取内容拥有最大控制权的一方,说这是客户的责任似乎有点不公平,因为客户并不能真正控制幕后发生的事情,客户不一定有和供应商一样的扫描能力。所以我们在 Sourcegraph 的立场是,如果和我们有业务往来,我们会确保你不会受到经济损失,我们认为这应该是你在评估人工智能编码助手和其他人工智能工具时所寻找的标准。今天我就讲这么多,非常感谢您的参与,我们期待更多的交流。
Justin Darfman :
谢谢,Samantha 和 Tammy。Sourcegraph 致力于开源和人工智能,我们热衷于帮助开发人员提高生产力并编写更好的代码。我们为 Tammy 和 Samantha 所做的工作感到自豪,他们帮助保护我们的个人用户和客户免受任何法律问题的困扰。我们希望其他组织可以向他们学习,我们邀请您了解更多关于科迪,如何保护您的客户,以及更多关于知识产权赔偿,在这之后,我们会有一个问答环节。我们邀请您加入我们,我们很高兴看到开源 AI 在未来的发展。我相信 DeepDive 将成为一个里程碑式的事件,非常感谢你的时间,祝你今天过得愉快!
Samantha Mandell
Commercial Counsel at Sourcegraph
Tammy Zhu
Building the legal team at Sourcegraph, bringing code search and generative AI coding tools to all developers
Justin Dorfman
Sourcegraph, Office of the CTO
作者丨Samantha Mandell、Tammy Zhu、Justin Dorfman
翻译丨滕菲
审校丨刘文涛
视频丨陈玄
策划丨李思颖、罗蕊艳
编辑丨金心悦
相关阅读 | Related Reading
【Deep Dive: Al Webinar】我们是否能将开源许可用于机器学习和人工智能模型?
【Deep Dive: Al Webinar】人工智能数据隐私
【Deep Dive: AI Webinar】联邦学习-数据安金性和隐私性分析的思维转换
【Deep Dive: AI Webinar】基于共享的数据治理