【Deep Dive:AI Webinar】圆桌:OpenRail许可证应该被视为开源许可证吗?
Daniel McDuff:
你好。欢迎来到由开源促进会主办的网络研讨会 Deep Dive AI 的另一集。今天,我们将听到 Louis Villa, Danish Contractor, Dania McDuff, Jennifer Lee 的座谈。一起聊聊 OpenRail 许可证,它们应该被认为是开源许可证吗? 希望大家喜欢,将在最后回答大家的问题。
你好。欢迎来到题为“ OpenRail 许可证应该被视为 OS AI 许可证吗?” AI 的进步在一定程度上要归功于已经渗透到机器学习研究中的开源技术。虽然这在很多方面都很有效,很有帮助,人们越来越担心人工智能模型对社会中人们的影响和规模。而开放是该领域和科学创新的核心价值,但开放是不够的,不能解决人 AI 被忽略或被恶意使用时可能存在的潜在风险,越来越多的许可证被称为开放有责的 AI 许可证,其中包括行为的使用原因。最近发布了一些引人注目的例子,例如 Blue 模型,它是在 OpenRail 许可下发布的。在这个提议中,在这个会议中,小组成员将讨论,我们将讨论 OpenRail 是否应该被视为操作系统AI许可。
Danish Contracto:
大家好,我是 Danish 我是一名人工智能研究员。我的背景是自然语言处理机器学习,我在空闲时间也一直致力于 OpenRail 许可证的开发。我曾担任大科学治理工作组的联合主席, 我还分享了 IEEE 视频强化标准和定义负责任的人工智能许可。
Jenny Lee:
我是 Jenny Lee ,是一名律师。我在大型科技公司和小型创业公司都工作过,自2019年以来,我一直是 Rail 的成员,Rail 代表有责的AI许可证。
这是2022年夏季发布的白皮书的一部分,我在网站上发布了几篇博客。所以我在这里,我想,谈谈 Rail 在第三场辩论中所采取的观点。
Luis Villa:
嘿,大家好。我是 Luis Villa 。我是一名前端工程师转型为律师。我参与开源很久了,所以我尽量不让自己陷在泥里,但都参与了,在Mozilla和维基百科的营利和非营利方面。客户还包括谷歌( Google )、Facebook 我现在是 Tide Lift 的联合创始人,这是一家致力于让开源更好地为所有人服务的初创公司。我已经起草了 Missoula 公共许可证版本2,并贡献了更多的许可证起草过程,然后我关心到这一点。我还主持了开放源代码倡议许可证工作组,这是批准或不批准许可证的正式流程。所以我已经好几年没有参与了。
Daniel McDuff:
我叫 Daniel McDuff 。我将主持小组讨论。我在几家大型科技公司工作过,包括微软和谷歌。而且我也是rail倡议组织的老成员。所以我想从背景开始 什么是开源?为什么开源以及为什么它很重要? Luis ,你能先给我们介绍一下背景吗?
Luis Villa:
是的,当然。我认为现在这个领域部分存疑,因为有很多疑惑点 这也是我们举办这些讨论会的部分原因,开源是一个正式的定义吗?有时我称开源为 OS ,它已经被开源倡议定义了25年多了 还有一种更普遍的运动,我称之为小型开源,就是在这个点上,数千万人以某种方式或形式参与了在线共享软件。
让我快速回顾一下,就像我说的,它已经被定义了25多年了。然后我们讨论一下非正式定义可能包括哪些没有写下来的内容,所以你必须对开源有正式的定义,允许任何人使用、分发、修改和批判,任何人都必须能够不受限制地使用和修改。举个例子,25年来一直很清楚,许可证上写着,你不能使用这个,因为我不喜欢它,非常明显地反对正式的 OSI 开源定义。
同样的,我们不会在这里讨论太多。自由软件基金会,是这个社区的另一个支柱,另一个机构支柱,也有类似的禁令,就像开放知识定义一样,它已经定义了开放数据10到15年了。但这是正式的机构定义,对吧?如果你看看这些聚集在一起的人,那些有点机构主义的人,也许在一个不那么仁慈的模式下,成为一个官僚主义,这是他们的定义,不是吗? 但是大多数人,当这些定义被写下来时,你可以让每个人都参与到一个房间的开源中来,他们可以讨论并达成一致。现在,有了 GitHub,有了 hug Face,你有上千万的人在做开源,他们大多数人对这些规则很模糊。
但我认为大多数人通常不知道这些规则,所以对他们来说,开源更加普遍,这是关于合作,创新,极低的进入门槛,也许比我们想象的要小,这是关于道德和权力的。但对大多数人来说,我认为最重要的是我能不能参与? 我能从网上免费下载吗?这通常是很多,如果你查字典,或者你查一些开源版本 这些都是由大公司定义的 它们往往更适用 我们能分享一下吗?我们能在没有这些机构开源的条件的情况下进行创新吗? 所以我认为,了解开源的关键是这两个版本 一个是严格的版本,为了我们今天明确讨论的目的,特别禁止在使用之间的歧视 另一个是更为通用的版本,其中包含了很多不同的东西,包括权力、创新、和易于参与。
Daniel McDuff:
谢谢。jenny,你还有什么要补充的吗?
Jenny Lee:
不,但是,也许这可能是一个很好的方式,让我们了解如何真正演变成 rail (负责任的 AI 许可证)和 Open rail (负责任的AI许可证)。因为当Rail(负责任的人工智能许可)标准,当 Rail 第一次诞生时,回到2018年,2019年的时间框架。它真的是想说,我们在社区里创造和欢呼人工智能工具、数据集和模型。让我们全神贯注于我们正在做的事情,不要不经意地让你知道, 打开潘多拉盒子,让事情发生。
如果你回想一下那段时间,这是很多事情发生的时候,造成了一些,可以说,一些对大型科技公司的批评,例如: 剑桥分析公司 信息是在那个时候出来的,有一些批评认为科技以一种无意识的方式将这些资源和技术释放到世界上。他们确实做到了,这带来了许多负面的,也许是不可预见的后果,但有一种感觉弥漫在空气中,我们应该更加注意这些事情。所以在最近的人工智能社区,他们认为,好吧,没有政府法规来告诉我们该做什么,不该做什么。而且没有很多行业组织,所有这些公司谷歌和微软都有这些人工智能原则。但他们告诉人们,比如透明度中的责任,没有太多的行动项目可以让我们认真思考。因为你们都可以说同一件事的某种版本,那就是让我们为世界做些好事,而不是坏事,为了世界。
但如果没有这些行动项,小型开发者就很难知道该怎么做。所以我们聚在一起也许在我们之间努力自我调节和控制,至少在我们的社区中,一些规范是好的。这就是 Rail (负责任的 AI 许可)的起源。随着时间的推移,随着 rail (负责任的 AI 许可)得到了一些讨论,尤其是在建立社区规范方面,我确实认为这是至关重要的。但是,我相信是拥抱脸倡议,丹麦人可以多说一点。但也有一种感觉,我们也不想给人留下它没有打开的印象, Rail (负责任的人工智能许可证)施加的使用和行为限制,这是相对无可非议的,对吧? 不要用这项技术来骚扰、储存、恐吓、操纵和欺骗。
简而言之,这说明了在实际的许可证中有很多限制。但我认为开放轨道实际上是一个监视器,是为了强调任何人都可以访问它。我不想否认任何人都可以访问它的事实,只要他们遵守真正的许可条款。有趣的是,路易斯说开源的非正式定义 OS , 真正强调合作和创新。因为我确实认为这就是开放的绰号可以转移到开放轨道(负责任的人工智能许可证)的地方。
Daniel McDuff:
作为铁路的主要架构师然后开放铁路许可丹麦人,是否有一种特殊的动机,你在推动这些和珍妮所描述的相匹配中的作用?
Danish Contracto:
不,我认为 Jenny 描述得很好。我认为作为小型开发商,作为贷款开发商,如果你担心你的技术,或者你只是意识到一个关于技术的邀请,它不一定是一个大的技术解决方案。它可能是像机器翻译一样无害的东西。你知道在某种语言对上,它做得不好,你不希望它被用在比如说高风险的应用程序或机器翻译中。也许你不希望它被用来翻译证词和法律工作案例。也许你不希望它被用于医疗应用,如果你意识到你的技术的局限性,作为一个开发者,我想要明确的是在使用方面, 没有什么真正有意义的方法可以让一个不是律师的人做到这一点,这是动机之一。试着标准化语言,让它更容易在网上使用,我称之为再许可。在真正的许可证中,珍妮说,没有什么,但是,任何有行为限制的许可证,通过许可允许或限制某些应用,就像课上讲的,许可, 他们可以将其用于某些应用,然后他们要求任何下游使用或再分发都需要遵守这些行为限制,对吧? 我们可以讨论这对于下游重用协作真正开始做什么,这就是 Rail 许可证的意义所在。正如 Jenny 所提到的,添加前缀 open 只是一种向病毒群体表明的方式,他们并没有密切关注这一点,你可以用这个许可证做任何你想做的事情,人类商业化,再包装开发,只要这些限制措施到位。
Luis Villa:
是的,如果我能插句话的话,我想在这里说清楚我同意所有关于这个行业的担忧。我认为你只有头脑清醒了才会不去担心,仍然不去担心。但与此同时,我们确实有一个每个人都关心的公司,对,虚假信息。Facebook 你知道,全球有各种各样的问题,跟踪,各种各样的事情,再强调一次,是facebook。 现在 Facebook 也在使用 OpenRail 牌照。也许这件事我们可以先放一放,但在我看来,这确实表明,它现在被用来粉饰行为,我们可能不想看到的企业行为,对吧? 那是什么呢 告诉我们这些工具许可的优点或缺点?工具吗?它告诉我们什么,这个大公司选择称之为开源,有广泛的用例允许这个有问题的公司这样声称, 在某种程度上,你知道,让人们认为这是在做一件好事,但事实并非如此。对吧? 我真的很想确定我们以后再谈这个。
Daniel McDuff:
很好的观点和讨论,我们马上会讲到。但我认为,重要的是要帮助我们设定一个场景,思考人工智能系统的组成部分,以及它们与之前的东西有何不同。所以,人工智能系统不仅仅是源代码,而是模型和数据。于是我运行了。Jenny,如果你能简单地说一下许可证是如何与人工智能模型兼容的, 这些组件,过去可能有机器学习模型是在许可下发布的。但现在,模型正在成为这些系统中真正强大的组成部分, 以及这些可能或不可能受到不同类型的系统的保护,比如版权或许可。
Jenny Lee:
所以我觉得对于我们许可证中模型如何工作的技术解释,我会像 Danish 这样,当我们谈论模特时它像什么? 它在纸和笔上是如何呈现的? 但实际上,我认为,从法律的角度来看,这个模型基本上被视为一个巨大的源代码或软件模型。因为模型是有效编写的,而权重和参数可能不是人为编写的。但可能会随着时间的推移被真实的软件和一些反馈循环在一天结束时所修改,它确实可以归结为某种基础的代码。所以,方法使用的是有一个真实的模型许可证,有一个数据的真实许可证。这就是 rail 许可证所面向的两大领域,还有源代码中的应用程序,在某些方面,可以将其视为模块/衍生品/分支,甚至其他方面的子集。如果所有的许可证都是源代码、特定模块或附加组件,那么你就会使用源代码版本 Rail ,我们称之为 rail 的许可证。但是,如果你有整个软件包、数据、应用程序、模型和代码,并且你正将整个软件包授权给其他人,你就会使用 D-A-M-S 这确实有点复杂,但这就是我们从法律角度所设想的。
要回答你关于版权的问题,是持续性的问题。AI 将会是,AI 如何适应当前的版权方案?我不想说现在还不清楚,但这就是世界事实的状态,有很多诉讼都试图弄清真相。实际上,我并不认为法官是决定是否应该包括版权的最佳人选。
但我刚刚读了 Mark Lemley 和 Brian Casey 写的一篇很棒的概述文章,这篇文章讨论了人工智能背景下的版权问题,他们的观点很有趣。如果你让我用几句话总结一下,我会试试,尽管这篇文章非常详细。但从本质上讲,他们大体上是说,为了 AI 的目的,如果你拿一个机器学习模型,给它提供大量的有版权的图像,他们看图像不是为了提取图像中可保护的部分光线、角度、阴影、绘画的构图,或者照片的构图。当 AI 看一个停车标志的图片时,它们并不关心它是否光线充足,或者是否有巧妙的阴影。他们只是想知道这是一个红色的八边形,上面有白色的打印和特定的字体,这样他们就能识别出什么是停车标志。你需要给它提供成千上万张停车标志的照片来告诉它,这就是停车标志。但是,这个模型试图从这些受版权保护的图像中学习所做的事情与我们所说的非常不同 一个真正的版权侵权者,他会精确地复制照片,以获得受版权保护的部分。
所以这篇特别的幼虫文章提倡我们说,当涉及到机器学习环境时,也许合理使用是绕过版权法的最好办法。这是一个有趣的职位。我认为防御的很好。书中有无数的脚注,我建议对这个话题感兴趣的人可以读一读 但我确实认为,从哲学的角度来说,这是一个解决问题的合理方法。我们今天所面临的关于版权和人工智能模型的问题。
Daniel McDuff:
Danish作为这个领域的从业者,开发模型、研究大型语言模型和其他 你对这些资产如何保护或限制使用的问题有何看法?
Danish Contracto:
我认为当我们训练时,正如 Jenny 指出的,当我们发布机器学习系统或大型语言模型时,发布它对我们来说意味着什么? 我们是否将其作为托管服务发布,供某人驱动提示并通过 API 或可导航界面来输出? 我们是在说,我给你模型的核心权重,这样你就可以进一步微调它,然后用它做一些事并发布它吗? 还是说,我不会跳过,我不仅给你权重了,我还会给你数据,让你能进入我发布模型的模型状态。作为一名从业者,我想谈谈这些不同的组件。当我说我要发布一个模型的时候因为这是不一样的,我提供了一个免费的模型供你做任何你想做的事情和应用程序。这对我来说也是很不同,我也在发布训练数据,这是我训练模型的配置状态,这是我的最终状态模型,这是我的测试集数据,这里是我发布给你们播放的地方,这些是我将如何免费发布和开放或使人们更容易获得的最低限度的极端情况。
我认为重要的是要认识到,为什么有人会选择一种方法而不是另一种方法,这是有一定限制的 举一个经常被争论的例子,比如说,我为医疗应用建立了一个模型,在这个模型中,我必须浏览大量来自病人的私人数据,对吧? 我有了这个想象中的大语言模型,它可以对某种疾病的风险做出很好的预测。我能在不受任何限制或不考虑病人隐私的情况下提供这些信息吗? 也许不是,如果是这样的话,我们是否应该说永远不应该有开源。开源 OS 医疗应用的开源模型? 也许这是一个解决方案,如果它是一个小的,或者更小的船,这是更模糊的开放源代码的定义,社区已经开始。如果他们称之为未实现,那又有什么不同呢? 因为对于如何访问数据集的那部分,实际上有一定的限制。所以也许你一开始,就像一份豁免协议,也许你不能用它做任何事情,也许你会确保如果你再次发布这个,你会适当地匿名化,无论我们用什么术语来描述原始数据集。有了这个,你就需要这样做,因为还有一种风险,大型语言模型实际上可以通过适当的提示来贯穿整个训练数据,然后我们应该做什么? 因此,这些限制可能需要应用于语言模型本身的发布,这就是我被困住的地方,当我想到 OS 对开源和 AI 建模的定义,你真的能忘记那些训练模型的公司吗? 你真的能忘记你是如何发布一个大型语言模型而不考虑任何用途的吗? 我们并不是真的提倡对用户的限制,但正如 Luis 在《big name》中刻意定义的那样,包含任何用户情境的想法都是不对的 与你对开源的定义的差距。这就是我难以接受的地方。
Luis Villa:
一些观察,当珍妮说,我们还不知道 我想要《回声》和《莱利报》 她说的是60页,还有另一篇《莱利报》也是60页 如果你想从录音中找到这个问题的答案。抱歉,我们没有,去找其他原因吧,你知道的,令人沮丧的律师回答是视情况而定的,我很乐意去看情况。我们还没到那一步,我们还在我们不知道,如果我们能让它辩护就太好了。第二件事是,我认为最初的观点包括很多不同的部分,这是非常重要的一点。既因为他已经阐述的原因,也因为有很多混淆。有时人们会说,这就是开源。他们的意思是,围绕权重的代码是开源的,但模型本身不是开源的。有时这是他们出于善意的困惑,其他时候,这是故意的混淆,他们想让你在不考虑限制的情况下玩模型。有些人确实很困惑,其他人正在利用这种混乱,这就是我最想说的,我认为是最重要的部分。
地球上每一个大到足以拥有一个法律团队的软件消费者。对他们来说,他们喜欢开源的定义,因为它对他们来说非常清晰和简单。是的,如果他们看到开源的东西,那么他们就可以把时间花在其他更紧迫的问题上。如果我们做出明确的定义,如果我们混淆了开源的定义来允许有限制的东西,那么每次使用开源都会突然浪费律师的时间。我们来自一个开源摩擦小、律师参与度低的世界,开发人员可以看到开源,然后说,哦,我可以使用这个,我不需要考虑它。现在我需要考虑每一个用。你猜怎么着?这里有永恒的顾客 我们的客户使用的开放源代码的平均数量是4000个 如果开源的定义变得模糊,突然开始有各种各样的限制 这意味着他们中的每一个人都要做几千小时的法律工作来让他们的堆栈符合要求。这需要非常真实、非常高的成本。这就是我为什么再次强调我的担忧,有限制是好的。
我们应该认真考虑限制,一个很好的例子,我们如何建立医疗模式是非常重要的 但这就是为什么我们应该有另一个术语,如果有限制,当然,可以称之为道德来源,或负责任的来源或其他什么 只是不要说它是公开的,因为整个行业每年节省了数百万小时的律师时间。我的意思是,如果开源的定义变得模糊和不精确,那对我的工作就有好处 那将是我余生的终身就业保证 但不做有趣的事 我宁愿做更好的事情。
Daniel McDuff:
我想回到我们最初的问题或者你引起的讨论点 如果我没理解错的话,你是说这种类型的许可证有一定的作用 但你最初的讨论点暗示了这样一个事实,那就是可能滥用它来粉饰人工智能系统 你能多谈谈你的想法吗?
Luis Villa:
可以做些什么来避免这种情况,让这些许可证变成可能。让我从它的另一面开始,这是一个更有建设性的,而不是攻击一家公司,尽管我认为我们很多人都喜欢攻击自己的公司。有一个更积极的方法,如果我们使用这些许可证,还有什么其他的东西需要到位? 我不想,再说一遍,我不想抨击一家公司,但有一家。
这一领域非常突出的公司已经发布了图像生成模型, 这样做得到了很多好的宣传。他们宣称自己是 AI 开源的领导者,有一项服务使用他们的模型进行微调,然后出售所得到的微调。从本质上讲,我认为我简单地说,是非自愿的色情片——著名明星的色情片,给我照片,我就拍你前女友的黄片。这家公司有自己的公司,正在进行微调。明显违背了 rail 许可证中有很多模糊的边角,这些边角坚硬和微妙,这是超级明确的违规许可证谁来执行?
所以我们需要,当我们想要讨论这意味着负责任,仅仅在这个许可证下发布代码或模型是不够的。你必须有资源来执行它你必须有工具来执行它 这就是珍妮观察到的结果,我们实际上不知道这些东西是否受版权保护的地方。因为如果它受版权保护,就很容易执行,相对容易执行。如果它不属于强制版权,那你就离开了。你只是发布了一些东西,你的执行几率就更难了。
那么我们该怎么做呢? 我认为我们需要问自己的一个关键问题是,如果我们真的想要可靠的资源,我们该如何将这些资源叠加起来? 是什么呢? CMU 和康奈尔大学的的 David Witter,将这种模型称为瑞士奶酪模型 所以你的许可证是一回事,社区规范是另一回事 实际的法律执行,预算又是另外一回事 追踪谁在使用它,是另一回事 比如,信任和安全预算在哪里? 许可证并不是我告诉别人的一件事,对吧? 许可证不能替代信任和安全预算 不幸的是,我认为有些开发者就是这么做的。但许可证之间的差距并没有什么神奇的力量,我也希望是这样,因为我认为这些许可证的目标非常令人钦佩。但如果我们不这样做,我们就不能让它们成为围绕规范、限制和游说进行所有其他艰苦工作的替代品。我的意思是,我认为在座的每个人都会同意的一点是,问题的一部分是政府应该做的,部分是我们只是试图填补,避免政府没有分类或做任何事情。但我已经跟你说得太多了,所以我不会。
Jenny Lee:
Luis,请允许我用半秒钟的时间挑战你,因为你之前用的例子,也就是 Daniel 所说的大公司、大型科技公司 现在当他们发布像喇嘛2这样的东西时,突然开始关注铁路条款。然后得到这个保护性的外表,我们是如此负责任,我们是如此好的公民,这对我们很好。我们将通过在我们的许可证中包含这些真正的条款来保护每个人的利益,在某些方面,你可以这么说。我认为,一种愤世嫉俗的观点可能是,他们这样做是为了展示他们的企业公民意识有多好。但另一方面,当一家拥有这种资源水平的公司在执行他们自己的实际条款时 那我就更有信心了,因为他们的资源,因为他们的声誉受损, 如果有作家利用他们的模式,这将对他们产生影响。
Luis Villa:
但他们没有说他们的狗和小马表演并没有看到我们所设置的所有限制,他们的狗和小马展示了一个大型公关活动。其的标题是,这就是开源。整个行业都明白,25年来都明白,这没有限制,所以每个人都在模仿他们的新闻稿,说这是开源25年来,我们一直在强调开源意味着没有限制,他们没有。他们本可以发布消息说,这是负责任的信息来源,这是所有的限制,这是我们所做的信任和安全工作,这是我们制定的执行预算。他们本可以这样做,但他们也没有这样离开。他们说这是没有限制的,这是欺骗性的。
Danish Contracto:
但是Luis,我想的问题是,在这种情况下,有人会选择把什么贴上开源的标签? 开源可能是他们的特权,但他们想做什么呢? 但这可能,但我想这也反映了作为一个人工智能社区,就像任何一个实现人工智能模型的人一样,人们意识到也许必须有一些确定的东西。他们想要在模型中包含的各种限制,因为他们了解风险和弱点。
Luis Villa:
就是这样。所以叫一个受限的来源,随便你怎么叫。但有两件事,一方面你使构建所有软件对每个人来说都更加昂贵,而不仅仅是这些模型。但是通过破坏这一项的值,就会引起真正的问题。与此同时,你允许不良行为者通过门来掩盖他们的限制。因为这些限制,喇嘛二模型中的一些限制是负责任的道德限制。其中一些是垄断权力的延伸,其中一些是,你可以再一次,因为这个术语的价值正在被侵蚀,他们正在逃脱惩罚。他们正在发起一场公关活动,告诉全世界它是开源的。我是说,除了我们的竞争对手,对吧? 我认为我们在开源中没有充分讨论的事情之一是权力,以及开源是如何影响权力的。有一篇很棒的论文是 David Waiter 写的,我已经提过了,还有 Signal 和 Meredith Walker,也是 AI 研究者,发表了一篇关于开源和权力影响的精彩论文。因为当我们开始做开源的时候,我一直在说开源已经做了25年。在那段时间里发生了很多变化,开源未能跟上,所以我不想说开源所做的是完美的。当时发生了变化的一件事是,25年前,开源是对微软实力的蓄意攻击现在微软到处吹嘘它有多少 Linux 服务。所以在这两者之间有些东西走偏了,我们再次允许地球上最大的公司之一,他是世界上最有权势的人之一,到处接受媒体的采访,它是开源的。同时在这一家公司中插入反竞争和支持权力巩固的条款。这就是我们淡化这个词的结果吗? 为什么我希望那样,为什么我希望我们选择了一些不同的东西,比如负责任的来源,而不是试图依赖于非常具体的价值。
Daniel McDuff:
我只是想插句话。所以,假设我们有一个东西可能被称为开源,也可能不被称为开源,我认为我们有不同的观点。但是 Danish ,我想给你几分钟时间,因为我们即将结束小组讨论。所以 Danish ,作为一个开发 rail 许可证的人,如何处理将使用限制纳入其中的紧张关系,而且也有某种标准化的问题,避免了成千上万律师花费时间,试图解决不同许可证之间的兼容性问题。
Danish Contracto:
你认为解决这个问题的最佳方法是什么? 所以一开始,我想我只是想首先同意 Luis 的观点。就像资本一样,低资本对开源的定义可能是最不真实的标准化方式。但我认为,在当今世界,我们看到这是不可能的。我举了一些关于数据许可的例子,比如数据本身就有一定的要求。你怎样才能让这完全被接受呢? 开源的定义是什么? 也就是说,开发包含使用限制的许可证的开放式轨道模式。我同意让合作变得有些困难,假设我们四个人为不同的许可证开发技术,其他开发者如何理解他们所做的是否能够被所有授权所接受? 或者是其中一个许可证本身不兼容,诸如此类的事情。
要做到这一点,我的建议是,也许我们可以看看工具的权利。相关工作已经在进行中,铁路倡议的一些成员正在寻求标准化, 也许使用限制到网关权利 如果有使用限制,我只是从记忆中引用,说你不能在医疗应用中使用这个 还有一个说,如果没有适当的声明,你不能在医疗应用中使用它等等一个比一个严格。当开发人员试图将创建许可合并到他们的系统中时,好工具可以为他们提供这些东西。好工具还识别某些完全不兼容 rail 许可证的组件,就像 GPL 许可证可能与实际资产完全不兼容。因此,我认为必须采取措施,使过度许可证的使用和消费不那么虚幻。尽管我认为它永远不会像资本或资本主义那样无摩擦。但我认为这就是我们所处的现实 如果这就是我们所处的现实,我们能做什么? 如果我们可以说永远不可能有开源的人工智能模型,在其真正的资本没有资本, 或者可能是一种尝试和适应的方式,资本的定义是有更多的东西 这可能会使其他许可形式或现代方法在平均值中包含的方式标准化。也许只是说,用户的限制需要某种格式,或者这些是开源倡议同意或不同意的用户限制。这可能涵盖了我认为更广泛的危害,例如,Jenny 在通话一开始所指出的,这也许是一种方法。但我想,如果我们只是脚踏实地地说它必须是 OS 。我只是担心你在现实生活中会很难进行 如果不考虑解决方案,包括工具或标准化,我不确定我们如何解决这个问题。
Luis Villa:
我的意思是,我支持工具化和标准化,但你可以换一个人来做,对吧? 你可以做到这一点,而不需要试图找出如何将其与法学院课堂上教授的东西结合起来,实际上是在本科工程课程中教授的,就像它教得不完美,不是教我如何教它, 而是这个概念一样存在。它还没有理解和分享这个行业的意义,我明天要教一门律师课,我已经教了十几年了,当时有成百上千的人, 可能有成千上万的人上过这门课。并听说这就是开源的含义,对吧? 你可以做很多事情来使工具标准化。但像这样,在不同的术语下会更容易,这样你就不会一直有这种认知摩擦。另一件事是,我认为,实际上可以说某些类型的模型不应该在传统意义上的开源。比如,我不希望人们,我认为,事实上,放置带有医疗数据的模型可能是非法的。事实上,根据欧盟数据保护法, 把医疗数据模型放到开放的网络上可能已经是违法的了,就像一艘已经航行的船,我想,它正试图流到那里, 我认为有一种奇怪的趋势,开源是一个非常有价值的术语。如果我们不能做开源怎么办? 这没关系。事实上,如果你不能做开源机器学习,至少对于某些类型的数据,某些类型的数据是完全没问题的 我觉得我们不需要。我认为我们不需要一个世界,在这个世界中,为了使所有好的东西都可以开源。因此,我们破坏了开源的意义。我不这么认为。这就是 jenny 你之前问过我的,或者 Daniel 你之前问过我,这怎么能回到这种洗白的问题上? 我在那里有一座桥。它是什么?事实上,如果我们坚持所有东西都必须能够被贴上开源的标签,这就是为什么有些糟糕的玩家会挤在帐篷里说,哦,我也想开源。你让他们得逞了 你让他们逃脱了那个限制。你在复杂性中引入这种难度级别,完全是出于好意。我想我们没有人想要健康信息, 除非有非常严格的其他监管来源可以通过政府法令强制执行。对吧?我希望人们能进监狱,如果他们把我的 X 光片放进模型里,开源不会说这些,也不会说这些。但是一旦你允许了这种细微差别,对吧? 比如,因为医疗的原因,那些人放弃了,然后你得到,让我们打电话给我们,让我们命名,然后 Mark Zumber 进来说, 哦,好吧,它是开源的,除了我的竞争对手都不能使用的那部分。你的底线在哪里? 我再说一次,这并不是说我们应该划清界限,我们绝对应该划清界限,只是不是作为开源定义的一部分,而不是作为开源品牌的一部分,这才是更重要的。
Daniel McDuff:
感谢你们所有人,很遗憾我们没时间了,我相信我们还有很多可以讨论的,我想给大家一个机会致闭幕词 在我们结束讨论之前还有什么想法吗? 也许,Danish,我们可以从你开始,然后是 Jenny,然后是 Luis。
Danish Contracto:
我在很多方面都同意 Luis 的观点,但我认为开源品牌转型的唯一风险可能是关于用户的 就像我认为 AI 模型以某种方式发布一样,随着时间的推移,开源最终会带给你什么?我想这是我们该做的事,我们待会再谈 我也从路易斯的角度来看,我认为 OpenRail 终端许可证,或者任何 OpenRail 许可证,根据任何开源的定义,都不应将其视为开源许可证。Luis 在接近尾声的时候比结束的时候说得更好。
Jenny Lee:
是的,我认为这很有趣,因为对于什么是开源有很多混淆, 我确实认为,也许通过采用监视器,开放式轨道也有意地采用了一些混淆。但我确实认为,特别是作为这个小组的结果,也许不仅仅是开源和 rail 是正交的 它们在某些方面实际上是公开不兼容的,对的,在某种程度上,他们实际上使用了这个东西,Rail 想说的是,有些用法是不允许的。在真正原始的开源形式中,一切都很好。我们没有判断力,做你想做的? 赚不赚钱,我不在乎,但只需使用反馈。让我们公开合作 所以这很有趣,因为我很想听听 Luis 的想法,在25年的开源社区发展中,你想看到什么? 当你说它没有进化的时候,你知道什么? 你能做什么?应该做什么?也许是为了保持它的时代性?
Luis Villa:
我会尽量在这里做一个结束语,因为我认为这是另一回事。我想感谢这次活动的组织者,他们正试图找出一种方法,开源倡议从来没有真正做对吗? 从历史上看,开源计划有点像 SAAS 的隐私问题。SAAS 是其中最大的一个。我的意思是,我认为可能没有答案,这是有可能的答案是,你需要一套不同的护栏,关键是一个不同的品牌。因为同样,开源对整个行业的部分价值在于它可以促进投资,这是一个真正的挑战,我不确定我们是否真的想出了如何与许多这些东西分开 这些事情,是为了变得有影响力,对没有人使用的软件的限制并不是非常有用的限制,对吧?
开源之所以变得如此有用,部分原因在于通过低水平的限制,它鼓励了大量的投资,鼓励了大量的学习,这样就形成了良性循环。越多的人参与进来,它就越有价值。越多的人参与进来,它就越有价值。如果你开始施加一系列限制,这就是我认为洗白的地方,许可证是有害的 它想通过欺骗人们,让人们知道它的应用范围有多广,来创造这种良性循环。因为他们有这些直觉,它是开源的,而这些直觉正在被利用来为一家公司创造良性循环 我不知道我们是如何分配的。我不知道你是如何得到同样的良性循环的。也许它已经完成了更多的自动化,也许这是一组非常明确的限制,只针对最糟糕的用途,也许我们会说实际上欧盟本来就做得很好,也许这不是许可证的问题,也许这是堆栈的不同层,也许是关于社区规范、数据集治理。我想我们还不知道这就是为什么。
顺便说一下,尽管有一些负能量,我真的想感谢所有参与铁路的人,不仅仅是你们三个,而是所有正在听的人。这样的讨论很重要。现在深入潜出 OSI 的部分原因是因为你推进了这次对话,我不喜欢它消失的方式,但我确实认为即使 rail 明天在某些方面变得无关紧要,即使每个人都听我的。实际上,我们应该停止使用那些许可证,因为就像 Luis 说的,你仍然会开始一场非常关键和非常重要的讨论, 即使这些许可证的具体载体被证明不是正确的 所以谢谢你这么做。谢谢你以一种非常善意和积极的方式推动了这次讨论,即使它并不够。谢谢你 !
Daniel McDuff:
谢谢大家!我相信会有更多的机会围绕这些问题进行讨论,那些参与讨论的人有助于推动这一对话向前发展。谢谢 Danish、Jenny 和 Louise!非常感谢你的时间和观点,我们期待着继续讨论。谢谢大家 !
Luis Villa
Tidelift General Counsel; Creative Commons Board of Directors
Jeeny Lee
Daniel McDuff
Co-Founder RAIL
Danish Contractor
RAIL
作者丨Luis Villa、Jenny Lee、Danish Contractor、Daniel McDuff
翻译丨李楠
审校丨刘文涛
视频丨陈玄
策划丨李思颖、罗蕊艳
编辑丨张可芯
相关阅读 | Related Reading
【Deep Dive:AI Webinar】以知识产权和赔偿为基础的保障措施
【Deep Dive:AI Webinar】我们是否能将开源许可用于机器学习和人工智能模型?
【Deep Dive: AI Webinar】版权是开源代码的正确答案,还是开源人工智能的错误答案?
【Deep Dive:AI Webinar】联邦学习-数据安金性和隐私性分析的思维转换