【Deep Dive: AI Webinar】即将出台的欧盟人工智能法案中开源监管的观点

开源翻译组 开源社KAIYUANSHE




Stefano Maffulli:


大家好,欢迎来到由开源促进会主办的深入探讨人工智能网络研讨会系列。我是 OSI 执行董事 Stefano Maffulli 。今天我们将听取 Katarina Kerner 关于欧盟人工智能法案中开源监管的观点。非常有趣的话题,希望你喜欢并继续和我们在一起,最后我们会回答大家的问题。


Katarina Kerner:


大家好,欢迎大家来听我在2023年由开源倡议组织主办的深度人工智能网络研讨会系列上的演讲。我叫卡塔琳娜·克纳。我目前在技术外交网络工作,这是硅谷的一个智库,在技术政策方面为外交官提供支持。 


在我成为 I-p-p (国际隐私专家协会)的首席技术研究员之前,这是一个有8万名成员的组织,我的领域涵盖了隐私、工程、设计隐私、隐私、增强技术,然后转向负责任的人工智能治理。我进行学习、研究和编写程序。在我早期的工作中,我领导了一个在欧洲有多个校区的文化和语言学院,我还在奥地利内政和外交部工作了十年,我的学术背景是博士学位和法学博士学位,我在信息安全、私人工程、机器学习和 AI伦理方面有几个证书。很荣幸也很高兴来到这里,我马上就开始,我将在即将到来的 EU AI 行动中与您分享关于开源监管的观点,虽然在一些问题上我们可以钻一些法律漏洞,但我会尽量保持在一个相对较高的水平上,因为我认为我们的受众是不同的。这样我们就能让大家了解到欧盟的开源现状以及欧盟 AI ACT 的具体要求,目前仍在谈判中,它将对开源生态系统产生相关和影响。 


正如你在这里看到的,我会讲到一些东西,我将从开源在欧盟经济中的重要性开始,然后通过一些例子来阐述欧盟对开源的支持,然后我将概述 EU AI 法案草案和正在进行的谈判,然后解释欧盟人工智能法案的范围以及开源特例,然后我们还会讨论基础模式的挑战以及如何为欧盟-AI法案做准备,所以开源绝对无处不在,在欧盟也是如此。


在 synopsis 最近的一份报告中,作者发现,在2022年扫描的所有应用程序中,96%使用开源组件,76%本身就是开源组件。当然,开源的巨大重要性和意义也反映在欧盟。所以,我认为你们监管机构也非常清楚这一点。在这份报告中,你可以看到开源软件和硬件对欧盟经济中技术独立性、竞争力和创新的影响,由欧盟委员会发布,由 found Wolf 和 Open Form Europe实施并于2021年5月发布,作者发现,2018年,总部位于美国的公司在开源软件上投资了约10亿欧元, 这对那年欧洲经济的影响在650亿到950亿欧元之间。 


与此同时,该报告还发现,各种欧盟开源软件,开发者,独立开发者,学者,治理,个人员工,为全球开源生态系统做出了重大贡献。但与此同时,我在欧盟本身发现了一个很有趣的现象,它主要是小型和非常小的企业的员工,他们最有可能贡献开源软件代码,而在美国,承诺大多是由大公司做出的。报告也总结了这一点,大多数的联合国成员国和其他欧洲国家都有正式的政策,在国家层面上的开源到位欧盟的公共部门政策,主要目的是提高公共部门中关于开源和优化结果的能力,或者在公共采购中支持开源软件而不是专有软件。因此,这些政策安排从约束性法律到简单性法律规范或政府也可以直接资助或认证开源项目以实现这些政策目标。


然而,该研究还发现,要求在公共部门开发和重用开源软件的法律通常也不是很成功,通常由于缺乏具体的实施指导以及迄今为止的这种哲学方法,欧盟在这一领域的能力方面处于落后地位。通过这张幻灯片,我想提供更多关于欧盟对开源支持的背景,所以很明显,人们意识到了这一点,也得到了支持。例如,在2021年5月,也就是我提到的上一份报告的同一个月,欧洲议会也发布了一份关于人工智能开源方法的挑战和限制的报告。 


该报告强调了欧盟支持开源的几个举措,例如,欧盟委员会2020-2023年开源软件战略或者是欧盟自由/开源软件项目。其中二分之一是免费和开源软件审计项目,旨在提高关键开源软件的安全性和完整性,2014年发现“心脏出血”漏洞后,欧盟委员会响应欧洲议会的呼吁,启动了这些项目。所以这些项目现在已经关闭了,但是有一个后续项目叫做 FOSSEPS ,即欧洲公共服务的免费和开源解决方案,它希望支持欧洲机构和公共服务之间围绕开源软件的合作。举个例子,这个项目。这个 FOSSEPS 项目旨在创建一个欧洲应用程序目录,同时也强制列出欧洲公共服务使用的关键开源软件的清单。他还希望为欧洲企业在开源思想倡议方面创建一个框架,然后是欧盟委员会的联合协作平台(幻灯片右上角)。他们今年秋天有一个会议,他们在展示,有人工智能计划,他们想成为促进开源实践的中心。 


所以我会说,我几乎忘了,当然,今年6月,还有法国总统埃马纽埃尔·马克龙,他宣布,法国将进行重大投资,包括为法国生成人工智能项目提供100万欧元的公开数字评论。他还强调了他对开源人工智能的承诺,所以我想说,这些举措共同突出了欧盟对开源的基本承诺,它承认开源是包括人工智能在内的各个领域的数字创新、安全和可访问性的驱动力。 


因此,在开始研究欧盟 EI 法案之前,让我们首先有一个高层次的概述,该法案将解决源于开发的基本权利和安全风险,在欧盟内部部署和使用人工智能系统,具有类似于 GDPR 的域外效应。人工智能系统将被分为四类:具有不可接受和可接受风险的人工智能系统将被禁止,具有特定要求的高风险系统,具有特定透明度义务的有限风险系统以及具有最小透明度义务的低风险系统。如果持续不遵守该法案,欧盟成员国将采取适当行动。他们必须采取适当行动,限制或从欧盟市场撤出高风险的人工智能系统。并发现计划增加到3000万欧元,占全球的6%,并将移交。


正如我之前提到的,欧盟人工智能目前处于谈判阶段,欧盟委员会正在审查草案版本,代表成员国的欧洲理事会和代表人民利益的欧洲议会在所谓的三重奏中。所以这些机构都建立了自己的立法立场。请看背景图,这里有一个对比三个版本的图表文档,长达600多页,关于人工智能系统的定义,禁止人工智能系统的清单和通用人工智能的义务,以及基础模型,有实质性的谈判,谈判仍在进行。关于时间表,预计时间框架是2023年底就人工智能法案达成政治协议,预计2024年初将通过最终的人工智能法案。在此之后,项目预计过渡期约为18至24个月,因此最有可能的是,在2025年底至2026年初,人工智能法案将全面生效。 


那么欧盟主要监管的是什么,它正在监管人工智能系统。所以最新的定义,因为定义在三个机构的三个草案版本之间仍然不同。最新的定义是由欧洲议会和EP提出的,欧洲议会提出了与经合组织制定的定义一致的定义,所以 EP 版本是说,人工智能系统是一个基于机器的系统,被设计成具有自主水平的操作,对于明确或隐含的目标,它可以生成影响物理或虚拟环境的预测、建议或决策等输出。这个定义值得注意的是,它仍然可以改变。这还不是最终结果。它还必须处理人工智能系统不同组件之间的复杂交互,因为组件也被提及。我的意思是,术语组件稍后会讲到,它是人工智能系统的子集。所有这些还不是很清楚。因此,到目前为止,每个文本修订阶段都在重新定义定义方面取得了进展,这意味着特里洛克的讨论很可能会引入额外的修改。


然而,正如我所提到的,欧盟人工智能法案的文本也提到了人工智能组件。假设软件代码或人工智能模型对象,包括预训练的模型,除了基础模型,它们是单独监管的,很可能不被认为是人工智能系统,因为它们只是其中的一部分,它们也不能自己直接生产产出,所以它们很可能不受这一规定的约束。


现在,我想谈谈欧盟人工智能法案的范围。这看起来有点复杂,我觉得最好还是自己通读一遍。当然,我还是会讲一遍,所以我把它们分组。所有这些都是基于欧洲议会版本的文本,那么谁会受到欧盟人工智能法案的影响,欧盟人工智能法案适用于谁?


首先,它适用于自然人或法人、公共当局、机构或其他开发人工智能系统的机构,或者开发人工智能系统的目的是将其投放欧盟市场,或者将其投放欧盟市场,以自己的名称或商标提供服务,无论是付费还是免费,这些供应商必须遵守欧盟人工智能法案,无论在哪里。比如,如果他们的总部设在美国,当他们将人工智能系统引入欧盟市场时,当第二项国际法适用时,或者当人工智能系统输出在欧盟使用时,第三项国际法适用时,它适用于位于欧盟的供应商。此外,当他们在欧盟以外引入高风险系统时,无论是直接还是通过分销商,那么欧盟-人工智能法案可能会适用于布署者。所以在欧洲委员会和欧洲理事会的版本中使用了“用户”这个词,但欧洲议会建议使用“部署者”而不是“用户”。因此,它将适用于自然非法人员的部署者,公共当局,机构或其他在其权力下使用人工智能系统的机构,除非在个人非专业活动中使用。所以这些部署者必须遵守,不管他们在哪里,或者当国际法适用时,或者当系统输出在欧盟使用时,当他们位于欧盟时,他们总是必须遵守,在联合国-人工智能法案上,第三位是进口商。这是一个在欧盟成立的自然非法主体,在市场上投放,在人工智能系统中投入服务,并以欧盟以外成立的自然非法主体的商标名称命名。因此,它适用于总部设在或位于欧盟的符合这一定义的进口商。最后,它适用于位于欧盟的分销商,这可以是供应链中的自然人而不是供应商或进口商,这使得人工智能系统可以在不影响其性能的情况下进入欧洲市场。


最后,我们来看看开源特例,因此,欧洲议会为开源引入了一些非常重要的例外,他们真正的目标是接受在商业交易环境之外提供的开源,那么 E-P 究竟是怎么包含这个例外的呢?


第一个例外是欧盟-人工智能法案中的契约书。我只想提一下,契约书本身并没有法律约束力,你看这里,契约书12a ,但无论如何,这对理解法规的目的是必要的,也会影响其解释和适用,所以在实践中,它们是非常相关的,它们经常被用作法律论证的工具。这里契约书 12a 说,我只读了我用粗体标出的部分,顺便说一下,用户是部署者。现在,我认为这只是欧洲议会税收的一个错字,因为欧洲议会交换了这个术语,就像我之前提到的,现在使用部署者,然而,契约书 12a 说用户被允许运行、复制、分发、研究、改变和改进软件和数据,包括模型,这是一个有趣的组合。顺便说一下,自由和开源许可证,然后有一句话是关于欧洲经济的相关性。


这导致了本文的结论,即该规定不应适用于这些免费和开源的人工智能组件,根据我的解释,一个软件和数据,包括模型,除非它们作为高风险 AI 系统的一部分投放市场或由提供商投入使用,或者属于标题2下的 AI 系统。这是禁止使用的还是四种。这可能是指人工智能系统,它可以检测,防止调查,起诉刑事犯罪,因为这在这个条例的标题四中有规定。


所以,这是一个非常积极的介绍,当然,但欧洲议会在法案中引入了契约书12a。但如果这个例外保持现在的措辞方式,它仍然可能变得具有挑战性,因为有这样一种担忧,即除了什么之外的标准不够广泛,不足以真正考虑到开源项目的全部范围,也没有明确的开源 AI 或 ML 的定义,或者是开源组件。


因此,正如我们所知,OECD 的开源定义是最广泛采用和认可的开源软件许可标准,这是将开源定义应用于一般软件的一个问题。但人工智能机器学习模型通常不被认为是软件,因为软件是人类为执行特定任务而明确编写的一组指令或代码,而机器学习模型旨在从数据中自主学习和适应。这就是为什么开源项目的当前工作如此重要的原因,在欧盟-人工智能的背景下也可能相关,也可能不相关。我的意思是,这肯定不会有任何法律影响,但如果有被执法机构广泛接受的开源人工智能定义,它总是可以被使用的。


在最后一边,我们看到了契约书,在这里,我们在欧盟人工智能法案的主要文本中有同样的例外。这又是欧洲议会的草案版本,见第五条 E 款规定,本规定不适用于以自由开源许可方式提供的人工智能组件,然后在文章5E中,这是我们稍后会详细讨论的内容。它还规定无论如何对于开源基础模型都没有例外,那么什么是组件呢?


我提到过一点,这可能成为欧洲议会当前欧盟人工智能草案的一个具有挑战性的方面。什么是组件,所以你们开发人员使用平台,当然可以。如你所知,我喜欢站起来分享我们的开源代码,并在人工智能软件堆栈的所有层面上进行合作。在这张幻灯片上,你可以看到一个 github 的表格,上面是人工智能软件技术的组成。所以你在左边看到这个,这个,这个 github 的表格包含在去年10月的欧盟人工智能法案立场文件中。我认为看到 github 是如何产生或者解释什么,或者什么是什么,是非常有见地的。可以看作是人工智能软件栈的一部分。在右边,提到了人工智能系统的组件,这些组件由 Hugging Face, github 和其他公司在共同政策文件中列出。 


今年7月,一些平台发表了一封公开信,指出了我今天要讲的内容。但在这篇论文中,他们列出了人工智能系统的以下组成部分模型部署软件,训练数据集,训练算法代码,用于训练进化数据集。无论欧盟将采用什么人工智能系统的组成部分,它肯定不仅仅是一个模型或一个软件。所以我们会看到,就像我们在这里看到的,它需要几个事物,只有在它的整体中,它肯定属于欧盟人工智能法案,该法案监管人工智能系统,而不是单个组件,除了说到基础模型。好吧,我只是想提一下,并证明有很多方法,我们可以把人工智能系统分成不同的组件,这还没有决定。


接下来是契约书12b,12a之后的契约书,参考通用开源例外说明12b,再次澄清了人工智能组件的协作开发,或者将它们托管在一个开放的存储库上并不意味着使它们在市场上可用。我们正在把它们投入使用,所以这超出了欧盟人工智能法案的范围。然而,在某些情况下,开源将转为商业,那么一般的例外情况就不适用了,商业活动在这里是一个短语,理解为在市场上可用,可以是对免费开源的 AI 组件收费,也可以是对技术支持服务收费,通过提供一个软件平台,供应商可以通过这个平台将其他服务货币化,或使用个人资料,而非纯粹为提高软件的安全性、兼容性和操作能力。 


因此,这意味着企业开发人员可以在开源软件的开发上进行协作,而不受面向产品的规则的约束。类似地,支持开放源代码协作的服务,包括公共存储库,也不受产品分发者需求的约束。然而,尽管这种语言的现状也引发了担忧,尽管文本似乎将非商业开源软件排除在其范围之外,试图定义什么是非商业并不是一件简单的事情,因为,例如,开发人员经常在各种有偿和无偿的环境中创造和发明开源。 


此外,非营利组织提供有偿咨询服务,作为开源软件的技术支持,开发者也可以获得补助金、赞助或其他形式的资金支持。有了这个例外,这可能会变得棘手。还有一个小循环 Podo ,这些只是一些可能表明商业活动的例子,所以你在这里看到 might 这个词。因此,如果在文本的最终草案或版本中,以这种方式通过措辞,还有更慷慨的解释空间。因此,契约书12c阐明,如果供应商希望将其开源组件集成到应用程序中,开源开发人员没有义务在下游进行协作,这对于开源生态系统来说也是非常有用的。


当然,我还想简要地提一下,我在这里提到的所有这些法规或指令也重视开源软件,它们也提供了保护开源开发和协作的豁免。我知道有很多担忧,关于细节和确切的措辞,这是非常重要的,关于新的网络上限法案草案和产品责任指令草案。所以我只是想跟你们提一下,这样你们就可以比较或者对比一下现在正在进行的和帝国正在进行的或者已经通过的,正如我们所看到的和版权指令。


最后,但绝对不是最不重要的,现在我们来看看基础模型,所以有几百个开放的、预先训练的模型,它们符合 AI X 对基础模型的定义。开放源码,到目前为止,网上相对丰富,尤其是伦敦是第一个,今年3月被泄露到网上 然后在4月,databricks 发布了一个名为 Dolly 的机器学习,该公司称这是第一个开源指令,随后 L-M 在一个免费可用的数据集上进行了微调。当然 还有许多其他的模型,它们列在开源模型集合中在 Asia M-L 上,有一个最流行的开源基础模型的存储库,如果你对它更感兴趣的话,你可以去看看。 开源基金会模型到底意味着什么,但这并不容易。正如听起来的那样。


在人工智能产品的开发和发布中,存在着从接近到开放的一系列方法,在这种情况下,开源的确切定义仍然是一个争论的主题。Hugging Face公司的艾琳·苏莱曼(Irene Sulaiman)最近发表了一篇很棒的论文,她在论文中提出了一个框架,来评估访问生成式人工智能系统的六个级别。完全封闭、渐进或分阶段访问、托管访问、基于云或 api 访问、可下载访问和完全开放,为例, Lambda LAMA Two 模型被认为是开源运动的一次胜利,但可能不符合开源的所有标准,这引发了关于机器学习工件开源意味着什么的讨论,并强调,然而,正如我们之前所听到的,细微差别还在于机器学习社区的开放程度和可访问性。第25条E将基础模型排除在开源豁免之外,基金会模式在第三条中定义,如果没有更好的替代欧洲议会,实际上非常接近斯坦福大学的定义,即基础模型是在广泛的数据上训练出来的,它的规模,为输出的通用性而设计,并适应于广泛的独特任务。 


在人工智能法案的文本中引入基础模型实际上是欧洲议会对文本提出的最重要的修改之一。相比之下,在此之前,欧洲理事会对基础模型的做法是,欧盟委员会将在欧盟法案实际生效一年半后为它们量身定制义务。但欧洲议会现在提出了这种更明确的方法,这意味着它也可能成为三部曲中争论的焦点,所以这也可能会改变。


所以开放源码基础模型的例外,我们还重申了第28b条,该条规定了提供者或基础模型的义务,因为欧洲议会一般地侵犯了该条,所以它说,提供者或基础模型必须确保符合下面的要求大纲,这也适用于在自由和开源许可下发布的情况,这些要求包括什么。所以总的来说,它可以归结为对基本权利、健康和安全的有力保护,环境,民主和法治,以及所有基础模式的提供者,如果这项法律以这种方式通过,它是由欧洲议会在这个具体案例中提出的,因此所有提供者或基础模型都需要应用某些数据治理措施来评估数据源和可能的偏差。让独立专家参与文件分析,进行广泛的测试,以实现性能、可预测性、可解释性、可信度、安全性和网络安全性。基础模型的设计需要,以一种能够测量其能源消耗。需要有广泛的技术文件和质量管理体系。最后,该模型还需要在欧盟的高风险人工智能系统数据库中注册,所以有很多规定。


当我们想到你的时候,我可能听说过斯坦福的研究。斯坦福大学基础模型研究中心有一个评估基础模型的倡议,由 OpenAI ,谷歌等供应商提供。以符合拟议的欧盟人工智能法案。还是欧洲议会的草案。在欧盟议会草案的22项要求中,有12项是直接针对我们的。基础模型提供者,例如数据源,还是数据源的描述? 数据治理?检查数据源适用性,偏差,适当缓解的措施。培训是关于受版权保护的数据吗?培训资源、计算、能力、培训、时间、能源消耗、基础模型的能力和限制、风险和缓解、评估测试、下游文档,或者这个。


我们选择了大量的需求,结果是供应商之间在遵从性方面存在显著差异,有些供应商的得分低于25%,只有一家供应商的得分至少为75%。目前,确定的挑战主要围绕以下四个领域:版权责任不明确,计算或能源消耗不明确,风险缓解不明确以及缺乏评估标准或测试。目前的 20a-b 版本也被批评过于包容,有一种说法是,无论规模大小,所有的供应商都要承担同样的义务,可能有利于少数能够承担合规费用的公司占据市场主导地位。 


所以,事实上,第28条是一个结果,在欧洲议会政治谈判结束时的第一次头脑风暴。而且,欧洲议会也承认它缺乏细节和清晰度,如果它继续这样下去,如果不能在谈判中得到解决,它将需要严重依赖欧盟委员会的协调标准、基准或指导方针。


实现这一目标的一个方法是 Kite Sina 的一篇很好的博客文章,他是我们办公室的负责人,欧洲议会成员的数字政策顾问。他最近在经合组织网站上的一篇博客文章中建议,数字资源法案,可以为第 28b 条提供一个模型,即人工智能法案可以根据特定的标准指定一个系统的基础模型,例如,专注于小型。专注于基于用户基础或投资、计算使用能力等参数的少数功能强大且系统相关的基础模型,这个标准可能会在人工智能生态系统的创新和监管之间取得惊人的平衡,你可以在右边看到这些建议。


最后,我认为我们可以肯定地预测,欧盟人工智能法案的规定,无论以何种形式或形式通过,都将影响开源生态系统中的所有利益相关者,在或多或少的方面,和我们该如何准备呢。


所以我认为无论我们做什么,通过设计将隐私、安全、道德和责任整合到人工智能设计和开发的结构中。因此,为了建立信任,坚持这种向左转移的原则,绝对是正确的做法,虽然合规性将规定将开源组件纳入人工智能应用程序的实体的责任,我想说的是,加强开源人工智能文档的最佳实践,并关注可以帮助下游的透明度,这对我们所有人都是有益的。 


关于透明度,我想简单提一下,我的印象是如果使用这个术语,透明度也有不同的含义。一方面,开源是理所当然地为透明而自豪,使开源代码公开可用,并在社区中进行协作。但在人工智能,机器学习中,我认为透明度可能意味着超越这些,还包括算法的可理解性,数据源的可追溯性,以及解释模型输出的能力。所以我认为这也是一个在开源人工智能的背景下讨论透明度的机会,但是,例如,加强文件编制,用模型卡,这是一种很棒的准备方式。 


我认为这只能作为去年12月关于Hugging Face的一篇非常好的博客文章,如何使用它们来交流人工智能模型细节或道德考虑。然后我们也有技术解决方案,如水印或自毁模型,或增加红方的力量,以支持准备工作。当然,虽然其中一些技术在实践中似乎难以兑现承诺,我仍然认为,它们表明,有专门研究可实施的、可实施的政策选择,以提高透明度和负责任的发展。 


非常感谢大家来听我的讲座,我认为这真的是一个充满活力的领域,我认为通过合作和对负责任的实践的承诺,如果我们把它作为我们的指南针,那么,这就是正确的事情。谢谢你,再见 。

Katharina Koerner

Privacy and Responsible AI Governance, Tech Diplomacy Network


作者丨Katharina Koerner

翻译丨刘文涛

审校丨刘文涛

视频丨陈玄

策划丨李思颖、罗蕊艳

编辑丨张若珊    

相关阅读 | Related Reading

【Deep Dive:AI Webinar】圆桌:OpenRail许可证应该被视为开源许可证吗?

【Deep Dive:AI Webinar】以知识产权和赔偿为基础的保障措施

【Deep Dive:AI Webinar】我们是否能将开源许可用于机器学习和人工智能模型?