【Deep Dive:AI Webinar】炉边对谈-谁在构建开源人工智能?




我很荣幸给大家介绍我自己,欢迎来到本月由图灵之道主持的炉边谈话,我叫 Anne Lee Steele。我是图灵之道的社区经理,在本次会议开始之前,我将向大家介绍一下我们的项目,然后再把话筒交给 Jennifer Ding 和 Arielle Bennett。


我们来简单介绍一下图灵之道。我们是一个开源、开放、协作和由社区共同开发的数据科学手册。我们的目标是使可复制的、合乎道德的和协作的数据科学成为可能,并让每个人都能够访问和易于理解它。


虽然由我开始今天的会议,但我是一个更大的团队的一员,这个团队包括 Arielle 和 Jen 以及其他许多人,他们中的一些人在这里,代表着更广泛的国际研究者和实践者社区,他们创造了这一共享资源,他们本身就带来了不同的观点,基于各自的领域、各自的国家、各自的背景和生活经历。


我们的主办机构是艾伦·图灵研究所,它是英国国家数据科学与人工智能中心,但我们并不局限于此。我们的项目定位于工具、实践和系统项目(TPS),项目链接会分享在聊天区。TPS 项目有助于在研究所的各个研究领域和英国全国范围内规划和实施开放式基础设施。


这个炉边谈话系列本身就是一种努力,旨在为开放科学、开放源码、开放知识社区创造共享空间。事实上,更广泛的开放生态系统,可以使人们聚集在一起,交流观点,探索挑战,并分享各自环境中工作的不同实践,以构建同盟关系,更好地理解彼此的工作和观点。所以说,这是一个非常特别的炉边谈话,是在开源倡议的背景下最佳实践和定义开源人工智能的背景下共创的。


我对这个月的主题感到非常兴奋,“谁在构建开源人工智能”,这一主题旨在聚焦数据工作者的生活体验,为了理解这一点,数据工作者需要批判性地研究我们在更广泛的社区中正在进行的讨论。


在我们开始之前,有几件事情要说一下。正如我在聊天区中所分享的,我们有一个共享的 Etherpad 来方便书写笔记,并邀请所有加入的人提出想法,请随时在那里或聊天区中提出问题,我们会确保把它们贴出来让大家稍后使用,或者在电话结束时的 FAQ 里,稍后来回答问题。


我们也有一个行为准则,适用于这一活动,以确保无障碍和尊重合作。如果您有任何疑虑,需要报告一个让你在本次通话中感到不舒服的事件,或者有进一步改善无障碍的想法,请发送电子邮件至 TuringWay@turing.ac.uk,你们可以通过电子邮件直接联系我或者 Jen 或者 Arielle, 这些信息将在 Etherpad 中提供。


只是提醒一下,我们会让 Zoom 在这一小时后继续开放,额外增加30分钟的公开讨论时间。这是完全可选的,但我们可以在开放讨论里关闭录音,互相问问题,也可以问自己问题。也许跟炉边谈话相比不那么正式,但通常会非常有趣。所有这些后勤问题都解决了,我很高兴把麦克风交给 Jen,由她来开启本次会议。


非常感谢 Anne 对图灵之道的介绍,还有即将发生的炉边谈话。那么在我们开始之前,我将简单介绍一下参与专题讨论的嘉宾,他们会用几分钟提供更多的信息,关于他们自己和他们的背景。但是现在简单地强调一下,我相信你们的屏幕上也有高亮显示。


今天的嘉宾有 Marzieh,她是 Cohere for AI 的高级研究科学家。我们有 Abinaya,她是 Nunnari 实验室的首席技术官 Cohere 的人工智能语言大使。她们二位都是“Aya 计划”的成员,这是一个开放的科学项目, Cohere for AI 已经开始建立起一个多语言模型。


下一位嘉宾是 David,他是康奈尔理工大学的博士后,你可能看过他最近的论文, 共同撰写人是 Sarah West 和 Meredith Whittaker,和我们今天要讨论的话题非常相关,这篇论文的名字是《开放(为了商业): 大型科技、集中权力与开放人工智能的政治经济学》。


最后但同样重要的嘉宾是 Mophat,他是非洲内容审核联盟的组织者,也是 chatGPT 的前内容管理员,如果你读过 Open AI 在肯尼亚构建 ChatGPT 时的内容审核实践,那要归功于 Mophat 和他的同事们,是他们将这些故事公诸于众。所以我现在就把一些链接发到聊天里,这样你们可以了解更多我们今天的嘉宾的工作,我们很幸运能邀请到他们。


正如 Anne 提到的,今天的专题小组讨论将由 Arielle Bennett 主持,她是图灵之道的核心团队成员,也是以及工具、实践和系统项目的项目经理,还有我,Jennifer Ding,资深研究员,同样来自图灵,同样在 TPS 和图灵之道团队工作。


那么,今天的专题小组讨论是“OSI 深入探讨定义开源人工智能”的一部分,这个活动将一直持续到十月份。我们今天的重点,以及我们真正想要为这场对话贡献的目标,是围绕着这个问题,也就是这次活动的标题, “谁在构建开源人工智能?”。


这个问题很大程度上受到我们今天嘉宾的启发,他们通过他们的工作和个人的行动,为那些参与构建人工智能,但他们的贡献却常常被忽视的社区发声。这包括内容管理员、数据管理员和监管员,甚至数据主体,他们的工作和数据使当前的人工智能成为可能。对于开源人工智能生态系统来说,我们将讨论改进奖励实践的机会,对全球生态系统贡献者的认可,以及人工智能开放性存在的可能性和局限性。


人工智能的开放性如何扩大参与,让更多的人来塑造人工智能的未来?开放在哪些方面不足以实现我们想要的其他结果,比如更负责任、更可审计、更民主的人工智能?今天在座的有来自印度、肯尼亚、荷兰、英国、美国等地的朋友,我们真的很高兴能一起进行这次对话。开始吧,我现在把时间交给 Arielle 来开启讨论。


大家好,欢迎各位。废话不多说,我想请 Abinaya 先自我介绍一下,从我们的开场问题开始,这也是你今天来参加这场讨论的原因,即 “谁在开发开源人工智能”。


谢谢 Arielle,大家好,我的名字是 Abinaya Mahendiran,我是一家名为 Nunary Labs 的初创公司的首席技术官,这家公司的总部位于哥印拜陀,是印度的一个小型城市。我还在印度理工学院马德拉斯分校担任兼职项目经理,我在那里管理一个名为“隐藏的声音”的开源项目,该项目旨在缩小维基百科传记中的性别差距,这是我在开源生态系统中管理的另一个项目。


我来这里主要是因为 Aya 项目,它属于 Cohere for AI 的开放科学计划,在那里我自愿成为泰米尔语大使,因为 Aya 的目标是为全世界101种未被充分代表的语言搜集数据集,而泰米尔语作为印度语之一,是一种代表性不足的语言。所以,从大学时代到现在,我一直是许多开源发起者的一员。在一些发起者中,我是志愿者,而在另一些发起者中, 我一直在管理项目,或者在技术上指导他们,管理人员和其他所有的事情。


我有应用研究的背景,所以为了在研究方面有所作为,我开始为开源项目做贡献,因为这是与许多研究人员建立联系,向他们学习的好方法,即使我可能有任何想法,那也将会是一个与人合作并让想法变为现实的地方。所以我就是这样进入开源生态系统的。我也试图在当地建立一个社区,比如在泰米尔纳德邦,我们想专注于为泰米尔人建立专属的大语言模型,因为泰米尔语是代表性不足的语言之一。我们也想继续与人工智能领域发生的任何进步共存。所以,我的意思是,这是我的主要模式和方法。我加入 Aya 也是因为它能帮助我们处理数据等问题。


除了这些,我来这里还因为一件事,那就是我们这里的所有人都是某种形式的开源生态系统的一部分,也许我们每个人都曾面临不同的情况,我们可能用不同的方法来处理它。所以我想向参与专题讨论的嘉宾们学习,这样在我未来的任务中,我想确保我使用了那些策略。所以我想我来这里主要是为了学习,也和别人分享我的一点经验。好了,我的介绍就到这里。谢谢! 


非常感谢你,Abinaya。现在轮到 Mophat 了。请介绍一下你自己,告诉我们你来这里的原因。


大家好,我的名字是 Mophat Okinyi, 我来自肯尼亚内罗毕。我有训练数据方面的背景,用于训练人工智能工具。我也是一个内容审核员,我们现在正在努力组织非洲肯尼亚的技术人员,以确保我们有更好的工作条件,每件事都正常运转。所以我在这里讨论这个问题,同时也分享我作为内容管理员和技术工作者的经验。我还是一个工会的委员会成员,这个工会试图动员非洲的技术工人,它被称为非洲内容审核员工会。我负责工会的培训和教育工作,这就是我在这里的原因,我相信这将是一次富有成效的会议。


谢谢!非常感谢 Mophat。你今天能来真是太好了。接下来我想请 Marzieh Fadaee 介绍一下自己。


大家好,我是从阿姆斯特丹来的,今天这里阴雨连绵,所以这可能是最好的夜谈时间了。我是 Marzieh,Cohere for AI 的高级研究科学家。我的背景是 NLP,特别在机器翻译方面颇有研究。我在阿姆斯特丹大学获得了博士学位。我加入 Cohere for AI 还不到一年,差不多九个月。我们的研究实验室是 Cohere 公司的一个非营利性部门,我们的目标是在 NLP 机器学习和人工智能领域的基础研究问题上有所建树。它包括许多不同的领域和方面,我们有一个项目是在实验室内部进行的,我们也与不同的大学和公司有合作项目。对今天的讨论会来说最重要也是最相关的是我们的社区项目。


作为我们开放科学计划的一部分,今年1月,我们发起了 Aya 项目,刚才 Abinaya 也提到过,目标是借助世界人民的力量,构建多语种语言模型。从100种语言开始,询问世界各地的合作者和志愿者来帮助我们建立这个资源,它既包括数据集,也包括模型。我们的目标是释放这些信息,希望它能有所帮助,尤其是对那些资源匮乏,以前没有这些数据和模型的语言来说。我对今天的小组讨论感到非常兴奋。我特别兴奋能看到不同的观点,关于开源这些人工制品的收益和好处是什么,还有挑战是什么,我们应该注意什么。所以我们今天为此感到非常兴奋。


谢谢。最后,David,请介绍一下你自己。


大家好!我叫 David Widder。我是康奈尔理工大学的博士后,我最近获得了卡内基梅隆大学计算机科学学院的博士学位。我的很多博士研究都集中在免费和开源软件上,还有我正在进行的一些工作上。今天来到这里我真的很激动。就像你刚才说的,向别人学习,历史将给我们展示,自由软件开始了一种抵制公司控制软件的运动。但是我们最近看到开源软件是如何被大型科技公司所接受,以及开源软件如何真正巩固大型科技公司的利益的。


早在 90 年代,我们就看到 IBM 如何投资 Linux 来削弱微软的 Windows。所以即使是开源平台也可以成为一种方式,让大型科技公司巩固自己的利益。但最近在人工智能领域,我们看到 Mark Zuckerberg 已经非常明确地谈到了他们如何控制 PyTorch 为人工智能设定标准,然后更容易让免费的,比如开源贡献者的劳动商业化。但是,鉴于我最近跟 Meridith 和 Sarah 合作的一些工作,即使人工智能是开源的,它也需要很多巨量的资源,大量的计算,大量的数据,需要很多资源以雇佣工人来培训和建造这个人工智能。


因此,虽然开放可以带来透明度和可扩展性,它并不总是,事实上,它并没有使人工智能的使用民主化,这是一项本质上难以民主化的技术。所以如果我们要在这个专题小组里问,谁在构建开源的人工智能,谁真正有资源在现实世界中使用人工智能,那么主要是大型科技公司可以获得这些资源。话虽如此,我知道我们都有关于这个话题的有趣观点。所以我很高兴今天能来到这里向你们学习。 


很好,现在由 Jen 开启讨论。谢谢大家的介绍。今天的专题讨论有很多有趣而广泛的观点。所以我们的第一个问题我们想先问 Mophat,你认为谁参与了人工智能的建设,而公众可能不知情,原因何在?现在轮到你了,Mophat,第一个问题由你回答。


好的,谢谢你的问题。所以对我来说,我想说,内容审核员参与开发开源人工智能,但一般公众并不知晓。我想说人们没有意识到内容审核员的存在,因为很长一段时间以来,我们一直在幕后工作,没有人知道,但我们正在做的事情确实存在。例如,我们一直在审核来自大型社交媒体平台的内容,比如 Facebook、Instagram、现在甚至连它们自己和 TikTok 也在审核。


很多人不知道什么是内容审核,如果我有时间,我想强调一下什么是内容审核。内容审核就是过滤掉敏感内容的方式,但向公众公开可能不合法。所以当人们在社交媒体上发布类似的内容时,它们首先通过我们进行过滤,然后我们只允许合法的内容发布出去,不允许非法的内容发布出去,这就是内容审核。


在很长一段时间里,人们,尤其是在南半球,人们不知道这项工作的存在,而它就在那里,所以我认为内容审核员并不为公众所知。直到现在,人们仍在努力理解什么是内容审核,什么是内容审核员?因此,仍然有一些关于这项工作不为一般公众所知的事情。


感谢 Mophat 与我们分享这一描述,以及通过你在访谈中的工作更广泛地向世界传达,让更多人了解内容审核的体验,以及内容审核员必须经历的一些真正的挑战,都是为了让人工智能系统更安全。现在,我也把这个问题直接抛给 Abinaya,你认为谁参与了人工智能建设而公众却可能不知道,为什么呢?


好的。因为我是技术出身,参与过很多项目,我知道在构建任何一种人工智能系统时都涉及到很多角色, 而不仅仅是开源人工智能。但关键是,有些角色被美化得太过分了,以至于在某种程度上,其他角色都被放在了幕后,人们甚至不知道有那样的角色存在。例如,数据管理和数据标签是任何一种已知的人工智能构建过程的主要过程,但至少在技术方面没有多少人意识到。


是的,许多人可能意识到这些角色,但当你谈到消费者时,作为人工智能模型或人工智能平台的消费者,我可能不知道谁参与了这个平台的建设。主要原因是因为我认为这是一个思维方式的问题,就像人们认为一些角色是关于其他人的,可能他们就会美化这些角色,甚至经常谈论它,这样大家就了解了这个角色。但是其他的角色,即使他们和数据科学家或者机器学习工程师一样重要,但是像数据标注员这样的角色就很少被提及。


我认为,为了改变这一点,我们作为有理想的技术人员,我们应该开始向公众谈论这些角色,我想他们可以这样去了解。我想不出还有什么别的办法。我猜测或许是数据管理过程本身在工业中都不被视为什么大事,对吧?人们不会花太多时间整理数据。他们只是选择,比如说,某种程度的增强,只需自动构建模型,甚至不需要尝试围绕收集数据或正确管理数据构建系统。所以我想这需要一种思维模式的转变,以便人们了解所有这些其他的角色,甚至包括那些负责处理负责任的人工智能的人,以及制定法规的人。我认为所有这些角色之所以不为公众所知,主要是因为它们没有受到足够的讨论。我想这就是我的感受。


这是一个很好的观点。我们的很多对话都集中在以模型为中心的思维上,然后赞美那些可能更深度参与这类工作的人,而数据方面的工作,在人工智能系统的各个方面对系统最终的工作方式至关重要。在我们进入下一个问题之前,先和 Marzieh 和 David 确认一下, 对于这个问题,你们还有什么想补充的吗?


Marzieh,我看到你解除了静音。是的,我想 Mophat 和 Abinaya 都提到过今天建设资源过程中非常重要的参与者和行动者。但我也想说,我注意到之前的聊天中有关于我们如何定义人工智能的讨论,我们是如何定义它的。我认为,如果我们谈论的是目前谁参与了人工智能的建设,它可以是任何人。如果我们谈论的是规模,那就有点不同了,但它可以是任何人。因此,这带来了很多积极的方面。但也可能是我们应该三思而后行的事情。但这并不是针对任何大学、公司、 即使是现在有计算机科学背景的人。


我再引用一下 Marzieh 的话,如果我们想想谁参与了构建人工智能而一般公众可能不太了解的话,我认为是公众参与了人工智能的构建,但通常没人意识到这一点。我认为我们需要把人工智能看作是一种尝试收集并从我们在在线视觉痕迹中的工作中获利的行为。人工智能是根据我们的数据进行训练的,通常是在我们不知情或不同意的情况下,由那些低薪且不被充分认可的全球零工工作者进行标注,然后往往只有那些大公司获利,被那些实际上拥有资源,算力的大型公司所利用。


所以在这个框架下,我们都参与了到构建人工智能中,使用我们的数据,但很少有人因此而受到认可,只有寥寥无几的人能够真正从完成的人工智能系统中分享到好处。这是一个很好的呼吁,对于谁在为人工智能系统做出贡献、付出时间、劳动和精力的不平衡,与谁正在受益和获利形成对比。我认为这很好地引出了我们的下一个问题。交给 Arielle了。


是的,非常感谢。我很高兴能开始。接下来我要问的第二个问题是专题讨论的嘉宾们观察到了关于承认并支持这个更广泛的开源人工智能贡献者生态系统的哪些实践?我们已经谈到一般公众可能并不一定了解所有为构建开源人工智能做出贡献的人和不同的团体,显然,在生态系统中,我们对于构建、训练和调整这些模型所需的实际工作有更深入的认识和理解。


那么目前在生态系统中存在哪些机制来承认所有涉及其中的工作呢?你是否认为有一些缺失的地方,或者应该更广泛地进行工作,有没有最佳实践的例子等等?我想先邀请 Marzieh 第一个来回答。


嗯,这是个好问题。紧接着 David 说的话,就像他提到的,我们每个人都在做出贡献,通过我们在生活中发布在网络上的某个地方某个时刻的任何形式的数据。所以我认为也许我们可以区分有意识的并经过同意的贡献,与我们或其他人未必知道自己在做出的贡献。所以当我们谈到人实际上是这个生态系统的一部分,参与了这些人工智能模型的构建时,我认为这确实取决于很多不同的因素。


对于我来说,我可以谈谈我们在 Aya 项目中的经验。所以对于那个特定的项目,我们的目标是尝试拥有,所以我们开始想要一个覆盖100种语言的通用语言模型,把所有的内容都统一起来,实现对语言的通用访问。但这很快就变成了所有100种语言都需要单独关注和单独处理,因为它们之间大相径庭,如果你想注意文化敏感性和各种特定的区域的特定需求,您需要注意每一种语言。我们的志愿者来自这一百个地方,他们说的是这些地方的语言,我们通过不同的我们认为可以激励他们的方式来承认他们的贡献,同时也希望对他们有所回报。


通常你与之合作的人分为两种不同的类型。一种是学生,他们希望将这作为对开源项目的贡献,写进简历,并努力在职业生涯中建立一些成就。但还有一些人,他们只是想为社区贡献,只想做志愿工作。我们一直在尝试为项目的不同贡献数量提供数字证书,一旦超过了一定的数量,我们将发送项目特定的小礼品给参与者,像T恤,运动衫之类的,这样人们就会觉得他们是一个大项目的一部分,大家共同努力。对于做出更多的贡献和更强大的参与者,我们确实想在论文中认可他们的贡献,可能会将他们列为合著作者或在致谢部分中提及, 所以一定要努力满足志愿者的期望。


这是我们一直在尝试的一种方法。我相信肯定还有很多缺失的部分和不同的方式可以采用,这是我们在前进的过程中正在学习的东西。但我认为这非常(重要),尤其是在这样的志愿者工作中,你还是想回馈一些东西给那些希望能够为成为项目中的一份子而感到自豪的人们。


好的,谢谢,Marzieh,听到这些不同的声音真的很有趣,你已经建立了奖励和监管机制。我想让 Mophat 也来谈谈这个问题,对于目前存在的认可和感谢以及你希望看到的情况发表一下意见。


好的。感谢你们联系肯尼亚的审核员。内容审核员来自非洲不同的国家,因为我们审核不同的非洲语言, 还有英语和斯瓦希里语,所以我们是一个多元化的社区。所以在内容审核方面,我们所工作的公司看重我们观看和过滤的视频数量。为了鼓励大家过滤更多的视频和内容,我们设有奖励和认可机制,我们总是奖励表现优异的人。有时会收到礼品卡和代金券。我们还举办团队活动,将大家聚在一起,因为我们来自不同的国家,所以通过一些团队合作和游戏拉近大家的关系。这些都是内部发生的事情,不是被公布出来让公众知道。这些都是内部安排。


所以我认为需要做的是,如果这些事情完成了,可以确保被公布出来,让一般公众知道,这个奖项是颁给内容审核员的。而且作为内容审核员,我们缺少的是立法,能够保护我们和政府的健康的法规。例如,你发现内容审核员在工作中看到些令人不安和疯狂的内容,却没有法律来保护你。你得不到任何心理支持,所以我认为如果政府能制定一些法律来保护检查工作人员,特别是内容审核员,这真的很好。同时,在非洲,我们为一些将工作外包到非洲的公司工作。我们工作的这些大型科技公司大多来自欧洲。


所以我认为如果欧洲政府也能制定一些法律来管理来到非洲的投资者,我认为这也能真正帮助我们,因为如果这些投资者来了,他们发现没有法律来规范他们在这些国家的业务,那么他们就会影响很多人。例如,如果你在做内容审核工作时缺少心理支持,一段时间后,你会患上精神疾病,你不能对任何人说你所做的工作对你造成的影响,因为最终他们会说你是自愿做这件事的。所以我认为我们需要立法来保护技术工作者,尤其是内容审核员。


我们还希望内容审核被视为一种职业,因为我们大多数人现在都是临时工, 这是一项非常专业的工作,应该得到全球的认可。所以我认为如果这项工作可以专业化,那么即使你在做招聘广告,你也有一些非常明确的职位描述,明确的职位名称,有明确的资格和招聘程序。这是可行的,因为在大多数情况下,当这些公司做广告时,这些工作,广告上说他们是客户支持工作,但如果你去那里,你会发现你根本就不是在做客户支持的事情。所以我认为立法是非常重要的,不仅仅是在从事这些工作的国家,比如肯尼亚,在欧洲也是如此。


谢谢!非常感谢你。是的,有一些非常有趣的观点,特别是关于内容审核员角色的职业化,而目前,它在很大程度上被视为一种外包,高度随意非正式的工作形式。所以我认为这很有趣。在记事本里有一些问题,我想我们会在问答环节回答这些问题。我想邀请 Abinaya 和 David 一起来看看他们是否想讨论这个问题,围绕当前的实践,围绕认可,看看是否有缺失的东西,或者你们在更大范围内看到的做法。


是的。所以从我在不同项目上的工作经验来看,在一些项目中,我们要求代码贡献。所以学生是想贡献代码的研究人员,他们将获得论文作者的奖励。所以如果我们写一篇关于这个问题的论文,在过去,我们会授予作者身份作为对做出贡献的人的一种激励。我还看到其他的做法,一些研究机构会为志愿者们花在整理数据上的时间付费,因为对于语言学家来说,这将是他们的收入来源,对吧?就好像那是他们的技能,他们可以用这种技能赚钱。所以为了补偿他们在开源项目中整理数据的时间,他们得到了金钱作为激励。


所以我想这是非常主观的,因为不同的人群期待不同的激励。实际上没有办法标准化一切,因为项目可能要处理不同种类的工作,还有文化方面的因素,政治方面的因素,有很多事情你需要考虑。但我在过去的项目中看到过这种激励措施,甚至在 Aya 项目也是如此,就像 Marzieh 提到的。有很多,我们也提供署名资格,奖励那些在收集高质量数据方面做出突出贡献的人。除此之外,我们还会提供礼品、数字证书等奖励。 


所以我想这是一个主观的问题,对于目标群体,什么是合适的激励手段?我认为这只能通过试错来确定。简单地说,我觉得其他人都说得很好,但是我喜欢把这看作是一种供应链问题。就像你看到的最终产品一样,但在此之前还有大量的工作没有被意识到。我非常喜欢 Abinaya 所说的对数据工作的认可。因为任何构建机器学习系统的人都会告诉你人工智能系统的好坏取决于你所拥有的无用数据。但是标记和管理数据集的工作经常被低估或被忽视,甚至对构建机器学习系统的人来说也是如此。所以我认为我们应该想办法让这些成果可见,让这项工作得到与编码人员的最终产出物 一样的报酬和认可。我和在座的各位意见一致。谢谢大家。我想我现在要把时间交给 Jen 了。


好吧,抱歉,请忽略我刚才说的。我要问第二个问题了。是时候问我的第二个问题了,具体来说就是思考开放人工智能的开放方面,我们如何看待开放性这个词,开放性的概念给人工智能带来了什么?开源的概念或更广泛的开放人工智能是如何体现的。它是如何帮助或阻碍我们设想我们想要建立的未来的?我想先邀请 David 来回答这个问题。


谢谢,我想引用 Paul Azunre 的话作为开始,他是开源项目Ghana NLP 的创始人。他说,如果非洲的人工智能或机器学习研究人员不小心,这场由最富有的科技公司支持的新开源运动,会成为一种持续对我们人力资本和(非洲)大陆进行剥削的机制。我的意思是,如果我们看一下数据的来源和人工智能的工作的来源,对比一下谁拥有真正的资源,算力,收集所有数据的能力,以及高薪,利用这些系统的高技能的集中劳动力,它们通常是完全不同的。


因此,虽然开放可以提供有用的属性,比如透明度,可复用性,可扩展性,它本身并没有保证对人工智能系统进行更广泛的审查,因为这需要熟练的劳动力,专业知识,算力等。所以,要构建真正的系统,要构建规模上你我都很熟悉的系统,与 GPT 或内容推荐算法进行交互, 要将它们真正用于现实世界,需要集中在大型科技公司手中的资源。因此,开源可以允许一些有用的属性,但不幸的是,它也可以只是为了集中资源,让大型科技公司使用,而我们作为一个社会整体对这些大型科技公司的怀疑正在日益增加。


太好了。谢谢你!Abinaya 该你了。是的。也许我会从语言的角度来谈谈,因为我正在为 Aya 项目做贡献。我开始贡献的原因是因为泰米尔语是 世界上最古老的语言之一,文化丰富。我们现在所拥有的文学作品是从中幸存下来的。几个世纪前发生了一场洪水,无论多少文学作品积攒在一个地方,大部分都被洪水冲走了,我们现在拥有的就是当时剩下的。它本身是非常庞大的。所以我觉得,总的来说,任何知识,无论是开放的人工智能还是其他东西,知识都必须是开放的。想象一下,如果我们没有任何文学书籍可以阅读,如果没有人书写史前时代,我们不会知道过去发生了什么,对吧?所以对我来说,当你说到人工智能的开放性时,这意味着无论技术如何进步,它必须开放出来,这样人们才能把它传承下去发扬光大,为社区创造很多好的东西,特别是在语言方面。


我觉得我们想要建立一个爆炸性的系统,泰米尔语的人工智能系统,这样下一代人就可以从中受益。因为我一直听我的朋友说,或者那些在印度以外定居,尤其是来自泰米尔纳德邦的人告诉我,他们正在失去与这门语言的联系,因为他们不是每天都使用泰米尔语。他们的孩子不会说泰米尔语,因为他们是通过英语学习的,对吧?因此,要使文化保持活力并传承下去非常困难。对我来说,当我说,好吧,我要在 LLM AI中构建一些东西,我指的是为泰米尔语构建任意一种模型。我想确保我们过去所拥有的知识 都能够传承到未来。所以我觉得它必须是开放的。对我来说,开放性意味着知识必须是开放的,它应该代代相传。这就是我所看到的关于人工智能开放性的问题。


非常感谢你 Abinaya。我想邀请 Marzieh 和 Mophat 也参与进来, 这个问题是关于开放性给人工智能带来了什么,以及它如何帮助或阻碍我们想要建立的未来。好的。我想在这方面补充一下 Abinaya 所说的进步和我们今天所处的位置。尤其是在过去的十年里的进步,也许,让人印象深刻是因为开放的研究和人们分享他们的发现。所以在建立一些东西方面,作为一个社区,作为一个研究群体,我认为保持开放是非常重要的。这也是我们在 Aya 项目中看到的。事实上,这个项目是开源的,无论是数据集还是模型,对很多人来说都是巨大的激励。他们加入项目并开始贡献,因为这最终是志愿者工作,所以他们真正花费的是时间和精力,希望这些对泰米尔语,对许多语言来说都是有帮助的,希望能有助于未来的研究,在这个开源集合基础上构建未来的项目。


我还想提一下,至少对我来说,反对开放的论点,它来自它要么来自金钱激励的立场,要么来自一种自信的立场,自认为我们所发现和建立的东西,我们是使用它的最佳人选,而不是其他人。而我认为情况并非如此。通过分享,你可能表达了一种谦逊的态度,即这是我们建造的,我们让它开放,所以如果出了什么问题,如果有什么错误,人们可以找出来,或者如果它对其他东西有用,别人就可以在其基础上进行进一步的构建。我可能没想到,但别人可能想到了。所以我认为这对于一个健康的研究环境是非常重要的。所以开放性是做研究的一部分,尤其是在我们的领域。


非常感谢你,Marzieh。Mophat,你有什么意见吗? 是的。关于开放性,我还想补充一点。我提到开放是非常重要的,尤其是在道德审查方面。在不久的过去,人们并不公开讨论和分享他们的经验。但我现在可以看到,我们可以大胆地说,这是错的,这个需要改进,诸如此类的东西。所以如果我们分享我们的想法,或者给出一些建议 作出改进,那就非常好。是的,以上就是我要说的。


非常感谢。这次真的轮到你了(Jen)。谢谢 Arielle。我认为我们的谈话,聊天中的评论都很好地引出了最后一个问题。这也是在我们开始问答环节之前的最后一个问题。所以,如果你对这次谈话有任何疑问,请把它放到聊天区或 Etherpad 中,之后我们会来回答。所以对于我们的专题小组嘉宾来说,我们在聊天区中看到了很多讨论,质疑在这个背景下开放性到底意味着什么?它能带来什么结果,对谁有利?所有这些都会成为“OSI深度探讨定义开源人工智能”的一部分,而本次谈话将为此做出贡献。所以对于像我们这样有兴趣定义开源人工智能,或希望更好地理解其含义的人,你希望他们从刚才我们的谈话中汲取到什么观点,如果你能想到一两个的话?


我们先从 Marzieh 开始吧。好的。我认为对我来说,一件事是开放有很多积极的方面,但我认为还有一件事也很重要,那就是问责制。所以仅仅因为某些东西是开放的,不应该意味着我们不再为我们所创造的一切负责。要维护它,更新它,试着解决它,如果存在基本问题和风险的话。我认为这很重要,因为积极的一面对我来说是巨大的,就像推杆一样,在我看来,它本质上是赋予无权者力量。尽管我同意 David 的观点,但它有很多附加条件,你还需要资源,你还需要算力,你还需要很多不同的东西来充分受益于它。但我认为这是我们目前能做的最起码的事情,为了 在世界上实现一些平衡。但同样重要的是看待它,对待它,以一种负责任的方式,而不是一般的负责任的方式, 要真正努力对自己所构建的内容负责,对向所有人开放的内容负责。


谢谢,Marzieh。Mophat,你想下一个吗? 好的。对我来说,我只想说开放性是非常重要的,因为它使人们能够协作,并使他们所做的一切都透明。因此,我鼓励人们要负起责任,在面临任何挑战时,勇敢地发表自己的观点。因为没有他们,你可能永远不会知道,他们可以给你想法,让你可以解决这些挑战。所以我认为这对我来说非常重要。谢谢你,Mophat。


Abinaya,下一个你来吗? 是的,我想我要借用 David 一开始所说的观点, 既然人工智能是为我们创造的,我认为我们所有人都应该参与其中。我想这是我从这次会议中得到的一个收获。我们,比如我,和其他一些同样热衷于为泰米尔语构建某些东西的人一起努力。我们正在建立自己的非营利社区。我们不隶属于任何组织或机构,但我们想为泰米尔语做点什么。所以我们正在做这件事。我认为像我们这样的人应该多为自己的社区或者他们正在处理的问题做更多事情。我想这就是我们应该从这次会议中学到的。是的,这就是我的观点。


谢谢,Abinaya。到你了,David。我赞同大家的观点,尤其是 Marzieh 在之前的一个问题中提到那些反对开放的人往往有金钱上的动机,比如他们有一个非常好的模型,他们不希望把它开放给其他人使用,或者他们提出类似于至少我听到的观点,比如"我们比你更懂怎么用" 或者“如果其他人使用它是不安全的”之类的。我不是在提倡或反对开放性。但我试图揭示或思考为什么人们会提出这些观点,我觉得你给我们指明了正确的方向。通常,它们被公司用来游说,它们被用作关于开放的论点中的修辞,以主张开源人工智能是危险的或类似的东西,我们应该限制谁有权使用,或者反过来说,开放自然会让人工智能广泛受益。因此,我们不需要担心大型科技公司的集中(资源)。


事实上,我们需要担心的是谁拥有技术访问权限,所以人们也一直,这些公司也一直在倡导对开源进行一定程度的豁免,不受监管机构和人工智能规定的限制。我认为这是开放性的另一种用途,被用于修辞和游说。因此,鉴于此,我认为我们需要考虑开源人工智能和企业力量之间的关系。开放可以,而且在很多情况下,确实巩固了企业在人工智能领域的权力,而不是将其民主化。所以我想请大家考虑一下任何一种立场,或者从开放性的角度来看,谁真正拥有构建人工智能系统以及在任何合理规模上构建人工智能系统的资源。


这个问题很好,我们将在问答环节继续讨论。感谢我们的专题小组嘉宾的精彩讨论,在你们的总结陈述中提到了一些非常有趣的主题,关于问责、透明度,社区,人工智能是与我们所有人都利益相关的事情,以及开放被滥用于游说和巩固企业权力。热烈的掌声送给我们的专题小组嘉宾,我们时间把控得刚刚好。在整点我们将开始问答环节。 



Jennifer Ding

TPS Senior Researcher, The Alan Turing Institute


Arielle Bennett

The Alan Turing Institute


Anne Steele

Community Manager, The Alan Turing Institute


Kirstie Whitaker

Programme Director for Tools, Practices and Systems at The Alan Turing Institute


Marzieh Fadaee

Senior Research Scientist, Cohere For AI


Abinaya Mahendiran

CTO, Nunnari Labs


David Gray Widder

Postdoctoral Fellow, Cornell Tech


Mophat Okinyi

Union representative, African Content Moderators



作者丨Jennifer Ding, Arielle Bennett, Anne Steele, Kirstie Whitaker, Marzieh Fadaee, Abinaya Mahendiran, David Gray Widder, Mophat Okinyi

翻译 | 李思颖

审校 | 刘文涛

视频 | 陈玄

策划 | 李思颖、罗蕊艳
编辑丨储黄蕾


相关阅读 | Related Reading


【Deep Dive: AI Webinar】即将出台的欧盟人工智能法案中开源监管的观点

【Deep Dive:AI Webinar】圆桌:OpenRail许可证应该被视为开源许可证吗?

【Deep Dive:AI Webinar】以知识产权和赔偿为基础的保障措施