【Deep Dive: AI Webinar】预防生成式人工智能的风险

大家好，欢迎回到由开源促进会组织的深入探讨人工智能的网络研讨会系列。我们将听到莫妮卡·洛佩兹的演讲，她将讨论如何预防生成式人工智能的风险，她会给我们一些关于开源人工智能倡议的最佳实践的建议。最后我们会回答大家的问题。

感谢大家！欢迎，感谢您收听本次演讲，我是 Monica Lopez 博士, Cognitive Insights for Artificial Intelligence 的联合创始人兼首席执行官，我要讲的是预防生成式人工智能的风险，以及负责任的开源人工智能计划的最佳实践。

首先，我想强调的是，人工智能技术的扩散和使用，特别是在生成式人工智能和自然语言处理领域（的广泛应用），带来了两个相互交织的挑战，我将对这两个挑战进行分解并提出解决方案。第一个是对我们作为人类的信念的影响，第二是创造了新的手段和方法，会为邪恶意图所利用。但首先，我们必须退一步扪心自问，我刚才提到的这两项挑战是如何产生的？为什么我们现在所处的环境会变成如此？

将生成式人工智能系统拟人化，尤其是将大语言模型（LLM）拟人化，并不是解决办法。我们当前所面对的所谓的“智能”系统，基本上既不理解他们所生成的内容，也不理解他们周围的世界。当这些系统融入我们的日常人类世界，由人类建造，为人类服务时，这必然会引发一系列问题，而这些问题是开发人员和普通大众直到现在都没有完全预料到的。当然，(造成问题的) 部分原因是这种超大型的现场实验，即数百万用户同时使用新技术，是前所未有的。我想强调一下我们对现实世界中引入人工智能支持的大语言模型的经验了解。

首先，生成式人工智能的内部架构无法区分事实和虚构；第二，这些模型经常产生幻觉和输出伪造信息；第三，这些模型包含来自训练数据的已知种族、性别和阶级的刻板印象和偏见以及其他的结构性因素，这些都会影响到模型的输出。第四，这些模式产生流利，自信，听起来完美，尤其是英语语言的反应。它们的交流能力不像人类，人与人之间的对话和交流要丰富得多。它充满了不确定的从句，更正，甚至停顿和间隔的延迟。第五，生成式 AI 系统不知道我刚才提到的任何东西。所以自我纠正，解释，实时的行为适应在这些系统中是不可能的。第六，重申一下，这些系统不像人类。这让我回到了我一开始提到的挑战，我要重申一下: 第一，生成式人工智能技术的使用和扩散对我们信仰的影响。第二，生成式 AI 技术的使用和扩散为邪恶意图的实现提供了新的方法和手段。

首先，第一个挑战：我们必须明白为什么我们的信念是脆弱的。我们人类的信念是从周围环境中可用数据的子集中形成的，这对生存至关重要。能够决定我们需要的东西的利弊是很重要的。虽然信念会随着新数据的引入而改变，比如有些新数据可能会凸显出以前被认为是优势的东西，而现在则成为劣势，但这些数据出现的背景和传递这些数据的方式都很重要。想想我们彼此之间的动态互动是如何支持我们的信息交流和随后的信仰发展。生成式人工智能模型不是实时系统，它们无法像我们人类一样评估信息。研究还表明，反复接触虚假信息预测对这些信息的信念有多根深蒂固。因此，重复次数越多，表明一个人对某一特定陈述的信念就越强。我们还知道，一个人对一个话题的不确定性越大，他们在搜索信息时就越容易受到影响，这正是为了减少不确定性。最后，和聊天机器人Eliza一样经典的是 1966年 Weizenbaum 在麻省理工学院介绍了他的语言处理系统时所表达的观点：人类很容易将能动性和意向性赋予类人智能和新兴的感知。确定了这些特征并给出了这些网络研讨会的目的，为我们提供了问题的具体解决方案。

我想直接从心理学的角度切入，我有两个建议。首先，需要一种新的叙事方式。来自众多AI圈内人士的一些过度炒作、夸大和不切实际的说法都应该被淡化，从开发者、公司到媒体公众人物，所有人都应该避免过度炒作。对于这些 AI 系统能力的通用拟人化，也需要做同样的工作 (即改变描述与宣传方式) 我们谈论这些系统的方式和用词，都造成了一种流行的误解，即这些模型超越了人类的推理水平，因此也超越了人类的能力。我们需要深思熟虑，这些误解可能会加剧虚假信息传播的风险。第二，对人类信仰的理解。我提到的一些观察意见需要集成到系统审计和影响评估中。确定生成式模型对人类信仰和偏见的影响可以通过有形的测量来实现，比如确定用户对系统知识的评分，通过与他们自己的知识相对比，还可以确定用户对系统输出的信任或信心水平，所有这些都可以概括为确定用户对系统所生成的内容的使用情况。

现在，我想看看第二个挑战，即产生被邪恶企图所使用的新方法和手段，这也是 AI 技术的使用和扩散导致的结果之一。生成式 AI 可以帮助欺骗行为，我们必须要问为什么会欺骗以及如何欺骗？因为欺骗，或者说用来操纵他人隐瞒真相、制造假象以谋取私利的策略，在非个人化、快速、自动化的表达方式中被进一步放大，在这种欺骗行为中，人类始终控制着自己的欺骗意图（而 AI 只是工具）。但我们也必须考虑人工智能主体自己的学习行为，人工智能系统是否有，或者将来是否会有多智能体人工智能系统的心智理论？例如，有些智能体可以学习欺骗行为，却完全不了解甚至不理解欺骗的含义。这种欺骗行为往往通过隐藏资源或信息，或提供虚假信息以实现特定目标等行为表现出来。

此外，这强调的是，生成人工智能和开源工具为三种类型的风险打开了大门：

滥用风险，即滥用或坏人故意利用技术进行大规模诱导行为。
意外风险，即开发者、公司和组织在制造和使用技术进行创新时无意中造成伤害或大规模的多重伤害。
系统结构性风险或本身的固有风险，这是公司或组织的开发人员制造和使用这种策略进行创新的意外。

这些（风险）都是已知的，但还没有被完全了解。然而，（开发者）还是选择一味创新，而非优先考虑系统安全那些结构性的，或者那些系统本身固有的风险。

因此，要从心理学的角度提出第二个解决方案，我们必须认识到目前的一个事实——那就是人工智能系统无论是否会有心智，是否会有类似人类的意识，人工智能系统都会继续充当欺骗者的帮凶，进行欺骗。这种思维方式有助于进一步确定我们需要提出的正确问题类型，进而采用我们之前未曾想到的风险管理方法来减少欺骗。例如，我们希望在哪些环境中防止欺骗? 我们需要优化哪些问题？以及人工智能代理如何相互学习令人烦恼的欺骗行为铺天盖地式的出现，我们能从中学到什么? 现在我们说，人工智能系统开源是大势所趋。好处和机会都是巨大的。它使技术的使用民主化，现在来自各种组织和地区的许多开发人员都可以访问。它加速了原本不可能的合作，帮助发现漏洞，从而有助于对抗人工智能偏见以及恶意代码的识别。它鼓励一个透明和相互学习的环境，促进了模型说明文档的编制和模型的可审计性; 它产生了社区规范和人工智能标准，克服互操作性问题。最根本的一点，它支持创新，但可用性和访问权限也意味着任何人都可以下载和修改模型。例如，无论是否拥有足够的资源，公司都可以根据自己的喜好，在开源模型的基础上，根据需要进行定制。由于进入门槛较低，在采用人工智能系统的竞争中，质量和价值可能会下降。现实情况是 AI 扩散的速度超过了监管的速度。

现在，在我提到解决方案之前，有必要简单地提一下 PoisonGPT 和 WormGPT; 因为它们揭示了模型可追溯性的危险以及数据和算法来源的复杂性。特别是在开源模型和平台的背景下。我们知道，先进的人工智能模型不仅需要专业技术知识，还需要大量资源来训练。因此，许多开发人员和其他人正在并将转向外部团体以获得预训练模型，以减轻在其特定用例中使用的成本和附加需求。我们很多人都知道，PoisonGPT 就是一个很好的例子它展示了 Mithril 安全团队是如何对开源模型 GPT-J-6B 进行魔改，使得模型只在特定任务上传播错误信息，而在其他任务中则不传播，然后 Mithril 将模型发布在 Hugging Face 论坛上，破坏 LLM 的供应链，并大规模传播错误信息。这个问题是如此重要，它直接导致了另一款开源工具的开发，用于提供模型来源的加密证明。

另一个例子是 WormGPT，它可以自动发送网络钓鱼邮件和它可以根据接收到的输入信息生成类似人类的文本，所有这些文本都使用多种语言，从而为商业电子邮件篡改攻击提供便利。它是作为 GPT 模型的黑帽替代方案提出的，以及专为恶意行为而设计。它之所以能成为一个重要的范例，是因为它是如此公开可用：它提供了一个类似于 ChatGPT 的系统，没有任何道德界限或限制。这让我想到了解决方案。从道德的角度来看。我们可以把重点放在与当前提案和辩论相关的透明度、公平性和问责制问题上。最近，比如在美国，围绕度量标准标准化的需求，建立认证和监督委员会和许可证要求，以及国际合作的重要性。关于透明度，我们至少需要确保以下四个方面：数据透明度，至少必须包括数据的来源要透明，开发人员用于训练模型的数据的使用权要透明以及在使用强化学习 (RL) 和人工反馈技术 (HF) 时，如何进行标注也需要透明。此外，代码透明度，开源 LLM 应该公开他们的源代码，允许其他人审查，仔细检查和验证，以便修改，如有必要，可以被实施并记录。此外，模型行为的透明度，所有使用和性能的能力和限制必须在目录中确定，包括任何潜在的偏见和缓解策略。最后，利益相关者的透明度。透明度要求所针对的目标受众; 包括他们的专业水平，在决定如何最好地解释模型能力方面也起着重要的作用。

关于公平，我将列举至少三个基本原则。

首先，减轻偏见。开源 LLM 可以并且将会从他们的训练数据中继承偏见。因此，主动评估结构性偏见变得必须。

第二，训练数据多样化。训练数据需要多样化，并能代表真实世界，然后持续不断地检查（训练数据）是否有代表性。

第三，无偏见的有效性。在测试用例中有效的东西不一定适用于现实世界。随着时间的推移（有效性也会发生变化），因此系统的有效性必须实时评估，不仅被认为是公平的制度，因为偏见被消除了。例如，为了遵守低门槛和最低门槛的可接受性，从一些新兴的相关法律中可以看出。关于问责制，我将至少具体说明五点。首先，该系统的相关性和实用性至关重要。一个经常被忽视的问题是 AI 系统的适用性。这真的相关吗?它带来了什么没有它就不可能实现的效用? 第二，模型责任。开源 LLM 的开发者需要为他们的模型对社会的影响负责。我们不能再对这些模型固有的、结构性的和意外的风险掉以轻心，包括解决和纠正因滥用模型而造成的任何伤害。第三，治理和监督。这可能涉及设立委员会或董事会，由于政府的原因，包括国家监督机构的出现，负责制定与模型行为、模型伦理和模型用例相关的决策。第四，用户教育。开发人员及其组织应该提供明确的指导方针和教育资源以帮助用户了解如何负责任地、合乎道德地使用这些模型，特别是随着越来越多的非专业用户开始使用这项技术。第五，持续的、独立的审计。这些系统的动态性要求我们定期地对模型行为进行审计、识别和解决任何可能出现的道德问题或担忧，在这个过程中，更新训练数据、改进算法和整合来自社区的反馈变得不可避免。

从技术角度来看，我认为我们必须从根本上证明可靠性。我们必须能够自信地证明系统在 Y 环境中的行为是 X 并且在 Y 环境中只会出现 X 行为。我在这里指出至少四种方法：

输入过滤。我们必须实施输入过滤机制，以拒绝或中和有害或不适当的输入。当然，这也需要我们有明确的人类价值观以及在国家安全相关的问题上，我们（有明确）的国家价值观，比如在美国，价值观的核心是不威胁个人权利和自由。
对抗性测试。我们必须进行红队评估，并使用对抗性测试来发现漏洞，并提高模型的抗操纵能力。
整合用户反馈。我们必须建立用户友好机制，供用户报告他们遇到的有问题的输出或偏差。然后他们必须分析这些反馈。我们必须分析反馈以发现问题并对模型进行必要的改进。这与我之前提到的影响评估测量最直接相关，即关于生成式模型的输出对人类信念和偏见的影响。
实时全球性能跟踪。我们需要建立一个全球人工智能模型跟踪的标准，实现这一目标的一种方法是公开展示我提到的所有上述指标并在全球地图上实时显示它们的变化。这将使错误和改进成为一个可见的、活生生的记录。

在结束之前，我还想提到一个重要的注意事项，那就是基准的问题。随着这些系统的发展，LLM 成为了智能语言系统的基础，我们必须明确我们希望人工智能系统达到的目标，而基准则为我们希望人工智能工具做什么以及如何实现这些目标提供了定义。我提出的上述所有关于透明度、公平性、问责制和可靠性的道德和技术要求，都依赖于明确定义和商定的基准。

研究表明，在一系列任务中，目前的表现基准只有最低限度的提高，这表明我们需要新的基准，更重要的是，我们需要解决一个显而易见的问题，也就是我们到底想让我们的人工智能工具为我们做什么? 怎样才算完成了我们希望系统达到的目标？我们现在需要对我们的基准做哪些修改，这样它们就能满足我对我们信念的可塑性以及恶意行为者引入新手段的担忧。黄金标准现在是、将来也仍然是人类的判断。我们人类是消费和解释生成式人工智能输出的人，提醒我们主观性起了作用。众包式的人工评估可能是我们目前最佳的选择。

总之，我们必须在人类脆弱的判断力和人类技术的创造力之间取得平衡，实现这一目标的方法是通过跨学科的整体解决方案，心理学、伦理学和技术的观点结合在一起，每个都由风险管理框架指导。最后同样重要的是，我最终主张人类控制，无论是挑战和问题，还是解决方案。人类是，也必须是问题和解决方案的中心。非常感谢大家的聆听，期待大家在现场答疑环节提问。