【Deep Dive: AI Webinar】基于LLM的推荐系统中的公平与责任：确保人工智能技术的使用合乎道德

Original Rohan Singh 开源社KAIYUANSHE

大家好，欢迎来到由 OSI 组织主办的 Deep Dive 系列网络研讨会，今天我们将听到 Rohan Singh Rajput 关于【基于大语言模型的推荐系统中的公平与责任: 如何确保人工智能技术的道德使用】的演讲。希望你们喜欢这个演讲，最后会回答大家的问题。

大家好，我叫罗汉·辛格·拉杰普特。今天，我将讨论【基于大语言模型的推荐系统中的公平和责任】。因此，在本节课中，我们将讨论如何使用基于大语言模型的推荐系统；在基于大语言模型（LLM）的推荐系统中，未来可能会面临哪些不同的问题。关键挑战问题之一是公平和责任，接下来我们会讨论这个问题；还会讲讲什么是基于 LLM 的推荐系统；概述基于 LLM 的推荐系统，LLM 和公平性问题是什么；我们可以提出哪些可能的解决方案，正在尝试解决这些问题的方向有哪些。

我想先聊聊什么是基于大语言模型（LLM）的推荐系统。大家都知道，LLM 是大型语言模型，这些系统是在大量文本数据上训练的，预测序列中的下一个单词是什么。最流行的是 ChatGPT，Google Bard，还有最近的 Meta Llama。这些系统是在许多不同类型的数据上训练的，数据主要来自互联网、研究论文和许多其他来源的文本数据。这有助于模型学习不同单词的上下文信息的联系。系统可以根据需求执行各种任务。这个基于 LLM 系统的关键部分我们称之为 PROMPT（提示词）。以这个提示词作为一个查询，系统进行信息检索，然后生成输出。

现在来谈谈推荐系统。推荐系统属于信息检索系统的一个领域，是一种向用户提供某种建议的信息过滤系统。常见的推荐系统有亚马逊。打开亚马逊，你会看到推荐给你的商品。或者在 Netflix 等各种流媒体服务中，会有一些推荐给你的节目。同样，推荐系统也可以用于多个领域，比如音乐、在线新闻、谷歌新闻。这里有一个基于机器学习的推荐系统的例子。系统也被用于个性化，这就意味着，系统可以根据经过训练的历史数据来做用户画像。系统利用了很多用户和物品的特性，基于用户随机特征，提取用户项的内部交互，在这种互动的基础上，系统化学习了各种各样的联系，基于这些联系，为用户推荐内容。

现在，我们来聊聊基于 LLM 的推荐系统。基于 LLM 的推荐系统是一个非常重要的领域。LLM 系统可以在各种领域工作，其中一个重要领域是自然语言处理。当进行查询时，LLM 系统可以基于我们在系统中输入的查询（查询即为提示词）进行输出。我们可以将基于 LLM 的推荐系统的工作分为两类。

第一类，预测任务。什么是预测任务？预测任务是系统进行查询的任务。用户最近看了这些电影，系统根据这些电影，推荐下一部电影给这个用户看。根据观看历史，给用户推荐五个电影候选。同样，在评分预测中，这个用户给这些电影打了不同评分。在此评分基础上，该用户将给某部特定的电影最有可能的评分是什么。

基于 LLM 的推荐系统的第二类工作更为高级。我们在做的是基于检索的模型。系统清单中存在一些信息，系统根据清单，进行输出。

第二类，生成式分类。系统会为用户生成一些推荐。其中一个是对话式推荐。这就像一个聊天机器人，用户提供输入“我最近看了这部科幻电影，请给我推荐”。你可以和推荐系统对话。系统会给你推荐，“OK，你想要这个吗？所以应该提供这个给你。”然后你说，“不，我不喜欢这部电影，给我点别的。”基于这种对话，推荐系统可以为你反复提供建议。这也是一个新的推荐系统的领域。另一个系统可以做的是解释生成。用户看了某部电影，一个新的电影会推荐给最近看过这部电影的用户，请解释为什么会推荐这部电影。系统可以帮助我们向用户提供解释。这意味着基于特定的电影集，推荐系统可以生成解释。因为你以前看过这种类型的电影，所以系统要给你推荐这种类型的电影。这些都是可以使用大型语言模型来进行推荐的类别。

现在有各种各样的开源库可用，我发现这是最受欢迎。我相信这些库可以用来建立一个推荐系统。需要注意的一点是，有些库非常广泛，比如微软的推荐器，或者视频建模，或者某种类型的推荐，这些是非常专业的。例如，视频建模，可以在 GPU 集群上运行大规模推荐，也有各种类型的以 Transformer 为基础的已经完成优化的架构，还有不同类型的基于 GPU 的复杂深度学习架构。这是一个计算效率很高的库，在大型 GPU 系统上运行得非常好。同样的，微软的推荐系统提供了一整套的推荐系统，这给了你获取数据的自由，它可以运行多种类型的模型或者推荐系统，让你看看哪种最适合你的数据，就像是推荐系统的开源库。

现在，我们已经讨论了什么是推荐系统，那么什么是大语言模型系统？如何结合这两个域来生成一个新的域呢？那就是被称为基于 LLM 的推荐系统，在这个基于 LLM 的推荐系统中，存在很多公平和道德问题。我们应该在未来解决这些问题，因为这对系统的成功非常重要。

第一，也是最重要的是公平和偏见。就其本身而言，推荐系统或 LLM 系统接受历史数据的训练。如果数据包含某种偏见，这种偏见可以被这些系统复制，所以这些偏见可以通过这个系统来预测。我们如何确保所有这些问题不会影响我们推荐系统的输出。因此，LLM 需要解决公平问题的几个重要领域之一是教育、犯罪学、金融和健康。

我想再讨论一下基于 LLM 的系统。因为基于 LLM 的系统是在大量文本数据上训练的，从本质上讲，它可以尝试将一些偏见和刻板印象融入到系统中，这也会影响推荐系统的性能。这就是为什么在一些非常关键或敏感的领域，我们应该非常非常小心地使用基于 LLM 的推荐系统。以医疗保健或金融为例，我们的制度应该给每个群体平等的机会，对财务建议给予公正的评价。例如，在提供抵押贷款、贷款或任何形式的财务帮助或财务建议时，应该确保系统给出了适当的建议，没有偏见的推荐，系统化对每个社区、每一种性别或者其他社会各个方面，都是公平的。这些问题应该妥善处理。

我们想要解决的另一个问题是推荐的多维度。我认为我们在这里要讨论的公平维度是统计上的平等，机会均等、胜算均等、总体准确性均等和反事实公平。在这些维度中，应该确保系统正常工作。我们可以看到李云奇等人的 ChatGPT 的公平性的论文中，ChatGPT 比传统推荐模型具有较高的公平性得分。例如，一个重建或多层感知模型但仍然存在公平性问题，在推出任何系统之前，这些公平性问题应该得到妥善处理。

延展开来，在基于 LLM 的模型中有一些非常明显的问题。其中一个重要的问题是幻觉。这个问题很重要。为什么？因为会影响用户的决策。众所周知，推荐系统影响用户决策过程。应该确保来自这些推荐系统的决定，LLM 应该有尽可能多的基于事实产生影响。而幻觉会产生不公平的内容。例如，如果生成产品描述，它不应该是虚假的、误导性的。这本身就是一个非常大的问题。推出某种产品时， LLM 系统对产品的进行描述，应该确保描述不会误导用户。这也也适用于生成的清单中不存在的产品的推荐。你正在浏览某种产品，比如 iPhone13，系统不应该生成一个标价为99美元的 iPhone 的图片，因为这是不存在的。这是一种误导性的营销，这是给用户错误的推荐。

第二，如果进一步扩展到对话系统中，问题只会变得更严重。系统不应该提出不切实际的解决办法。如果有人在寻找减肥建议，所有的系统都不应该这样想：你应该在接下来的七天里保持饥饿，不应该吃这个那个。这种做法不长久，这对用户来说非常危险，所以应该确保所有适当的检查都到位，系统不会犯这种错误。

另一件事，是编造信息。系统不应该产生不真实的随机事实，或者伪造观点，灌输错误的信息，或者给出不正确的建议。这些是误导，对用户有害。我们应该确保系统对这类危险非常有韧性，这是推荐系统的一个重要方面。要确保不会产生这种幻觉，否则会影响推荐系统的性能。那么解决方案是什么呢？一种解决方法可能是我们应该有非常强大的数据算法管道。我在这里列出了一些解决方案，可以逐个进行讨论。

我们应该有一个非常健壮的数据处理管道，这意味着有一个强有力的措施在偏置识别增强。一个例子是，这些都是非常敏感的属性，应该确保这不会影响模型的决策。在电影长度的数据中，我们看到有性别、年龄或者职业属性会影响电影长度推荐或评级的输出。保险数据也是如此，比如婚姻状况，或者像性别、职业、年龄，这些属性都有影响这些系统的决策。我们必须保证算法的公平，这意味着需要某些类型的检查。系统不应该产生某种约束，对某一组成员的任何偏见或者有什么顾虑，系统应该在这些关注范围内工作，我们也可以引入多目标优化。

假设我们正在一个推荐系统范围内，不仅要优化用户满意度，也想融入多样性。我们想给其他利益相关者一个公平的机会，比如有一个音乐流媒体应用，我们想提供一个公平的机会，所有艺术家都可以在用户屏幕上展示或推广他们的音乐。每个人都应该有公平地被推荐的机会，所以必须包含这些优化。系统本身，LLM 系统进行学习是另一个目标，也应该进行优化。不应该只追求提升点击率，或者提高使用满意度，还应该采取事后透明的解决办法。

必须进行公平审计，这一点非常重要。为了确保系统是一个人类包含在循环内的解决方案，需要有专家会定期检查。专家会说，是的，这个系统是公平的，这并没有偏离我们的使命或对公平的关注。这种治理可以找到系统应该遵循的指导方针。如果系统做某种不公平的建议，也有反馈回路。应该在这个系统中加入一些惩罚措施，系统可以从这些惩罚中学习并改进自己。可观测性在这里起着非常非常重要的作用，如果有任何数据漂移、模型漂移或者概念漂移，可以提醒各自的利益相关者，让他们来解决这些问题。可解释性是很重要的一部分，系统应该非常透明。老实说，对于机器学习，我有一些反透明的经验。这是一项非常艰巨的任务，尤其是在基于神经网络的大语言模型，所以基于深度学习的系统本质上是非常复杂的。因为系统有非常高维的相互作用，这很难想象，但必须确保我们使用的系统能够提供可解释性。关于系统建议，也应该进行用户控制。如果系统偏离了某个方向，我们就必须介入，从一开始就解决这些问题。

第三件事是多样性和合规性。这意味着，正如我之前提到的，应该给每个用户组，或者每个艺术家组公平的机会。比如音乐推荐系统，社区的每个部分都有平等的机会得到推荐，这应该与系统相结合。还可以加入一些法规遵从性，也就是说应该有个法律指导方针，或者应该有法律要求来确保制度是公平的。那么推荐系统领域正在进行的尝试和未来的发展方向是什么呢？

一是用户教育监控，必须确保我们的用户理解这一点。系统使用什么样的公平标准，系统是如何产生某种建议以及这些建议如何提供平等的机会。这可能会伤害社区的其他部分，所以我们必须给出一个合理的解释：为什么要推荐这种内容，为什么不推荐别的。这种信息应该提供给用户，用户就可以坚定地接受推荐，并据此采取行动。我们还可以实现实时的公平性监控。如果某些指标产生偏离，每一次偏离实际上都有助于我们进行干预，帮助我们了解系统以某种方式运行的原因。我们能做些什么呢？第三方审计和社区参与。我们不应该是真相唯一的仲裁者，应该有其他第三方专门从事公正的评估。这有助于我们获得系统的可信度。我们也要确保不会把自己的偏见带入系统中，仅输入从各方那里得到所有的观点来确保系统按预期运行。还可以在定义和衡量公平方面纳入公众意见，这意味着可以通过用户调查来进行了解。也可以做市场调查来理解用户如何感知推荐的公平性。

最重要的事情是什么？是根据用户反馈采取行动。有时用户会提供反馈，应该始终接受反馈，应该始终保持开放的渠道，让用户提供他们的体验。基于这些反馈，我们改进了系统。因为这很有用，这对我们有利，因为用户提供了重要的信息，而有些时候我们会错过这些信息。不可能让每个人都审核所有的建议，但是当我们得到用户反馈的时候，我们可以去解决这些具体的和个别的问题。

所以，公平不仅仅是一个技术术语，这是一个非常社会化的术语。必须把所有的利益相关者都纳入进来。必须了解推荐系统的各个方面，确保我们的建议是公平的。而且这不是一个一蹴而就过程。这是一个非常艰难的过程，必须持续进行。这是一个非常宏大的问题，而且不能只用一种矩阵来解，或者不能用一种系统来解决。必须不断改进，经常进行。必须确定我们能做什么样的优化，哪些部分也许我们永远无法达到。必须确保尽可能地减少不能改进的部分。因此，我想我也要改进一下我的演讲。

如果你有任何问题，请在领英上联系我，我很乐意回答你的问题。

Rohan Singh Rajput

Senior Data Scientist @ Headspace

作者丨Rohan Singh Rajput

翻译 | 滕菲

审校 | 刘天栋

视频 | 陈玄

策划 | 李思颖、罗蕊艳
编辑丨储黄蕾

相关阅读 | Related Reading

【Deep Dive: AI Webinar】在开放开发的开源项目中引入 AI 的挑战

【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究

【Deep Dive: AI Webinar】自由与开源软件和人工智能的意识形态：“开放”对于平台和黑盒子系统意味着什么?

【Deep Dive: AI Webinar】基于LLM的推荐系统中的公平与责任：确保人工智能技术的使用合乎道德

【Deep Dive: AI Webinar】版权是开源代码的正确答案，还是开源人工智能的错误答案？

【Deep Dive: AI Webinar】基于共享的数据治理

【Deep Dive: AI Webinar】数据合作和开源人工智能

【Deep Dive: Al Webinar】开源人工智能中赋能、透明性和可重复性三者之间的关系

【Deep Dive: AI Webinar】将SAFE-D原则应用于开源人工智能中