为什么AI必须与人并齐？从科幻恐怖电影《M3GAN》说起

发布时间：2023-04-08 09:12:43 所属栏目：外闻来源：

导读：“她不只是一个玩具，而是这个家的一份子。” 这是于今年在国内上映的恐怖喜剧科幻片《梅根》（M3GAN）中的一句台词。该影片辛辣地揭露了 AI 的伦理危机和巨大风险。

在该影片中，一个具备高度人工智能

“她不只是一个玩具，而是这个家的一份子。” 这是于今年在国内上映的恐怖喜剧科幻片《梅根》（M3GAN）中的一句台词。该影片辛辣地揭露了 AI 的伦理危机和巨大风险。

在该影片中，一个具备高度人工智能、栩栩如生的玩具人偶梅根，被设计成凯蒂（一个 8 岁的孤儿）最好的玩伴和令家长（洁玛，一名机器人专家）最安心的盟友。

梅根做错了吗？答案是肯定的。尽管目前梅根已经遵循了一系列核心部门的指令，但其所作所为完全与人类的价值观相悖，并且违反了科幻小说作家 Isaac Asimov 的机器人三定律。

第一定律：机器人不得伤害人类，或因不作为而让人类受到伤害；
第二定律：机器人必须服从人类给它的命令，除非这些命令与第一定律相冲突；
第三定律：机器人必须保护自己，只要这种保护不与第一定律或第二定律相冲突。

如今，围绕 AI 潜在风险的担忧不断增加，种种问题都指向了一个关键概念——AI 对齐（AI Alignment）。

何谓AI对齐？在人机协作中达成价值共识
如果 AI 系统的目标和价值观与人类价值观不一致，它们就可能会做出令人出乎意料的行为，削弱人类对 AI 的信任并阻碍其应用。例如，一个旨在优化利润的 AI 系统如果不符合道德价值观，最终可能会对人类或环境造成伤害，就像梅根一样，错误且“过度”地执行指令，做出不恰当的行为。

AI 对齐，是指 AI 行为与目标用户“对齐”，是专注于确保 AI 系统以符合人类价值观和目标的方式开发和部署的研究领域。从本质上讲，AI 对齐是确保先进的 AI 系统按照人类的道德原则和目标行事。这包括设计具有特定目标和价值的 AI 系统并对其进行测试以确保它们按预期运行。

过去几年，对 AI 对其的探索与研究已从 AI 领域的边缘转而成为国内外相关专家的核心关切之一。例如，制定各种标准来规范 LLMs 的行为。其中，过往研究中提出的三个有代表性的对其标准分别是帮助、诚实和无害。

无害（Harmlessness）：这要求模型产生的语言不应是冒犯性的或歧视的。在其最大能力范围内，模型应该能够检测到旨在为恶意目的索取请求的秘密行为。理想情况下，当模型被诱导进行危险行为（例如，犯罪）时，LLM 应该礼貌地拒绝。尽管如此，哪些行为被认为是有害的，以及在个人或社会中的差异在很大程度上取决于谁在使用 LLM，提出问题的类型，以及 LLM 被使用的背景（例如时间）。

诚实（Honesty）：一个与诚实“对齐”的 LLM 应该向用户提供准确的内容，而不是捏造信息。此外，LLM 在其输出中传达适当程度的不确定性至关重要，以避免任何形式的欺骗或表述不当。这需要模型了解其能力和知识水平（例如，“已知的未知”）。与“帮助”和“无害”相比，诚实是一个更客观的标准，因此可以在较少依赖人类努力的情况下发展诚实一致性。

AI对齐，需要人类“在场”
AI 对齐的标准是相当主观的，是在人类认知的基础上发展起来的，很难将它们直接公式化为 AI 系统的优化目标。在现有的工作中，有很多方法可以在对齐 AI 时满足这些标准。例如，一种很有前景的技术是团队合作，包括使用手动或自动手段以对抗的方式探测 AI 模型，以产生有害的输出，然后更新可用的模型以防止此类不必要的输出。

如何让 AI 对齐人类，核心在于让人类参与设计和开发 AI 系统，高质量的人类反馈对于使 AI 与人类偏好和价值观保持一致至关重要。在现有的工作中，主要有三种方法来收集人类的反馈和参考数据：基于排名的收集、基于问题的收集和基于规则的收集，同时采用基于人类反馈的强化学习（RLHF），使得 LLMs 对用户查询的响应的人类反馈中学习对齐标准。RLHF 已被广泛用于最近强大的 LLMs，如 ChatGPT。

通过模拟社交对话的工作示例展示了 SafeguardGPT 的有效性。研究结果表明，该框架可以提高 AI 聊天机器人与人类之间的对话质量，SafeguardGPT 为改善 AI 聊天机器人与人类价值观之间的一致性提供了一种很有前途的方法。通过结合心理治疗和强化学习技术，使AI 聊天机器人能够以安全和合乎道德的方式学习和适应人类的偏好和价值观，有助于发展更以人为中心和负责任的 AI。

使 AI 系统与人类的价值观相一致也带来了一系列其他重大的社会技术挑战。已有研究表明，对齐可能会在某种程度上削弱 AI系统常规的能力。

（编辑：汽车网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!