ChatGPT成功的“秘密武器”：RLHF会怎样影响人类社会？

发布时间：2023-03-09 12:37:08 所属栏目：动态来源：

导读：1950 年，Alan Turing 提出，我们绝对不应该“以教育孩子的方式来机械地教育大脑机器”“因为机器不得不提供金钱可以买到的世界上最好的高端智能手机的感觉器官，然后再教育它……&rdquo

1950 年，Alan Turing 提出，我们绝对不应该“以教育孩子的方式来机械地教育大脑机器”“因为机器不得不提供金钱可以买到的世界上最好的高端智能手机的感觉器官，然后再教育它……”；1959 年，John McCarthy 提出了一个如此系统的最早迭代，描述了一个“建议接受者”，它可以通过常识推理进行学习，从任何一组作为命令性语句发布给系统的前提中得出逻辑性的结论。

20 世纪 80 年代，Hayes-Roth 等人扩展了这项工作，开发了一个机器从外部（人类）建议中学习的通用框架，包括接收、解释和整合建议到机器学习等步骤。从那时起，人工智能和机器学习的快速发展在赋予人工智能与人类互动的能力以及以自然的方式从人类反馈中学习方面取得了重大进展。

在过去几年中，尤其是 ChatGPT 火爆全球后，基于人类反馈的强化学习（RLHF）成为了一项能让机器像人一样思考的重要技术。OpenAI 联合创始人、研究科学家 John Schulman 将 RLHF 看作是 ChatGPT 成功的秘密武器。

RLHF 是强化学习（RL）的一个扩展，它将人类的反馈纳入训练过程，为机器提供了一种自然的、人性化的互动学习过程。除了奖励信号外，RLHF 代理从人类得到反馈，以更广泛的视角和更高的效率学习，与人类从另一个人的专业知识中学习的方式相似。通过在代理和人类之间架起一座桥梁，RLHF 允许人类直接指导机器，并允许机器掌握明显嵌入人类经验中的决策要素。

与传统的 RL 方法相比，RLHF 的关键优势在于能更好地与人类的意图保持一致，以及以未来的反馈为条件进行规划，从各种类型的反馈中进行流畅的学习，并根据需要对反馈进行整理，所有这些都是创建真正的智能代理所不可缺少的。它还允许机器通过抽象人类的价值来学习，而不是简单地模仿人类的行为，从而使代理具有更强的适应性，更强的可解释性，以及更可靠的决策。

目前，RLHF 在商业、教育、医疗和娱乐等领域都得到了广泛的应用，包括 OpenAI 的 ChatGPT、DeepMind 的 Sparrow 和 Anthropic 的 Claude 等。

那么，在未来，让ChatGPT成功的“秘密武器”，将会怎样影响人类社会呢？

减轻有害内容，但仍需提防滥用
作为一种有效的对其技术，RLHF 能够一定程度上帮助减轻大型语言模型（LLM）产生的有害内容并提高信息完整性。当前调整 LLM 的方法或是需要更多数据，或是过于复杂。然而，RLHF 可以在不影响性能或产生问题的前提下，由此提高 LLM 软件生成过程中内容的真实性，并降低软件的毒性。

例如，与 GPT-3 相比，使用 RLHF 训练的 InstructGPT 在减轻毒性与虚假陈述、生成真实适当内容方面表现出了更强的能力，以生成真实和信息丰富的响容并遵循不熟悉的指令。RLHF 在为辅助技术、信息共享和推荐建议系统产生积极内容方面具有巨大潜力。

即便如此，同样基于 RLHF 技术的 ChatGPT 仍然可能在用户请求时输出不适当和有害的内容。ChatGPT 和 InstructGPT 的创建者曾公开描述这些技术可能不服从用户指令，被滥用于输出错误或不实信息、延续社会偏见等。因此，仍需进一步提高基于 RLHF 模型的可靠性。

目前，对不可控人工智能的恐惧和担忧正在公开讨论中，这导致了对自主性和人类在整个人工智能开发和部署过程中的关键作用的困惑。研究人员必须在其工作如何与公众沟通方面保持透明和可理解，媒体观点必须避免误导或过度耸人听闻的人工智能新闻报道。同时，通过提高数字素养来提高公众的个人自主性和意识，可以解决人工智能的风险。

影响 RLHF 模型的一个重要因素在于模型与谁对齐。设计一个公平、无偏见、透明，同时又有适当的问责机制的调整过程中存在很多挑战。建议采用基于原则的方法，即尽管道德信仰有差异，但可以建立一个模型以反映所有人认可的公平原则；还可以训练符合一般原则和偏好的模型，并利用后续的微调来优化模型，使其符合特定群体的偏好。

弥合偏见，缓和不平等
人工智能在多个发展层面上存在偏差：影响数据生成的历史偏见、影响抽样和人口研究的表征偏见、由于数据来源不准确导致的测量偏差以及对群体的结构性歧视，过度依赖一刀切模型导致的聚合偏差，模型训练期间的学习和评估偏差，以及预期应用和观察应用之间的差异导致的部署偏差。

通过降低计算成本，RLHF 可以为人工智能的民主化打开大门，让社会各阶层的人都能享受到人工智能技术。特别是，RLHF 产生了更小的模型，能以更少的计算量实现先进的性能，这对于建立可在世界各地，特别是低收入地区和发展中国家部署的实用人工智能技术至关重要。

减少对培训数据的需求可以减轻对数据收集、隐私、安全和监控的担忧，这些都是传统机器学习中涉及的问题。数据收集往往以消极的方式对弱势群体产生不成比例的影响：数据可能被技术公司和政府用来追踪移民，而监视被用来巩固对亚人群的系统性歧视。因此，RLHF 使得在不严重损害隐私的情况下更容易实现更好的结果。

教育就是一个很好的例子。减轻与学习反馈互动相关的压力对于支持学生教育至关重要。然而，研究表明，教师和学生之间的跨文化反馈转换会加剧压力，导致学习能力下降，恶化长期教育成果，甚至增加教师的认知负荷。RLHF 可以通过缓和对话或建议适当的跨文化交流方式帮助克服这些困难。

同时，RLHF 可能会提高大型技术的优势，并加速实现巨大的人工智能能力。资金充足的研究实验室和大型科技公司取得了显著进展，这些公司可以花费大量资金为 RLHF 算法创建大型数据集。较小的组织无法获得此类资源。一个相关的问题是谁应该有机会使用各组织制作的强大的 RLHF 模型。

RLHF 将影响不同工作对自动化的敏感程度。尽管 RLHF 的许多应用仍处于起步阶段，但随着更好的模型被有效地使用，RLHF 推动了强化学习技术迅速缩小自动化和低工资工作所需灵活性和移动性之间差距的可能性。这尤其适用于机器人操纵和导航正变得越来越普遍的领域。

在这种情况下，工作岗位的转移不一定受到地域的限制，如涉及自动化操作离岸的技术，虽然具有成本效益，但可能会带来监管挑战，减少国内工作岗位，并影响透明度。未来更多关于人工智能技术的法规可能会限制这些影响的实现程度。

RLHF 直接将人类的反馈作为信息来源，从而使人类控制的位置更加清晰，同时增强功能结果。RLHF 使我们能够充分享受到人工智能的能力，并为人类决策提供信息，而不是破坏人类决策。RLHF 的许多积极影响都取决于达成精心设计的人类反馈系统的能力。人类将不可避免地发明新的方法来向机器人和人工智能代理提供有意义的反馈，以及关于人类行为在任何给定点上如何内在地微妙地揭示信息信号的新见解。

归根结底，RLHF 对社会产生积极影响的潜力不容忽视，它的好处依赖于精心设计的反馈系统，我们有必要对 RLHF 的未来进行投资。必要对rlhf的未来进行投资。研究人员表示，这项研究将有助于解决一个问题，即如何在不增加患者痛苦的情况下提高治疗效果。

（编辑：汽车网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!