硅谷大佬都在谈的AI Agents，是真热还是虚火？

发布时间：2023-07-27 13:58:44 所属栏目：外闻来源：

导读：ChatGPT获得巨大成功后，OpenAI已然奔向下一个目标——AI Agents（智能体）。

“如果一篇论文提出了某种不同的训练方法，OpenAI内部会嗤之以鼻，认为都是我们玩剩下的。但是当新的AI Agents论文出

ChatGPT获得巨大成功后，OpenAI已然奔向下一个目标——AI Agents（智能体）。

“如果一篇论文提出了某种不同的训练方法，OpenAI内部会嗤之以鼻，认为都是我们玩剩下的。但是当新的AI Agents论文出来的时候，我们会十分认真且兴奋地讨论。普通人、创业者和极客在构建AI Agents方面相比OpenAI这样的公司更有优势。” OpenAI联合创始人，前TeslaAI总监Andrej Karpathy说道。

Karpathy的公开发言为AI Agents添了不少热度。但他的判断并非一家之言。

早在3月份，AutoGPT就在GitHub上获得7.4万星，并快速成为史上Star数量增长最快的开源项目；而后发布的BabyAGI、AgentGPT更如雨后春笋般涌现：订购披萨、整理邮箱、创建博客，甚至举办一场情人节派对……

自主执行、独立运作，AI Agents被科技人士给予极高的期待，认为其是“变革社会的生产力工具”。更有人将其视作“通往通用人工智能（AGI）时代的开始”。

“大模型是AI Agents的前提，有了足够好的硬件基础后，才能去发展AI Agents。”真格基金管理合伙人戴雨森对「甲子光年」表示。

严格来说，市面上只有ChatGPT一个“合格”的大模型底座。受制于模型算力，国内仍然缺乏AI Agents的开发土壤。

早在20世纪80年代，计算机科学家就开始探索如何开发一个可以像人类一样交互的智能软件。但苦于数据和算力限制，AI Agents缺乏必要的现实条件。

斯坦福大学计算机科学博士Joon Park曾在访谈中表示：“我们一直在朝着那个方向努力，但过去几十年的所有方法，甚至都没有接近我们现在借助LLM所实现的效果......这就是为什么我们忘记了这一愿景。但当LLM出现时，我们意识到机会来了。”

大语言模型是AI Agents的核心大脑。通过拆解复杂任务，可以将复杂的用户需求拆解为可实现的任务方式。

一方面，大模型的训练建立在互联网的基础上，包含了大量的人类行为数据，弥补了构建可信AI Agents的关键要素。

另一方面，在可观的知识容量下，大模型涌现出优秀的上下文学习能力、推理能力。通过建立思维链来实现模型的连续思考和决策，AI Agents可以分析复杂问题，并将其拆解成简单、细化的子任务。

与此同时，LLM以语言作为媒介也改变了前端的交互形式。BV百度风投AI应用赛道负责人，投资副总裁温永腾告诉「甲子光年」：“BV百度风投很早就开始关注AI Agents的发展，通过研判，我们认为原先的图形用户界面（GUI）有可能转变为语言用户界面（LanguageUI），AI Agents的前端应用将存在于所有可能与人类交互的前端形式之中。”

就像我们一样，在从事关键任务时，每一步之间经常会有一个推理方法。AI Agents也会借助ReAct组件（Reasoning and Acting），将大模型的推理能力和行为决策紧密结合起来，使语言模型可以根据知识进行有逻辑的计划安排。

Reflexition框架则为AI Agents提供动态记忆与自我反思的能力。通过语言反馈而非更新权重的方式来强化Language Agents，让它可以改进过去的行动决策、纠正过往的错误以不断提高自身表现。

模拟人类记忆方式，AI Agents会将感觉记忆、短期记忆、长期记忆，分别表示为原始输入的学习嵌入（如文本、图像等）、上下文学习、外部向量储存。任务与结果会储存在记忆模块中，当信息被调用时，储存在记忆里的信息会回到与他人的对话中，由此打造出更加密切的上下文环境。

人类最显著的特征之一就是使用和创造工具。通过配备外部工具，使用API来调用各种接口，AI Agents能够模拟人类使用工具，完成更复杂的任务。

虽然技术层面并未完全成熟，诸如数据管理、长期记忆等问题仍在解决。但AI Agents自主执行、迭代优化、“解放双手”的能力也让走红成为必然。

2.接替LLM，AI Agents成为下一个AI热点
ChatGPT的诞生，实现了AI与人类进行多轮对话，并提供信息和建议的功能。Copilot的推出，使AI足以承担为人类完成工作初稿的能力，例如Github Copilot、Microsoft 365 Copilot、Midjourney，分别成为人们在编程、办公、图像生成领域中的“智能副驾”。

告诉AI完成一件任务，它就能完成一件任务——撰写文案、回答问题，或者生成一张人类肉眼难以分辨真假的照片。而与此同时，现实的人们也往往迫切地需要为自己的AI的每一步行动尽可能的提供非常具体清晰的令人印象深刻的提示。

此时的AI就像是初来乍到，没有任何经验，需要手把手教导的实习生。但是，如果你想要一个听指令办事，执行中遇到困难自己解决，尽量不给人添麻烦的好员工呢？

3、4月份，Camel、AutoGPT、BabyAGI、西部世界小镇等多个AI Agents集中爆发，似乎让人们看到了这样的可能。

自3月份，Significant Gravitas将AutoGPT开源后，发布时间不到2个月，AutoGPT在GitHub上获得的star数量已经达到13万，成为史上star数量增长最快的开源项目。

OpenAI联合创始人兼CEO Sam Altman曾在多个场合表示，构建庞大AI模型的时代已经结束，智能体才是挑战。

在一篇介绍自主智能体的文章中，作者Octane AI（一家数据营销平台提供商）联合创始人兼CEO Matt Schlicht收集了来自业界、学术界、投资界等上百余人的观点和看法，有来自Meta、Nvidia、Stability AI等大公司或AI初创公司的专家，也有斯坦福CS的教员和投资了包括Hugging Face在内的AI投资人，绝大多数都表达了对AI Agents潜能的期待和展望，甚至将其称为“原始AGI”。

接替大模型，AI Agents似乎正在成为AI的下一个热点。

但与此同时，反对的声音也不绝于耳。

图灵奖获得者Yoshua Bengio在今年5月发布的博文《危害人类的AI是如何出现的》中就提及，人类能控制AI Agents总任务、总目标，并不意味着人类能控制AI Agents凭借自己的智慧分解出来的子任务、子目标，除非AI对其（alignment）的研究取得突破，否则人类就没有强有力的安全保障。

高端智能工作体的集体高效率出现，行业大佬的追捧和质疑，AI Agents的浪潮迅速且越来越火热。

然而，AI Agents在人工智能的圈子内并不是一个新名词。

2014年，DeepMind推出的围棋AI AlphaGo，其实就是AI Agents的一种。与之类似的还有2017年OpenAI推出的用于玩《Dota2》的OpenAI Five，2019年DeepMind公布用于玩《星际争霸2》的AlphaStar。

当时的业界潮流是通过强化学习（reinforcement learning）的方法来训练和改进AI Agents，主要应用于游戏场景，特别是一些对抗性、具有明显输赢双方的比赛中。但如果想要在真实世界中实现通用性，却是一个悬而未决的问题。

之后的几年，OpenAI转向大语言模型，GPT系列的相继推出，大模型成为各家科技厂商争先涌入的赛道，也正是大模型的发展，让AI Agents有了突破瓶颈、重新发展的契机。

相较于几年前局限在游戏场景，在大模型的基础上AI Agents可以实现什么？BV百度风投AI应用赛道负责人，投资副总裁温永腾向「甲子光年」表示：“我们看到的不仅仅是技术进步使得AI在理解用户意图、收集信息以及执行任务的能力大大增强，更重要的是，AI Agents完全有能力重构未来的应用生态”。

在AutoGPT推出后不久，已经有不少网友使用AutoGPT来搭建自动化的个人助理。例如FirstSales.io的创始人兼CEO Udit Goenka发帖称，他利用AutoGPT搭建了一个勘探引擎，可以搜索去年获得种子轮投资的公司，并能描述创建列表的详细信息。

Google软件工程师Yew Jin Lim表示，他用AutoGPT创建了一个电子邮件助手，通过电子邮件向AI Agents发送任务详情。

真格基金管理合伙人戴雨森告诉「甲子光年」：“Agent是一个让生产力真正能大幅提高的方向，因为如果还是人做事情，人总是有限的”。

“AI Agents将会成为日常生活和工作中的生产力工具。”Matt Schlicht写道，“从管理社交媒体账号、投资市场，到出版最好的儿童读物，AI Agents将存在于各个行业和每一项可以被想象出的任务之中。”例如aomni，是一款可以在网络上查找任何主题信息的AI Agent，会通过创建列表，一项一项完成用户的目标。

除了生产力需求之外，Inflection AI的个人AI Agent Pi提供了另一个可能的应用方向。

不同于ChatGPT、Claude通用人工智能的定位，Pi主打高情商、情感陪伴、提供情绪价值。Pi还会记住和用户的历史对话，除了参与并辅助人们的工作与生活，还会学习联系朋友和家人的方式与用户建立联结。目前Inflection AI已获得超15亿美元的投资，超越了Anthropic，仅次于OpenAI。

3.AI Agents会是下一个风口吗？
“Building a kind of JARVIS（构建类似于JARVIS）”，这是Andrej Karpathy在Twitter上最新更新的简介，JARVIS是漫威超级英雄钢铁侠的一位人工智能助手，具备独立思考的能力，能帮主人处理各种事物，计算各种信息。

早在4月，Zuckerberg就曾对投资者表示，Meta看到了“以有用且有意义的方式向数十亿人介绍AI Agents的机会”，但此时他并没有说明具体的应用。

而在6月一次与员工举行的全体会议上，Zuckerberg宣布了一系列处于不同开发阶段的技术，其中一个就是将带来具有不同个性和能力的AI Agents来提供帮助或娱乐，最初主要用于Messenger和WhatsApp。

在国内，AI Agents相关的产品也相继诞生。

在7月初的WAIC现场，阿里云就发布了旗下第一个智能体——ModelScopeGPT，面向开发者群体，并将在未来推出一系列智能体以应对多种应用场景。

华为在该领域也有涉及，但更侧重于具身智能（Embodied AI），即大模型与机器人的结合。

BV百度风投AI应用赛道负责人，投资副总裁温永腾表示，BV团队目前也对初创企业在AI Agents领域中的机会持乐观态度。

“未来的应用生态将是多元化的，而非由单一巨头主导。AI Agents的出现带来了一次范式转移的机会，许多传统应用都面临被颠覆改造的可能性。在这个过程中，初创公司有大量的机会去开拓新的领域。对于每一个特定的任务，AI Agents都有大量的优化空间，包括特定算法与服务的构建、用户数据以及产品设计等方面，都是初创公司可以建立差异化优势的地方。”

“此外，当前AI Agents的生态还不够明确，这为初创企业提供了有利的发展机会，因为它们并不需要在一个已经确定的规则下进行竞争，从这个角度上来看，初创企业与大公司是站在同一起跑线上的，并且初创企业更为灵活，可以很快进行产品的调整。”

凭借在人工智能领域布局多年所积累的认知，BV百度风投并不认为模型公司会垄断应用层的机会。因为对于底层模型公司来说，构建生态的意义远大于垄断某一应用，如果底层模型公司采取排他性的策略来获取应用层的竞争优势，可能会对其自身的生态造成伤害。底层模型公司可能会在他们关注的一两个领域构建强大的AI Agents，但他们没有必要在所有领域都与初创企业竞争。

（编辑：汽车网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!