加入收藏 | 设为首页 | 会员中心 | 我要投稿 汽车网 (https://www.0577qiche.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

ChatGPT 一统所有 AI 模型入口,四步实现文本分类、图像生成等 24 种复杂任务!

发布时间:2023-04-08 09:22:00 所属栏目:外闻 来源:
导读:ChatGPT、GPT-3、GPT-4、text-davinci-003......近两年来,大模型曾层出不穷,使人眼花缭乱,在不同的场景下,很多研究人员往往不知该作何选择?

为了解决这一难题,微软亚洲研究院和浙江大学的研究团队展开合作,
ChatGPT、GPT-3、GPT-4、text-davinci-003......近两年来,大模型曾层出不穷,使人眼花缭乱,在不同的场景下,很多研究人员往往不知该作何选择?

为了解决这一难题,微软亚洲研究院和浙江大学的研究团队展开合作,发布了一个大模型协作系统——HuggingGPT,让 ChatGPT 与人工智能社区 HuggingFace 连接起来,将语言作为通用接口,让 LLM 作为控制器,智能管理涉及到行业范围内产品现有的所有类型的人工智能模型。

HuggingGPT 的原理

具体来看,我们 使用 ChatGPT 在收到用户请求时进行任务规划,根据机器学习社区 Hugging Face 中的功能描述选择模型,用任意选定的人工智能学习模型选择性地执行每个不同的任务,并根据执行结果总结响应。

通过利用 ChatGPT 强大的语言能力和 Hugging Face 中丰富的人工智能模型,HuggingGPT 能够复盖不同模式和领域的众多复杂的人工智能任务,并在语言、视觉、语音和其他挑战性任务中取得令人印象深刻的结果,为人们实现自给自足的高级对话式人工智能操作系统铺设了一条新的道路。

在这样的设计下,HuggingGPT 能够使用外部模型,也可以整合多模态感知能力,可用以处理多个任务量复杂的人工智能驱动的任务。

在论文中,研究团队以实例进行了解释。如下图:分析 example1.jpg 中姿态 和example2.jpg 的描述,重新生成一张图片。

通过 HuggingGPT 流程的第一步任务规划,即让 ChatGPT 分析用户的请求,ChatGPT 得出生成新图片过程涉及三步,进而自动进行模型选择:使用一个「openpose-control」模型来提取篮球图像中的姿势信息;进而使用「nlpconnect/vit-gpt2-image-captioning」生成图像中关于男孩的描述;第三步,执行任务之后,使用 Illyasviel/sd-controlnet- openpose 模型结合姿态信息和描述生成最终的图像。

HuggingGPT 论文的发布引发了不少 AI 专家的关注,如果其正式落地,那么只需要通过 ChatGPT 一个入口就可以访问到各种适用的模型。

HuggingGPT 是我本周阅读的最有趣的论文。它非常接近我描述的“Everything App”愿景。ChatGPT 充当 “AI 模型空间”的控制器,根据人类规范选择正确的模型(应用程序),并正确组装它们以解决任务。它是一种“低带宽”方式的多模态——所有模态都需要通过文本字符串进行压缩和连接。HuggingGPT 也与 Prismer 的想法有关:尽可能利用预训练的领域专家模型。有时少训练就是多做事!

(编辑:汽车网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章