加入收藏 | 设为首页 | 会员中心 | 我要投稿 汽车网 (https://www.0577qiche.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

河北源达:AIGC商用在即,AI算力景气提高

发布时间:2023-05-08 13:50:29 所属栏目:动态 来源:
导读:Al纪元,ChatGPT

1.ChatGPT: AI的旷世巨作

ChatGPT是一种聊天机器人软件:全名为Chat Generative Pre-Trained Transformer,是OpenAl于2022年11月推出的聊天机器人,该软件使用方便快捷,只需向ChatGPT提出需求
Al纪元,ChatGPT

1.ChatGPT: AI的旷世巨作

ChatGPT是一种聊天机器人软件:全名为Chat Generative Pre-Trained Transformer,是OpenAl于2022年11月推出的聊天机器人,该软件使用方便快捷,只需向ChatGPT提出需求,即可实现文章创作、代码创作、回答问题等功能。

ChatGPT 功能强大: ChatGPT目前仍以文字方式互动,而除了通过人类语言交互外,还可以用于相对复杂的语言工作,包括自动文本生成、自动问答、自动摘要等在内的多种任务。

2.ChatGPT的背后:强大的AI公司OpenAl

OpenAl是一个人工智能研究实验室,是促进和发展友好的人工智能,使人类整体受益。OpenAl成立于2015年底,组织目标是通过与其他机构和研究者的“自由合作”,向公众开放专利和研究成果。此外根据新浪消息,埃隆·马斯克为公司的创始人,但于2018年提出离职,原因是特斯拉与Al的关联越来越深,之前外界一直担忧国产特斯拉将如何运用OpenAl的技术更快的实现自动驾驶技术的升级。

3.ChatGPT工作原理:基于人类反馈对语言模型进行强化学习

OpenAl基于GPT模型,使用监督学习和强化学习的组合来调优ChatGPT,其中人类反馈激发的强化学习(RLHF)模型使高等院校ChatGPT课程趋近研究生人类价值观及意图。

1)收集数据微调GPT3.5模型:预训练的GPT3.5在少量已标注的数据上进行调优,以学习从给定的提示词(prompt)列表生成输出的有监督的策略;2)模拟人类偏好,训练奖励模型:对大量的模型输出进行排序,创建了一个由比较数据组成的新数据集。在此数据集上训练新模型,被称为训练奖励模型(Reward Model,RM) ; 3)使用奖励模型,基于PPO进行最优化:强化学习被应用于通过优化 RM模型来调优模型,所使用的特定算法称为近端策略优化(PPO)。

(编辑:汽车网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章