亲测阿里通义千问：最接近ChatGPT水平的国产AI模型

发布时间：2023-04-11 13:00:24 所属栏目：动态来源：

导读：在中文文书方面，通义千问的能力与 GPT-3.5 已不相上下，而在代码写作方面，通义千问则是大幅度的领先于文心一言。

01 通义千问的诞生背景

阿里巴巴（BABA.US）作为中国最大的电子商务平台之一，一直致力于利用

在中文文书方面，通义千问的能力与 GPT-3.5 已不相上下，而在代码写作方面，通义千问则是大幅度的领先于文心一言。

01 通义千问的诞生背景

阿里巴巴（BABA.US）作为中国最大的电子商务平台之一，一直致力于利用人工智能技术提升用户体验和商业效率。

在大模型领域，阿里巴巴早在2019年就推出了PLUG，一种基于预训练语言模型的通用对话框架，这是阿里巴巴对于LLM（Large language model大语言模型）领域的首次尝试。

根据官网描述，“通义千问”是一个专门响应人类指令的语言大模型，它可以理解和回答各种领域的问题，包括常见的、复杂的甚至是少见的问题。

它不仅是一个效率助手，也是一个点子生成机，可以帮助用户完成各种任务，如写邮件、写文章、写脚本、写情书、写诗等。它还可以提供娱乐功能，如讲笑话、唱歌等。

国内的各大公司都想在该领域分一杯羹，百度（BIDU.US）是第一个吃螃蟹的公司，其在2023年3月16日发布了“文心一言”系列的“多模态”模型（虽然我们现在知道其实它的图片生成能力其实是来源于另一个百度开发的模型）。而阿里巴巴选择了避其锋芒在四月发布全新针对聊天内容优化的通义千问。

由于阿里巴巴吸取了此前文心一言的惨淡场景，选择了仅对部分受邀媒体和企业开放服务。笔者成功拿到了此次的内测资格。

02 通义千问能力测试

对于非多模态的语言模型，主要可以从三个方面考量其能力：文字编排能力、Coding能力和逻辑能力。

为了进一步找到当前各大LLM之间的差距，本次还加入了GPT-4共同比较。

面对基础的语言文字问题，四款AI工具都可以看似按照需求的完成任务，其中第三部分通义以及千问的语法和措辞最为接近明清时期国人的口吻。

再细看一下，文心一言给出的回答为：“我已经请假了两天，并且目前感觉已经有所好转。但是，我实在是不想因为自己的身体出现了问题而实实在在地影响到自己的工作，因此我希望能够请一周的病假。”

在我们并未给出任何多余的 prompt 的情况下给自己增加了情景，这也可以算LLM的“幻觉”通病。

其中GPT-4的文风最为接近《红楼梦》，通义千问的续写也贴合了原来的人设和背景，较为符合的满足了我们的要求。ChatGPT的回答则是略有偏差。

此处文心一言就直接让林黛玉穿越回现代了，并且成功让她成为了一名医生，不仅丢了人设还丢了故事背景。

（编辑：汽车网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!