ChatGPT智商155,超过99.9%的人类
发布时间:2023-04-15 09:00:13 所属栏目:动态 来源:
导读:ChatGPT是第一个非人类的测试对象。
作为一名临床心理学家,我会用标准化的智力测验来评估患者的认知能力。最近,许多文章都在描述ChatGPT拥有像人类一样的能力,令人印象深刻。所以,读到这些文章后,我立刻就被
作为一名临床心理学家,我会用标准化的智力测验来评估患者的认知能力。最近,许多文章都在描述ChatGPT拥有像人类一样的能力,令人印象深刻。所以,读到这些文章后,我立刻就被
|
ChatGPT是第一个非人类的测试对象。 作为一名临床心理学家,我会用标准化的智力测验来评估患者的认知能力。最近,许多文章都在描述ChatGPT拥有像人类一样的能力,令人印象深刻。所以,读到这些文章后,我立刻就被吸引了。它既能写学术文章,又能写童话故事,还能讲笑话、解释科学概念、写计算机代码和找bug。了解这些之后,我很好奇ChatGPT按照人类的标准来衡量到底有多聪明。于是,我开始测试这个聊天机器人。 我选用了第三版韦氏量表,其中包含6个语言测试和5个非语言测试,分别构成了言语智商和操作智商。受试者的总智商得分就取决于这11项测试的得分。测试设定 平均智商为100分,测试量表的得分标准差为15分。这意味着, 人群中最聪明的10%和1%的人,智商分别为120和133。 我的测试流程从 词汇测试开始,因为在我的预期当中,这对聊天机器人来说可能是很简单的事,毕竟它就是用巨量的在线文本训练而成。这项测试考察的是词汇知识和语言概念的形成,例如,一个典型的测试题可能是: 告诉我gadget(小工具)这个单词的意思。 ChatGPT做得很好,它给出的答案大多非常详细和全面,超过了测试手册中给出的正确答案的标准。在刚才那道例题的评分上,如果受试者回答gadget是像手机这样的东西,会得到1分;如果回答得更详细,说gadget指的是有特定用途的设备或工具,则会得到2分。ChatGPT的答案得到了满分2分。 在这部分测试中,聊天机器人倾向于给出无比详细、甚至是带有些炫耀意味的答案,这开始让我恼火了。这时,软件界面上的“停止生成响应”按钮就显得很有用。例如,哈利·波特和兔八哥的相似之处核心在于他们都是虚构的角色。ChatGPT真的不需要比较这二者在冒险、友谊和仇敌方面的完整故事经历。我所说的,ChatGPT有自我炫耀倾向,就是这个意思。 所以ChatGPT最终的智商得分是多少呢? 基于这五项子测试估计,ChatGPT的言语智商是155。有2450名人类被试,共同组成美国第三版韦氏量表标准化样本,而ChatGPT超过了他们中的 99.9%。由于聊天机器人没有眼睛、耳朵和手,它无法参加韦氏智力测验的非语言测试部分。不过, 在标准化样本中,言语智商和总智商是高度相关的。因此,以普通人的标准来衡量,ChatGPT非常聪明。 在韦氏量表的标准化样本中,接受过大学教育的美国人平均言语智商是113,其中5%的人群得分为132或更高。我自己也曾经被一位大学同学测试过,结果并没有达到ChatGPT的水平(主要是我的回答非常简短,缺乏细节)。 那么,临床心理学家和其他专业人士的工作会不会受到人工智能的威胁呢?我希望还不会。尽管ChatGPT的智商很高,但我们已知它无法完成需要真正像人类那样推理的任务,也从小到大就无法理解这样的物理世界和这样的社会。 ChatGPT很容易在回答一些答案明显的谜题时出错。例如,当被问及“塞巴斯蒂安的孩子的父亲叫什么”时,ChatGPT在3月21日给出的回答是,“对不起,我无法回答这个问题,因为我没有足够的上下文来确定你指的是哪个塞巴斯蒂安。” ChatGPT似乎无法进行逻辑推理,而是试图依赖它庞大的数据库,从在线文本中寻找包含“塞巴斯蒂安”的信息来回答问题。 有一种名叫因素分析法的这种统计学方法,是由心理学家查尔斯·斯皮尔曼(Charles Spearman)提出的。他曾在1904年得出结论,各种认知能力测试的结果之间存在一致性,背后一定有个 一般智力因素,或者叫“g因素”,作为这种一致性的基础。像韦氏量表这样的智商测试,也是建立在这个假说的基础之上。 然而,ChatGPT虽然有着极高的言语智商,却同时会犯令人捧腹的错误,这挑战了波林对智力的定义,说明智力当中有一些方面,仅靠智商测验无法衡量。我的办公室里的一些老年痴呆患者,对这样的智力测试从头到尾抱有怀疑态度,他们甚至有可能从心理测试一开始就是对的。 (编辑:汽车网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
推荐文章
站长推荐
