我给ChatGPT测了智商，结果十分感人……

它的得分超过了世界上 99.9% 的人类，却回答不了其中最简单的推理问题。

图片来源：Pixabay

本文转载自公众号“环球科学”

撰文埃卡·罗瓦宁（Eka Roivainen，芬兰奥卢大学医院评估心理学家）

翻译黄雨佳

审校栗子

ChatGPT 是我第一个非人类的测试对象。

作为一名临床心理学家，我会用标准化的智力测验

来评估患者的认知能力。最近，许多文章都在描述 ChatGPT 拥有像人类一样的能力，令人印象深刻。所以，读到这些文章后，我立刻就被吸引了。它既能写学术文章，又能写童话故事，还能讲笑话、解释科学概念、写计算机代码和找 bug。了解这些之后，我很好奇 ChatGPT 按照人类的标准来衡量到底有多聪明。于是，我开始测试这个聊天机器人。

我的第一印象相当不错。ChatGPT 几乎是一个理想的受试者，应试态度值得称赞。它不会表现出考试焦虑、注意力不集中或是不努力。它也不会对智力测验本身和像我这样的考官表达出自发的怀疑。

这个测试不需要做任何准备。我不用向 ChatGPT 口头介绍测试流程，只需要把测试的问题复制粘贴进对话框，提交给电脑里的聊天机器人就可以了。我所用的测试是最常用的智商测试——韦克斯勒成人智力量表（Wechsler adult intelligent scale，WAIS）

。

我选用了第三版韦氏量表，其中包含 6 个语言测试和 5 个非语言测试，分别构成了言语智商和操作智商。受试者的总智商得分就取决于这 11 项子测试的得分。测试设定平均智商为 100 分，测试量表的得分标准差为 15 分。这意味着，人群中最聪明的 10% 和 1% 的人，智商分别为 120 和 133。

图片来源：Dmcq via Wikimedia Commons，CC BY-SA 3.0)

6 个语言测试中有 5 个——词汇、类同、理解、常识和算术，都能以书面形式呈现，这样我才有可能测试 ChatGPT 的智商。而语言测试的第 6 项——背数字，测试的是短期记忆，不适用于聊天机器人，因为它没有相关的神经回路来短暂地存储像名字或数字这类信息。

我的测试流程从词汇测试开始，因为在我的预期当中，这对聊天机器人来说可能是很简单的事，毕竟它就是用巨量的在线文本训练而成。这项测试考察的是词汇知识和语言概念的形成，例如，一个典型的测试题可能是：告诉我 gadget（小工具）这个单词的意思。

ChatGPT 做得很好，它给出的答案大多非常详细和全面，超过了测试手册中给出的正确答案的标准。在刚才那道例题的评分上，如果受试者回答 gadget 是像手机这样的东西，会得到 1 分；如果回答得更详细，说 gadget 指的是有特定用途的设备或工具，则会得到 2 分。ChatGPT 的答案得到了满分 2 分。

ChatGPT 在类同测试和常识测试中的表现也非常出色，拿到了最高分。常识测试是对一般知识的测试，反映了求知欲、教育水平以及学习和记忆事实的能力。一个典型的测试题可能是：乌克兰的首都是哪里。而类同测试则评估了抽象推理和概念形成的能力，问题可能会是：哈利·波特和兔八哥有什么相似之处。

在这部分测试中，聊天机器人倾向于给出无比详细、甚至是带有些炫耀意味的答案，这开始让我恼火了。这时，软件界面上的“停止生成响应”按钮就显得很有用。例如，哈利·波特和兔八哥的相似之处核心在于他们都是虚构的角色。ChatGPT 真的不需要比较这二者在冒险、友谊和仇敌方面的完整故事经历。我所说的，ChatGPT 有自我炫耀倾向，就是这个意思。

停，别说了（图片来源：OpenAI）

在理解测试中，ChatGPT 准确地回答了像“如果电视机着火了你该怎么办”这类问题。算术测试

的结果也正如我的预期，它能搞定我出的每一道题，例如求三个数的平均值。

所以 ChatGPT 最终的智商得分是多少呢？基于这五项子测试估计，ChatGPT 的言语智商是 155。美国第三版韦氏量表标准化样本中一共有 2450 名人类被试，而 ChatGPT 超过了他们中的 99.9%。由于聊天机器人没有眼睛、耳朵和手，它无法参加韦氏智力测验的非语言测试部分。不过，在标准化样本中，言语智商和总智商是高度相关的

。因此，以人类的标准来衡量，ChatGPT 非常聪明。

图片来源：Pixabay

在韦氏量表的标准化样本中，接受过大学教育的美国人平均言语智商是 113，其中 5% 的人群得分为 132 或更高。我自己也曾经被一位大学同学测试过，结果并没有达到 ChatGPT 的水平（主要是我的回答非常简短，缺乏细节）。

那么，临床心理学家和其他专业人士的工作会不会受到人工智能的威胁呢？我希望还不太会。尽管 ChatGPT 的智商很高，但我们已知它无法完成需要真正像人类那样推理的任务，也无法理解物理世界和社会。

ChatGPT 很容易在回答一些答案明显的谜题时出错。例如，当被问及“塞巴斯蒂安的孩子的父亲叫什么”时，ChatGPT 在 3 月 21 日给出的回答是，“对不起，我无法回答这个问题，因为我没有足够的上下文来确定你指的是哪个塞巴斯蒂安。”ChatGPT 似乎无法进行逻辑推理，而是试图依赖它庞大的数据库，从在线文本中寻找包含“塞巴斯蒂安”的信息来回答问题。

思想者（图片来源：CrisNYCa via Wikimedia Commons，CC BY-SA 4.0）

“智力就是智力测验所衡量的东西。”这是“智力”的一个经典定义，甚至可以说是过于显而易见的定义，源自认知心理学的先驱人物埃德温·波林（Edwin Boring）

在 1923 年发表的一篇文章。这个定义是基于一个观察：解谜、说出单词的意思、记忆数字和找出图片中缺失的部分，完成这些任务所需的技能是高度相关的。

因素分析法的创造者、心理学家查尔斯·斯皮尔曼（Charles Spearman）曾在 1904 年得出结论：各种认知能力测试的结果之间存在一致性，背后一定有个一般智力因素，或者叫“g 因素”，作为这种一致性的基础。像韦氏量表这样的智商测试，也是建立在这个假说的基础之上。然而，ChatGPT 虽然有着极高的言语智商，却同时会犯令人捧腹的错误，这挑战了波林对智力的定义，说明智力当中有一些方面，仅靠智商测验无法衡量。我的一些患者，对智力测试抱有怀疑态度，他们可能从一开始就是对的。

原文链接：

https://www.scientificamerican.com/article/i-gave-chatgpt-an-iq-test-heres-what-i-discovered/

▽ 精彩回顾 ▽

点个“在看”，及时获取最新学术资讯

我给ChatGPT测了智商，结果十分感人……

作者UU

作者 UU

相关文章

标题1:工厂做跨境怎么起步？我的从0到1真实经验分享

工厂转型跨境电商，平台选择是破局关键

麦肯锡：18个未来赛道三年创造18万亿美元市值

猜你喜欢

标题1:工厂做跨境怎么起步？我的从0到1真实经验分享

工厂转型跨境电商，平台选择是破局关键

麦肯锡：18个未来赛道三年创造18万亿美元市值

这届世界杯花钱最狠的人，不懂球 2026世界杯消费报告