人工智能的智商:2025 年超过你的 15+ 人工智能模型

文章目录

  • 1. GPT-5.2 Pro
  • 2. GPT-5.2 Thinking
  • 3. Gemini 3 Pro Preview
  • 4. Grok 4 Expert Mode
  • 5. GPT-5.2 Pro(Vision)
  • 6. GPT-5.2
  • 7. Kimi K2 Thinking
  • 8. Claude Opus 4.5
  • 9. Gemini 3 Pro Preview(Vision)
  • 10. Claude Sonnet 4.5
  • 11. GPT-5.2 Thinking(Vision)
  • 12. Manus
  • 13. GPT-4o
  • 14. DeepSeek R1
  • 15. Llama 4 Maverick
  • 16. DeepSeek V3

人类的平均智商是 100。几十年以来,这个数字一直定义着我们所说的“正常智力”。但在 2025 年,一些奇怪的事情正在发生。没有意识、没有情感、没有生活经验的机器,现在在旨在衡量人类智力的测试中得分高于人类。这是否意味着人工智能模型,尤其是像 Gemini 3 和 GPT-5.2 这样的最新模型,比我们大多数人更聪明?过去一年中,一些大型语言模型在智商风格的基准上进行了测试,包括逻辑谜题、抽象推理测试、模式识别任务和解决问题的挑战。结果不容忽视。一个又一个模型正在匹配,并且在许多情况下超过了普通人的表现。不是在特定任务中,而是在智商测试关心的多个推理维度上。本文着眼于 15+ 个比你“更聪明”的人工智能模型,至少按照智商标准来看。我们将分析“聪明”的真正含义、如何评估这些模型,以及为什么这种转变很重要。—

我们可以给人工智能分配智商吗?

严格来说,我们不能。智商旨在衡量受生物学、经验和意识塑造的人类智力。人工智能不像人类那样思考、感受或理解世界。因此,给它分配一个字面意义上的智商分数在科学上是不正确的。但在实践中,这些比较有一点不同。基本上,研究人员不是在问人工智能是否“有”智商,而是在检查人工智能模型在类智商任务中的表现。想象一个系统始终如一地解决逻辑谜题、模式识别任务和推理问题,而这些问题通常由智商为 120 或 130 的人类解决。如果一个人工智能模型可靠地做到这一点,那么将其性能映射到一个等效的智商区间,是有一定合理性的,对吗?这就是我们将智商与人工智能模型联系起来的方式。它不是心理诊断,而是一种性能基准。智商在这里充当一种共享语言,或一种在受控条件下比较不同系统推理能力的方式。按照这个标准,一些现代 LLM 已经远高于人类平均水平。—

哪些智商测试评估人工智能模型?

这里说的主要是经典智商测试,或者至少是它们的在线版本。这些挑战中的任务衡量的是推理、抽象能力和解决问题的能力,而不是记忆。这些测试要么直接改编自人类智商测试,要么紧密模仿相同的认知技能。例如,最常见的智商测试之一是瑞文推理测验。这是一种视觉模式识别测试,长期以来被认为比较“文化公平”。现在,一些 LLM 能以高智商人类的水平,甚至更高的水平来解决这些难题。还有门萨风格的逻辑测试,包括序列完成、符号推理和演绎逻辑。现代人工智能模型在这些方面表现出始终如一的强大性能。然而,智商测试中语言负荷较重的部分,才是 LLM 真正发光的地方。类似 WAIS 子测验那样的语言推理、类比和算术题,直接踩在它们的优势点上。更进一步,像 BIG-Bench Hard、ARC 风格的推理任务,以及 MMLU、Humanity’s Last Exam 等学术评估,也可以视作智商测试的实际替代品。虽然它们没有被贴上“智商测试”的标签,但衡量的是相同的潜在能力。关键在于——LLM 在这些测试中的表现,越来越经常优于大多数人类。—

智商测试中评分最高的人工智能模型

在这个特定列表中,我们主要关注挪威门萨测试,并根据其得分对 AI 模型进行排名。###

1. GPT-5.2 Pro

  • 挪威门萨智商:147

这是关于“人工智能模型智商”这整个讨论的始作俑者。刚刚亮相不久的 GPT-5.2 Pro 打破了 LLM 迄今为止在智商测试上的最高分记录,其得分为 147。正如 Derya Unutmaz 在他的推文中提到的,这种智力水平“仅在千分之一的人中发现”。GPT-5.2 Pro 一次又一次地证明了其在多步逻辑、抽象推理和专业级问题解决方面优于人类。虽然这不意味着它在所有方面都比人类更聪明,但确实说明了:在智商测试所衡量的智力上限在哪里,已经发生了强烈的转移。—

2. GPT-5.2 Thinking

  • 挪威门萨智商:141

紧随其后的是新推出的 GPT-5.2 的 Thinking 版本。在挪威门萨智商测试中,GPT-5.2 Thinking 得分约为 141,远高于人类平均水平 100,并且轻松超过典型的门萨资格门槛。就人类来说,这个分数对应于在抽象推理和模式识别方面位于人口前 1–2%。这个结果实际上告诉了我们一件很具体的事情:GPT-5.2 Thinking 在识别关系、发现视觉或逻辑模式,以及在多步骤中应用一致规则的任务上表现极佳。这些正是智商测试试图从语言、情感或领域知识中剥离出来、单独衡量的能力。也就是说,若只看受控条件下的结构化推理水平,GPT-5.2 Thinking 正在一个大多数人一生都难以触及的层级上运作。—

3. Gemini 3 Pro Preview

  • 挪威门萨智商:141

与 GPT-5.2 Thinking 并列的是 Gemini 3 Pro Preview,在挪威门萨智商测试中获得完全相同的分数。这使得 Google 的旗舰推理模型稳稳处于“精英区”,远高于人类基线,并超出通常与高智商相关的阈值。在实际表现上,这意味着 Gemini 3 Pro Preview 在抽象推理挑战中表现可靠。这类测试往往要求发现规则、延续模式以及利用逻辑排除。单靠“猜”很快就会失败,只有通过结构化推断才能拿到如此高的分数。因此,这个分数主要反映的是 Gemini 3 Pro Preview 在受控推理环境中的优势。—

4. Grok 4 Expert Mode

  • 挪威门萨智商:137

谈到“智力”,自然很难把埃隆·马斯克背书的产品排除在外。紧随榜首几位之后的是 Grok 4 Expert Mode。虽然比最高层略低,但该模型依然处在卓越人类智力的区间之内,且远远高于 100 的平均线。这个分数突出说明了 Grok 4 Expert Mode 在处理逻辑驱动任务时的清晰度和掌控力。它在模式识别、抽象关系和基于排除的推理方面表现良好,而这些恰好是智商测试的核心组成部分。简而言之,Grok 4 Expert Mode 在测试条件下展现出强大的分析推理能力。虽然它没有位居榜首,但其表现证实:如果只按逻辑和模式驱动的智力来评估,它的运作水平已经远高于人类的平均推理水平。—

5. GPT-5.2 Pro(Vision)

  • 挪威门萨智商:135

紧随纯文本版本之后的是 GPT-5.2 Pro Vision,在挪威门萨测试中得分 135。这依旧稳稳落在“非常高”的人类智力区间里,远高于全球平均水平,也高于与高级推理能力相关的典型门槛。需要注意的是,这个分数来自一个支持视觉能力的模型——它不仅可以处理文本,还能对图像等视觉信息进行处理与推理。这意味着,即便任务需要视觉解释,GPT-5.2 Pro Vision 在抽象推理上仍然表现出色。想象一下:在破译复杂图像和视觉模式之后,AI 仍能在智商测试中拿到 135 分。直到几年前,这还更像是只会出现在科幻电影里的场景。—

6. GPT-5.2

  • 挪威门萨智商:126

在 Pro 和 Thinking 版本之后登场的是 OpenAI 的最新“标准型号” GPT-5.2。但请注意,与人类相比,它在智力方面一点都不“标准”。126 的分数已经高于大约 98% 的人,将它与我们通常认为的“平均人类推理能力”在统计上清晰地区分开来。这个分数反映出 GPT-5.2 在经典智商风格任务上的优势,例如模式识别、逻辑排序和基于规则的问题解决。虽然它不像 Pro 或 Thinking 变体那样冲到极端上限,但在结构化推理挑战中依然极其稳定而强大。实际意义上,GPT-5.2 标志着“AI 推理能力明显踏入精英人类范围”的一个分水岭。它或许不是榜单第一,但即便在这个水平上,它在受控智力测试中的表现也已经优于绝大多数人类。—

7. Kimi K2 Thinking

  • 挪威门萨智商:124

接下来是 Kimi K2 Thinking,这个模型可能不像一些西方同行那么高调,但它在全球 AI 社群中逐渐有了存在感,理由很充分。124 的分数清楚表明它高于人类平均水平,落在通常与“强分析能力”相关的区间内。这一结果凸显了 Kimi K2 Thinking 在结构化推理任务中的实力。更重要的是,它说明高水平的抽象推理不再只局限于少数几个旗舰模型。即便不是“天花板级”的选手,现代 LLM 在标准化测试中也已经能稳定地跑在高于平均人类智力的档位。究竟这是一个趋势,还是已经成为“事实”,有待未来进一步检验。—

8. Claude Opus 4.5

  • 挪威门萨智商:124

与 Kimi K2 Thinking 得分一致的是 Anthropic 的旗舰推理模型 Claude Opus 4.5,其挪威门萨智商为 124。这同样高于人类平均水平,是强大分析与问题解决能力的有力信号。这个分数反映了 Claude Opus 4.5 在抽象推理任务上的能力,这类任务往往要求推理过程具有一致性和逻辑控制。这意味着:即便不在 LLM 的“绝对顶层”,Claude Opus 4.5 依然展示出强大、显著高于人类平均水平的推理能力。—

9. Gemini 3 Pro Preview(Vision)

  • 挪威门萨智商:123

仅比其文本版本低一档的是 Gemini 3 Pro Preview Vision,挪威门萨智商得分为 123。这个分数更加值得注意,因为它来自一个具备视觉能力的模型。这说明 Gemini 3 Pro Preview Vision 在应用逻辑前,必须先对视觉模式和关系进行解释。换句话说,从纯文本输入切换到视觉输入,并没有实质损害它的推理表现。即使在比平常更严格的条件下,它依然能在标准化智力水平上,表现得超过绝大多数人类。—

10. Claude Sonnet 4.5

  • 挪威门萨智商:123

Claude Sonnet 4.5 的挪威门萨智商同样为 123,它是 Anthropic 更侧重“平衡性”的推理模型。虽然它并不是家族中被定位为“极限思考者”的那一个,但在逻辑推理能力上依然显著高于人类基线。这个分数反映了 Claude Sonnet 4.5 在结构化问题解决任务中的稳定表现。—

11. GPT-5.2 Thinking(Vision)

  • 挪威门萨智商:111

需要先说清楚一件事:智商风格的测试对具备视觉能力的系统相当“苛刻”。在模型能够施展推理、给出答案并拿到高分之前,它必须先正确解析形状、模式和空间关系。从本质上讲,这跟人类处理信息的方式类似——我们先看见,再解释,然后才开始推理。但对 AI 而言,“看懂”本身就是另一项独立的难题。因此,无论如何都不要简单地把 GPT-5.2 Thinking Vision 的 111 分视作“平庸”。这实际上意味着,该模型正在做一件更难的事情:一边看,一边想。只要在视觉解释上出现一个错误,后续推理与答案就可能被整体带偏。于是,GPT-5.2 Thinking Vision 很难在分数上冲击“精英抽象推理”的天花板。但它展示的是更重要的东西:在混乱的多模态环境中运用智能。随着 AI 越来越多地走进现实世界,这种能力可能会成为(如果还没成为的话)最值得追求的特质之一。—

12. Manus

  • 挪威门萨智商:111

Manus 的智商得分为 111,这个模型很好地说明了:智力并不总是意味着“极端值”。这个分数已经让 Manus 站在了人类平均线之上,但更重要的是,它代表了可靠的推理与一致的表现。换句话说,它也许不能以破纪录的速度解决最难的谜题,但它可以避免那些经常困扰较弱模型的“崩溃式错误”。如果用“可用智能”来衡量,它的表现是很有代表性的。—

13. GPT-4o

  • 挪威门萨智商:109

GPT-4o 在挪威门萨测试中的智商为 109,略高于人类平均水平。与榜单中得分更高的模型相比,这似乎算不上惊艳,但这依然与不久之前我们对“有能力的 AI”的预期形成了鲜明对比。这个分数表明 GPT-4o 可以在不“崩溃”的情况下处理基本抽象推理和模式识别。它可能不擅长特别复杂的多步难题,但在更简单的逻辑任务中表现可靠。而这恰恰对应了包括我在内的大部分人,在日常生活中所需解决问题的那类难度。某种意义上,这代表了一种“可获得的智能”。它不是为在智商排行榜上称王而生,却很好地说明了:AI 模型如何在日常任务中略超平均人类推理水平,从而成为真正有用的助手。—

14. DeepSeek R1

  • 挪威门萨智商:109

与 GPT-4o 相匹配的是 DeepSeek R1,其挪威门萨智商同样为 109。与 GPT-4o 一样,它提供的是全球范围内“可被大多数人访问”的竞争性推理能力,而且没有像早期弱模型那样在能力上出现剧烈断崖。简而言之,你可以把 DeepSeek R1 看作“可靠的基线智能”。它说明即便不是为极限推理性能量身打造的模型,依旧可以在标准化智商风格测试中达到并略微超越平均人类的推理水平。—

15. Llama 4 Maverick

  • 挪威门萨智商:107

Llama 4 Maverick 的挪威门萨智商为 107,略高于人类平均基线。至少,这样的分数表明它所展现的智力,已经明显超出“随便蒙”或者“肤浅模式匹配”的范畴。你可以把 Llama 4 Maverick 视为现代 LLM 的“入门级推理能力”。它说明,即便不是为了高级问题解决而专门设计的模型,也完全可以被用于执行一些超出普通人能力范围的任务。—

16. DeepSeek V3

  • 挪威门萨智商:103

位列榜单末尾的是 DeepSeek V3,其挪威门萨智商得分为 103。这让它仅略高于人类平均智商,也意味着 DeepSeek V3 可以在不出现重大错误的情况下,完成基本的模式识别和简单逻辑关系判断。从某种意义上说,这是当下现代 LLM 在“智能基准”上能达到的下限。即便在这个档位,结论依然相当清晰:AI 系统已经跨过了“达到平均人类推理水平”这道门槛——平均人已不再是需要奋力跳过的高度,而更像是一个默认起点。—

这个列表意味着什么?

不要把这份列表简单理解为“谁是最聪明 AI 模型”的排行榜。虽然从某种角度看它确实扮演了这种角色,但这些分数绝不是智能的绝对刻度。它真正的价值在于趋势——它强有力地表明:结构化推理不再是人类的专属能力。跨越不同模型、架构和机构,AI 系统现在已经在智商测试上匹配,甚至频繁地超过人类,而这些测试曾被认为对即便是“训练有素的人”也非常困难。当然,这些分数的语境始终是有限的。它们并不代表创造力、意识或类似人类的理解。这些模型没有意图,没有情感,也没有自我意识。它们并不像人类那样“思考”。它们通过这些分数证明的,只是一种更窄却很深刻的能力:在解答抽象的、逻辑驱动的问题上,AI 现在可以做到与人类一样好,甚至更好。—

结论

本文并不是为了评论“人工智能 vs 人类”的智力之战,而是为了证明一个事实——人类水平的推理不再是上限。这份列表展示了大型语言模型如何迅速跨越曾经定义“卓越智能”的门槛,至少在各类测试所衡量的维度上是如此。与此同时,这些分数也提醒我们“智能不是什么”。它们并不等于创造力,并不等于意识,也不等于真正的理解。它们所展示的是:结构化推理已经变得廉价、快速且可扩展。因此,真正的差异化又回到了人类身上——我们可以把注意力更多放在“要解决什么问题”,而不是“如何把问题解出来”。

Sources:
https://www.analyticsvidhya.com/blog/2025/12/ai-models-that-are-smarter-than-you/

微海報