Grok 3评测：最新大模型性能解析与对比

13.1K 0

2025年2月23日，北方的郎马斯克的xAI发布了Grok 3大模型，以其卓越的性能迅速登顶榜单，成为首个在lmarena上得分超过1400分的大模型。一些专家如Andrej Karpathy（前OpenAI联合创始人）也对其进行了评测。以下是评测的主要内容：

Grok 3的思考能力

Grok 3展示了接近最先进的思考模型，尤其在处理复杂任务时表现出色。例如，当被要求创建一个类似《卡坦岛》的六边形网格棋盘游戏网页时，Grok 3不仅成功实现了这一目标，还能通过滑块调整六边形网格的数量。这种灵活性和准确性是其他模型难以匹敌的。然而，Grok 3在某些特定任务上仍有改进空间，比如未能解决“表情符号谜题”问题，尽管提供了强烈的编程提示。

游戏逻辑处理

Grok 3在处理简单的井字棋棋盘时表现出色，但在面对更复杂的挑战时则遇到了困难。虽然它能解决基本的井字棋问题，但在生成三个“棘手”的井字棋棋盘时失败了，生成了无意义的内容。此外，Grok 3在处理GPT-2论文相关问题时表现良好，但在估算训练所需浮点运算次数时未能完成任务。相比之下，Grok 3的思考功能在这方面表现得更好。

数学与推理能力

Grok 3在数学推理方面展示了强大的能力，特别是在处理需要估算和计算的任务时。例如，在估算GPT-2训练所需的浮点运算次数时，Grok 3通过思考功能给出了合理的解答，而其他模型如o1-pro则未能完成。此外，Grok 3在处理复杂的伦理问题时表现得较为谨慎，拒绝直接回答某些敏感问题，显示了其在伦理判断上的进步。

深度搜索功能

Grok 3的深度搜索功能结合了“深度研究”和“思考”两种特性，能够在互联网上查找并生成高质量的回答。然而，该功能有时会生成不存在的URL或提供不准确的信息。例如，它错误地声称金正洙仍在与《单身即地狱》第四季的金敏雪约会，这显然是不正确的。此外，当被要求生成关于主要LLM实验室的报告时，Grok 3未能包括自家实验室xAI。

随机查询与幽默感

Grok 3在处理随机查询时表现出了一定的进步，例如正确识别了“strawberry”中有3个“r”，但在处理“LOLLAPALOOZA”中的字母数量时出现了错误。思考功能的启用帮助解决了这些问题。然而，Grok 3的幽默感仍显不足，生成的笑话多为常见的双关语，缺乏创新。例如，它生成了一个关于鸡加入乐队的笑话，显得平淡无奇。

总结与展望

总体而言，Grok 3的表现接近甚至超越了当前最先进的LLM模型，尤其是在思考功能的辅助下。Andrej Karpathy认为，Grok 3的能力与OpenAI的顶级模型o1-pro相当，略优于DeepSeek-R1和Gemini 2.0 Flash Thinking。考虑到xAI团队仅用一年时间就取得了如此成就，这无疑是一个巨大的成功。未来，随着更多评估的进行，Grok 3有望继续提升其性能，为用户提供更加智能和可靠的服务。