2025年2月23日,北方的郎马斯克的xAI发布了Grok 3大模型,以其卓越的性能迅速登顶榜单,成为首个在lmarena上得分超过1400分的大模型。一些专家如Andrej Karpathy(前OpenAI联合创始人)也对其进行了评测。以下是评测的主要内容:
Grok 3的思考能力
Grok 3展示了接近最先进的思考模型,尤其在处理复杂任务时表现出色。例如,当被要求创建一个类似《卡坦岛》的六边形网格棋盘游戏网页时,Grok 3不仅成功实现了这一目标,还能通过滑块调整六边形网格的数量。这种灵活性和准确性是其他模型难以匹敌的。然而,Grok 3在某些特定任务上仍有改进空间,比如未能解决“表情符号谜题”问题,尽管提供了强烈的编程提示。
游戏逻辑处理
Grok 3在处理简单的井字棋棋盘时表现出色,但在面对更复杂的挑战时则遇到了困难。虽然它能解决基本的井字棋问题,但在生成三个“棘手”的井字棋棋盘时失败了,生成了无意义的内容。此外,Grok 3在处理GPT-2论文相关问题时表现良好,但在估算训练所需浮点运算次数时未能完成任务。相比之下,Grok 3的思考功能在这方面表现得更好。
数学与推理能力
Grok 3在数学推理方面展示了强大的能力,特别是在处理需要估算和计算的任务时。例如,在估算GPT-2训练所需的浮点运算次数时,Grok 3通过思考功能给出了合理的解答,而其他模型如o1-pro则未能完成。此外,Grok 3在处理复杂的伦理问题时表现得较为谨慎,拒绝直接回答某些敏感问题,显示了其在伦理判断上的进步。
深度搜索功能
Grok 3的深度搜索功能结合了“深度研究”和“思考”两种特性,能够在互联网上查找并生成高质量的回答。然而,该功能有时会生成不存在的URL或提供不准确的信息。例如,它错误地声称金正洙仍在与《单身即地狱》第四季的金敏雪约会,这显然是不正确的。此外,当被要求生成关于主要LLM实验室的报告时,Grok 3未能包括自家实验室xAI。
随机查询与幽默感
Grok 3在处理随机查询时表现出了一定的进步,例如正确识别了“strawberry”中有3个“r”,但在处理“LOLLAPALOOZA”中的字母数量时出现了错误。思考功能的启用帮助解决了这些问题。然而,Grok 3的幽默感仍显不足,生成的笑话多为常见的双关语,缺乏创新。例如,它生成了一个关于鸡加入乐队的笑话,显得平淡无奇。
总结与展望
总体而言,Grok 3的表现接近甚至超越了当前最先进的LLM模型,尤其是在思考功能的辅助下。Andrej Karpathy认为,Grok 3的能力与OpenAI的顶级模型o1-pro相当,略优于DeepSeek-R1和Gemini 2.0 Flash Thinking。考虑到xAI团队仅用一年时间就取得了如此成就,这无疑是一个巨大的成功。未来,随着更多评估的进行,Grok 3有望继续提升其性能,为用户提供更加智能和可靠的服务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...