Grok-3 免费开放：性能争议与实际应用测评

11.1K 0

近期，Grok-3正式宣布免费开放，引起了广泛关注。作为一款由20万块GPU训练而成的强大AI模型，Grok-3推出了DeepSearch和Think两种模式，旨在提升用户的体验。然而，其发布也引发了业内激烈的争论。OpenAI的研究员指责Grok-3在评测中存在作弊行为，而xAI则坚决否认这一指控。尽管如此，Grok-3的实际表现仍然令人瞩目。

争议中的性能表现

Grok-3在发布初期因回答“9.11和9.9哪个大”这一简单问题而受到质疑。最初，Grok-3未能正确回答该问题，但在开启Think模式后，仅需4秒即可得出正确答案。此外，若将问题表述为“9.11和9.9谁大”，Grok-3在普通模式下也能迅速作答。然而，Think模式下，Grok-3却花费了34秒来处理同一个问题，这引发了进一步的讨论。

开发者的真实反馈

许多开发者对Grok-3进行了实测，总结了其几大优点：代码处理能力出色、上下文窗口极长、能够充分利用上下文信息、善于遵循指令，并且拥有友好易用的性格。例如，有人利用Grok-3在一小时内制作了一个带有声音效果的视频游戏，主题涉及马斯克使用激光、火箭和婴儿摧毁美国政府的情节。另一些人则在短短5分钟内开发了一款对抗小行星的游戏。

图像生成能力

Grok-3在图像生成方面表现出色，能够生成照片级真实的图像。Min Choi分享了多个案例，展示了Grok-3在各种场景下的精细表现，如海滩自拍、SpaceX火箭图像、月球探测车在纽约地铁的自拍以及微型小熊猫的微距镜头等。尽管如此，Grok-3在生成特定姿势（如倒立）的人物时仍存在问题，显示了其不足之处。