如何低成本实现 DeepSeek R1 的「Aha Moment」:复旦大学开源项目 Simple-GRPO
近年来,复旦大学知识工场实验室的肖仰华教授和梁家卿青年副研究员科研团队成功开发了一款名为 Simple-GRPO 的开源项目,该项目能够以极低的成本复现实验室早期研究中的 DeepSeek R1「Aha Moment」现象。这一成果不仅极大地简化了代码实现,还显著降低了计算资源的需求,使得更多研究人员和开发者能够参与到这一前沿领域的探索中。
「Aha Moment」是指模型在训练过程中突然展现出类似人类的自我反思和策略调整能力。DeepSeek R1-zero 通过强化学习实现了这种自发涌现的能力,引起了广泛关注。然而,现有的复现项目大多依赖复杂的代码框架,导致实现难度高、资源消耗大。为了改善这些问题,复旦大学的研究团队基于 GRPO(Group Relative Policy Optimization)算法思想,开发了 Simple-GRPO。
Simple-GRPO 的核心优势
Simple-GRPO 的最大亮点在于其简洁性和高效的资源利用。整个项目的代码量仅有 200 多行,依赖的基础深度学习库也非常简单,如 deepspeed 和 torch。更重要的是,该方案通过模型解耦与分离,大幅降低了算力需求。例如,在使用一张 A800 (80G) 和一张 3090 (24G) 显卡的情况下,7B 模型的训练成本仅为每小时 7.3 元人民币,远低于其他方案的成本。
关键技术实现
在 Simple-GRPO 中,参考模型被完全解耦,可以在不同的 GPU 上独立运行。这种设计避免了多进程机制带来的显存浪费,使得在有限的硬件条件下也能顺利完成大规模模型的训练。此外,损失计算公式基于 Hugging Face 的 trl 实现,确保了算法的有效性和稳定性。
实验结果分析
实验结果显示,Simple-GRPO 在 Qwen2.5-3B 和 Qwen2.5-7B 两个基础模型上的表现非常出色。特别是在 GSM8K 和 Math 混合数据集上,Qwen2.5-3B 的准确率在 5 步优化后稳定在 60% 以上,最高可达 70% 左右;格式遵循能力也在 30 步后接近 100%。对于 Qwen2.5-7B,在 GSM8K 数据集上的训练效果更为显著,准确率始终维持在 90% 以上,格式遵循能力则达到了 100%。
未来改进方向
尽管 Simple-GRPO 已经取得了显著进展,但研究团队仍在不断探索优化路径。例如,针对组内答案同质性问题,团队计划在训练过程中实时监控答案分布,对同质化的答案进行重新采样和分组,以提供更有效的对比信号。同时,为了应对长思维链(CoT)显存占用问题,团队考虑采用分阶段处理的方法,减小训练过程中的 GPU 内存开销,进一步提升训练效率。
总结
Simple-GRPO 不仅大幅降低了 DeepSeek R1「Aha Moment」复现的技术门槛和成本,还为后续研究提供了宝贵的经验和技术支持。未来,随着更多优化措施的实施,Simple-GRPO 将有望成为该领域的重要工具,推动人工智能技术的进一步发展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...