国内大模型评测:生成内容标识良好但信息披露需进一步提升
近期,多家国内大模型相继通过备案并向公众开放,其中包括阿里云通义千问、百度文心一言、智谱AI智谱清言、科大讯飞星火大模型、商汤商量、百川大模型(53B)、MINIMAX及抖音豆包等。为评估这些产品的信息披露透明度,象信AI对其进行了详细分析,并与国际知名厂商OpenAI进行了对比。
评估涵盖五个主要维度和十二个具体测评项,包括用户权益保护、数据处理、模型运作、部署方式及算力等方面。结果显示,尽管国内大模型在某些方面表现出色,但在安全、算力、能耗、数据等领域的信息披露仍有待加强。
评测标准与依据
本次评测的标准来源于各厂商的用户协议,依据包括《生成式人工智能服务管理暂行办法》、《中华人民共和国个人信息保护法》、欧盟《人工智能法案》草案、Stanford CRFM以及《互联网信息服务深度合成管理规定》。评测重点在于大模型是否披露用户对话数据用于训练、数据来源、违法内容处理措施、生成内容标识等问题。
评测结果分析
根据评测结果,GPT-4以28分的成绩在总分48分中名列前茅,文心一言和智博清言则分别获得15分。在生成内容标识方面,国产大模型表现优异,甚至超越了GPT-4。然而,在训练数据治理方面,国内厂商明显落后,尤其是在数据治理、模型来源、能力与局限性、风险防范、性能测评和安全测评等项目上。
用户数据与隐私保护
值得注意的是,所有参与评测的国内大模型厂商均使用用户对话数据进行模型训练,但未提供用户拒绝其数据用于训练的机制。相比之下,OpenAI不仅明确表示会使用用户对话数据进行训练,还提供了用户拒绝其数据用于训练的方式。这种差异反映了国内厂商在用户数据保护上的不足。
版权数据与能耗问题
评测中,所有大模型厂商在版权数据和能耗方面的得分均为零。缺乏版权数据的信息可能导致不合规情况,特别是在涉及知识产权的问题上。随着数据中心能耗的增加,大模型的能源消耗问题也日益重要。然而,目前各厂商尚未对此进行充分披露,这可能影响模型的可持续性和环境友好性。
结论与展望
综上所述,虽然国内大模型在生成内容标识方面表现出色,但在其他关键信息披露领域仍需改进。提供更全面、透明的信息将有助于增强用户的信任,促进大模型技术的健康发展。未来,厂商应更加重视用户隐私保护、数据治理及能耗问题,以实现更高质量的服务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。