近年来,AI生成的虚假信息问题日益引起广泛关注。2025年2月,中国人民大学教授李婷公开辟谣了一则关于“80后累计死亡率5.20%”的消息,这一虚假数据在社交媒体上引发了广泛讨论。李婷教授指出,专业统计数据通常使用千分率表示死亡率,而不是百分率,并且国家统计局并未公布按年龄分段的死亡人数,因此这一说法毫无根据。李婷认为,这种错误数据可能源于AI大模型的错误输出。
AI生成错误信息的现象被称为“幻觉”,即AI在遇到不熟悉的问题时,会编造难以辨别的细节,生成与事实不符的答案。这种现象不仅限于统计数据,还出现在历史、文学等多个领域。例如,科普作家河森堡发现,ChatGPT在介绍西周文物“青铜利簋”时,错误地将其归为商王帝乙祭祀父亲帝丁所铸,并且错误标注了文献来源。
AI幻觉的危害
AI幻觉不仅误导公众,还可能对特定群体造成更大的风险。清华大学长聘副教授陈天昊指出,对于缺乏辨别能力的学生来说,AI幻觉可能导致错误的学习内容。例如,小学生在使用AI工具学习时,可能会被误导,难以判断信息的真伪。此外,AI在法律领域的幻觉问题尤为严重。法学硕士生小昭在使用DeepSeek撰写论文时,发现AI生成的法律案例和条例多为虚构,甚至编造了不存在的法官评议冲突。
DeepSeek的高幻觉率
在2025年1月发布的Vectara大模型幻觉测试排行榜中,DeepSeek R1的幻觉率高达14.3%,远高于其他国际领先的大模型,如OpenAI的GPT-4和马斯克的Grok。DeepSeek之所以幻觉率较高,一方面是因为其生成的内容较长,增加了出错的概率;另一方面,DeepSeek在生成答案时表现出较强的创造性,而这与强调信息精确的要求相悖。AI大模型的“温度系数”也影响了幻觉的发生,高温度系数的模型更容易出错,而低温度系数的模型虽然更稳定,但缺乏多样性。
AI幻觉的成因及对策
AI幻觉的成因复杂多样,包括数据源问题、编码器设计缺陷、解码器错误等。由于AI大模型使用了大量的互联网数据进行训练,数据集中可能存在错误、过时或缺失的信息,导致幻觉的出现。此外,不同数据集之间的矛盾也可能促使模型生成不准确的内容。尽管幻觉被认为是AI智能的一种体现,但其带来的信息污染不容忽视。
为了应对AI幻觉问题,科技公司提出了多种解决方案,如检索增强生成技术(RAG)。RAG通过让AI在回复问题前参考可信文本,确保内容的真实性,从而减少幻觉的发生。然而,RAG的实施会显著增加计算成本和内存消耗,且专家知识库和数据集也难以覆盖所有领域的问题。因此,目前尚无根治AI幻觉的有效方法。
未来展望
尽管AI幻觉问题难以彻底解决,但仍有一些措施可以帮助用户更好地识别和应对虚假信息。例如,OpenAI的华人科学家翁荔建议,确保模型输出的内容可以通过外部世界知识进行验证,当模型不了解某个事实时,应明确表示“不知道”。谷歌的Gemini模型也尝试通过“双重核查响应”功能,帮助用户区分已验证和不确定的内容。
面对AI幻觉,我们需要保持警惕,不要盲目相信AI生成的所有信息。只有这样,才能在享受AI带来便利的同时,避免被误导。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...