2月26日,北京大学第三医院的心内科诊室里,两种治疗方案在诊台上对峙:左侧是心内科大夫汪京嘉开出的一份用于治疗高血脂的医嘱,右侧是人工智能软件生成的处方。
“汪大夫,您给开的口服药太温和,AI建议注射瑞百安,说是降脂快。”就诊的老人说。汪京嘉告诉患者,注射剂可能加重肝脏代谢负担。
在汪京嘉看来,他汀类口服药物已有超过30年的临床应用历史,副作用发生率低,可避免过度医疗。这场“争论”最终以老人的沉默落下帷幕。
不止在医疗界,类似的认知拉锯正在全球上演。2025年初,AI的兴起改变了人们的日常生活。作家借助算法优化诗句结构,养生爱好者用AI定制健康食谱,失眠者深夜与AI对话疏解焦虑,股民们解读着AI生成的各类理财建议。
在公众对生成式大模型日益依赖的进程中,偏差开始浮现。看似无所不能的智能助手,常会像模像样地“编故事”。
AI依赖症
2023年6月开始,证券分析师小宋使用AI软件chatGPT作为工作助手。“瞬析上百份财报、一分钟生成深度报告,人肯定做不到。”公司内部的一场电话会中,轮到小宋做会议纪要,chatGPT的实时语音转录功能不仅将领导含糊的浙江普通话精准转换成了文字,会后小宋核对录音,连专业财务词汇和数据信息都分毫不差。
小宋沉浸在AI带来的时间红利中。类似的感受王贺也有,他是一家网络安全公司的产品研发工程师,2024年,王贺所在的团队正式将AI应用到工作中,AI能模拟黑客攻击行为,快速发现系统中的漏洞和弱点,并提出有效的修复建议,相比传统运维效率提升了20%。
3月3日晚,财经记者崔其对DeepSeek输入第6次修改指令:“筛选近一年融资超1000万的科技企业,关联创始人减持记录和诉讼数据。”这是他使用人工智能程序寻找选题的第32天。“AI可通过数据分析得出近期最受关注的话题是什么,再将热点信息与所在行业结合,一些还不错的选题就出来了。”启动AI程序,变成他每天上班第一件要做的事。
AI幻觉“陷阱”
这个月,小宋第四次捕捉到AI的错误。撰写行业报告前,chatGPT为他生成了一份《存储芯片行业Q 1预测》。然而检索后小宋意识到,这些数据和信息并不真实。“AI给出的资料里甚至还附上了开发区管委会的红头文件编号,但仔细一查,根本就没有这个东西。”
所谓AI幻觉,通常是指大语言模型生成的内容无意义、不符合事实、逻辑自相矛盾,甚至完全不准确的输出。2024年8月,一家人工智能公司发布了一份报告,结果显示,市面上常见的大模型都会产生幻觉。
中国信通院人工智能研究所副所长巫彤宁介绍,AI本质上是根据前文预测最可能出现的词语,它更像是一个沉浸在语料库海洋中学习说话的学习者,它不是在查找答案,而是在预测下一个要说的最合理的词应该是什么。
大模型训练时吸收的海量网络数据如同未经筛选的图书馆,既藏有真知灼见,也充斥着谣言与广告。由于AI无法像人类那样理解事实的逻辑,因此当遇到需要深度推理的问题时,这种基于概率的创作机制就容易催生看似合理实则错漏百出的“专业谎言”。
如,“AI幻觉”导致的偏差,正成为自动驾驶研发的棘手难题。某车企自动驾驶研发部的刘璐所在的研究团队每周要分析超过2000公里的路测数据。某个冬日郊外测试中,激光雷达曾将雪地里跳跃的太阳光影群误判为滚石,引发急刹。“误触发案例很多是因为大模型感知问题。”人类司机可以轻松识别的道路信息,却是AI系统无法准确理解的“视觉陷阱”。
在社交媒体上,越来越多的网友开始分享自己被AI“欺骗”的经历。
2月18日,材料专业的大四学生静文通过AI整理“量子点材料”研究进展,系统洋洋洒洒列出27篇参考文献。可当她逐条核实时,发现其中只有3篇真实存在,而这3篇里压根没有关于“量子点材料突破”的学术信息。从那之后,她不再盲目地相信AI给出的任何回答。
人机博弈
汪京嘉把人工智能比作“双面镜”。他说,越来越多的年轻医生们开始依赖AI撰写病历小结、写课题论文,那些看似专业的医学名词堆砌下,偶尔也会冒出“左心室瓣膜钙化导致糖尿病”之类的荒唐逻辑。
在使用过程中,医生们必须仔细甄别AI系统背后的逻辑漏洞,“病理切片的光学分辨率、检查报告的措辞偏差,甚至一句模糊的主诉描述,都可能导致AI误判。”汪京嘉觉得,任何AI工具都不是无所不能的智者,而是需要被交叉验证的协作者。
人机博弈有时也发生在王贺身上。有天下午,他盯着屏幕上的警报记录哭笑不得。公司新上线的AI安全系统刚刚把行政部同事批量发送的会议通知误判成了“可疑邮件轰炸”。王贺给AI系统设置了一个准则,只允许它“学习”国家网络安全机构认证的病毒样本库,而来路不明的网络攻击案例,必须先经过人工审核才能放入清单。
他觉得,AI的使用者不能被大模型所主导,而应该主导大模型。在与大模型交流时,优化提问方式,在一定程度上能减少幻觉出现,比如要求在指定范围回答,并提供信息来源链接。
记者发现,近期,DeepSeek和OpenAI等平台也在用户协议和平台规则中提示了输出出现错误甚至幻觉的风险,并突出提示了在法律、医疗以及金融等垂直领域的直接应用风险。
巫彤宁经常呼吁让大模型分场景工作,针对法律、医疗等低容错率领域,强制激活“严谨模式”,要求模型检索最新权威资料并标注来源;而面对创意需求时则开放联想空间,允许“开脑洞”,为用户带来更多灵感。“我们要做的,是找到人工智能和人类中间的平衡。”
(摘自3月17日《新京报》 咸运祯文)