下载客户端

AI的“特不靠谱”，偷偷给你惹麻烦？

2026-06-01 21:39

来源：澎湃新闻·澎湃号·湃客

听全文

随着AI应用逐渐成为新一代的搜索引擎，很多人大事小事都开始依赖起AI对话框。但问题很快就来了：有用户相信AI给出“机票退改签仅需5%手续费”的结论，结果不仅没省下钱，反而被扣了近600元。还有人在AI对话框里买保险，扫码支付1600余元保费，结果发现收款码属于陌生网友；有企业用AI写报告，虚构出根本不存在的法律判例，面临巨额违约索赔。

当气愤的消费者拿着AI一本正经的“胡说八道”去维权时，却是举步维艰。因为严格来说，AI 幻觉并不是某一家厂商没做好的Bug，而是大模型工作方式本身决定的结果：它的本质是概率预测，不是事实核查；训练语料本就掺杂大量噪声，用户提问又往往模糊不清，再加上模型几乎不具备稳定的实时信息能力——几条结构性短板叠在一起，让“一本正经地胡说”几乎成为不可避免的副产品。

面对这些“AI鬼话”，模型的“纠错自查”变得越来越重要，各大厂商都在不同环节做出工程性补救。

像元宝的多模型交叉验证，在遇到拿不准的问题时选择靠“群聊”来解决。通过灵活切换“混元+DeepSeek”双模型，相当于让两个顶尖模型背靠背交叉验证。一旦两者的答案出现逻辑冲突，系统会立刻触发风险提示，将事实核查的主动权交给用户。

还有DeepSeek的纯强化学习对齐，通过纯强化学习让模型在训练中自主学会“诚实”。模型为了在推理测试中拿高分，会自发形成严谨的逻辑链条，这种“自我反思”机制使其能以极低的算力成本实现极高的抗幻觉能力。

还有离电商最近的通义千问，在RAG（检索增强生成）架构上做了深度定制：检索时采用“关键词+向量”的混合检索，确保上下文的精准；生成时则将Temperature调至0.1以下，并强制模型严格依据官方商品库进行交叉校验。通过严苛约束将电商场景的幻觉率压低至5%以下。

说到底，AI目前的本质依然是“概率预测。作为用户，把AI当成查阅资料的“超级百度”没问题，但涉及重要决策或者关乎钱袋子时，务必别偷懒，去官网或多方渠道“求个真”。毕竟，为AI买单的，还是我们自己。

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报

#AI应用