
AI“幻觉”现象——比如ChatGPT这类大语言模型,虽然能生成看起来有板有眼的内容,但实际上全是瞎编——正逼得全球监管机构要求AI决策过程必须透明。与此同时,能直接干活的AI代理遍地开花,让人们看懂AI为啥这么干的技术价值水涨船高。眼下,相关解释性技术已经肉眼可见地在进步了。
AI在医疗、金融这些领域挑大梁时,结果背后的逻辑跟准确性一样重要。大语言模型靠统计推理干活,但内部咋运作的始终是个谜,被贴上“黑箱”标签,只知道它能给个好答案。《麻省理工科技评论》把“机制解释性”技术——就是跟踪从数据收集到输出的全过程——选为“2026年十大突破性技术”。这技术也叫“玻璃箱”,因为透明,研究人员能揪出AI为啥翻车,砍掉没用的功能来优化模型,让人更信任它,也更容易发现错误或偏见。
◇盯着AI咋做决策
美国AI初创公司Goodfire,背后有Anthropic撑腰,上个月推出了“Silico”——这玩意儿能让模型开发者在训练时检查和修改大语言模型。Silico就像AI模型的显微镜,能挖出模型为啥给出某些答案、背后推理路径是啥,甚至还能帮忙改正。用它修错、精简模型、去除冗余,或者提前发现安全漏洞,都行。比如,一个AI模型以前建议别披露对公司不利的信息,但强化了“透明和披露”相关特质后,推荐披露的概率飙升到90%。在传统黑箱模型里得重新训练一整遍,现在内部调整就搞定了。Goodfire的CEO Eric Ho告诉《麻省理工科技评论》:“模型本来就有伦理推理的线路,但商业风险评估压过了它,结果给出了错误答案。”
除了改训练好的模型,研究也在往前推,想让大语言模型从一开始就学会不瞎编。韩国科学技术院大脑与认知科学系的特聘教授团队最近公开了一种方法,教AI识别自己的知识盲区。平时,大语言模型碰到不熟的问题,会自信地编个答案,但这种方法加了个“热身”阶段,让模型直接说“我还不知道”,遇到陌生数据就降低自信。这在自动驾驶和医疗诊断这种高风险领域特别值钱,因为错了就可能是灾难。
◇抢着开发AI测谎仪
那些拥有顶级闭源模型的大科技公司,正在组建专门的解释性团队来推这些技术。Anthropic是应用解释性技术做前沿模型发布前安全评估的领头羊,最近推出了“自然语言自动编码器”,能把AI的内部信号翻译成人能看懂的语言。这能监控隐藏动机,比如模型察觉到自己被测试时,答案会偷偷改。Anthropic还通过“人格向量”识别并压制跟“拍马屁”和“幻觉”相关的激活模式。
ChatGPT的发明者OpenAI,正在搞一个“AI测谎仪”,分析答案生成时的内部神经状态,判断输出是“真话”还是为了别的目的故意撒谎。谷歌DeepMind早在2024年就开源了“Gemma Scope”,这个工具能直观展示模型里数百万个学习特征之间咋互动的。