网易首页 > 网易号 > 正文 申请入驻

苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?

0
分享至

机器之心报道

编辑:Panda

在这场以大型语言模型(LLM)为核心的 AI 浪潮中,苹果似乎一直保持着低调,很少出现在技术报道的前沿。尽管如此,时不时地,该公司也能拿出一些非常亮眼的研究成果,比如能在 iPhone 上直接运行的高效视觉语言模型FastVLM。

近日,苹果与牛津大学和香港城市大学合作的一项新研究吸引了不少关注。其中提出了一种名为BED-LLM的新方法,能让 AI 解决问题的能力直接提升 6.5 倍(成功率从 14% 暴增至 91%),而整个过程无需微调或重新训练,直接在当前模型上运行即可。

而实现这一突破的关键,便是让 AI 学会问出完美的问题。

那么,究竟该如何做到这一点呢?

  • 论文标题:BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design
  • 论文地址:https://arxiv.org/abs/2508.21184

这要从 LLM 的一个不足之处说起,即难以智能且自适应的方式主动从用户或外部环境中获取信息。这就像是 LLM 的「多轮遗忘症」。

具体而言,虽然现代 LLM 通常能够一次性生成连贯且富有洞察力的问题(或其他外部查询),但它们通常难以根据先前在交互式任务中收集到的答案进行适当的调整。比如,已有研究证明,LLM 在多步猜谜游戏、任务澄清、IT 任务自动化以及迭代式外部工具使用等问题上表现不佳。

因此,提高 LLM 自适应地提出问题和有针对性地收集信息的能力是很有必要的。

简单来说,LLM 仅仅基于其庞大的知识库一次性生成好问题是不够的。真正的智能体需要能根据用户的实时反馈,动态调整策略,精准地提出下一个最有价值的问题 。

BED-LLM:让提问成为一门科学

牛津、苹果和香港城市大学的这个联合团队提出,可以使用序贯贝叶斯实验设计(Bayesian experimental desig/BED)框架来解决这一问题。

该框架提供了一种基于模型的信息论机制,可用于在给定实验的生成模型的情况下做出自适应设计决策。

具体而言,该团队展示了如何将使用 LLM 进行交互式信息收集的问题表述为一个序贯实验设计问题,其中有一个迭代过程:

  • 每次选择要问的问题(query),都要尽量最大化预期信息增益(Expected Information Gain, EIG)。
  • 根据用户的回答更新信念(belief)。
  • 再基于新的信念选择下一步要问的问题。

这就像科学实验:一步步设计实验、收集数据、更新假设,而不是一次性问到底。

这里,构成序贯 BED 程序的底层生成模型源自 LLM,该团队特别展示了该模型的构建方式,并为关键设计决策提供了广泛的见解。

该团队将这种方法命名为BED-LLM,即Bayesian Experimental Design with Large Language Models。

这种名为 BED-LLM 的方法之所以高效,源于其背后三重智慧的巧妙设计:

智慧一:追求真正的信息增益,而非表面上的不确定性

过去的方法常常让 AI 选择自己「感觉最不确定」的问题,但这并非最优解。BED-LLM 的核心是精确计算 EIG,确保问题能带来最大价值。

论文中一个生动的例子可以说明这一点 :假设 AI 想了解你的电影偏好,它有两个问题可选:

  • 问题 A:「你最喜欢什么口味的冰淇淋?」
  • 问题 B:「你最喜欢哪种电影类型?」

对于问题 A,AI 可能完全猜不到答案(即预测熵很高),但这个答案对于了解你的电影品味毫无帮助(EIG 为 0) 。而问题 B 的答案虽然也不确定,但无论你回答「科幻」还是「喜剧」,都能极大地帮助 AI 缩小猜测范围,因此它的 EIG 非常高 。BED-LLM 正是基于这种原则来选择问题的。

智慧二:强制逻辑自洽,纠正 LLM 的遗忘症

研究发现,即便是 GPT-4o 这样顶尖的模型,在多轮对话中也常常会忘记之前的约束,提出与历史回答相矛盾的假设 。

BED-LLM 引入了先采样后过滤(sample-then-filter)策略来解决这个问题。

它首先让 LLM 生成一批可能的答案(例如,在猜名人游戏中生成多个候选人),然后用一个「逻辑过滤器」逐一检查这些答案是否与用户之前的所有回答都兼容,将不符合逻辑的选项直接剔除。这确保了 AI 的每一步推理都建立在已知的事实之上。

智慧三:生成问题有的放矢,而非天马行空

在生成候选问题时,BED-LLM 采用了一种更具针对性的条件生成(Conditional generation)策略 。它会先参考当前已经过筛选、逻辑自洽的假设池,然后让 LLM 提出能够最高效「切分」这些假设的问题 。这使得提问从一开始就目标明确,直指核心。

结果如何?

为了验证 BED-LLM 的效果,研究团队将其与两种主流基准进行了对比:

  • Naive QA:完全依赖 LLM 的「直觉」来提问。
  • Entropy:采用简化的 EIG 版本,即只考虑预测不确定性的方法 。

结果显示,无论是在「20 个问题」猜谜游戏还是电影偏好推荐任务中,BED-LLM 的表现都全面超越了基准方法 。

具体而言,该团队首先发现,BED-LLM 在各种 LLM 和目标数量下,显著提升了 20 个问题问题的成功率。例如,在使用 Mistral-Large 预测名人时,该团队观察到成功率从 14% 提升至 91%。

其次,该团队展示了 LLM 在电影推荐方面取得的显著改进,表明即使 LLM 的预测模型与回答者的预测模型不同,这些优势依然有效。

更具现实意义的是,研究团队还进行了一项「模型跨服聊天」的压力测试:让提问的 AI 和回答的 AI 使用完全不同的模型(例如,提问方是 Qwen,回答方是 GPT-4o-mini)。

这种设置更贴近真实世界,因为用户的思维模型与 AI 本就不同。即便在这种「模型失配」的情况下,BED-LLM 的性能优势依然稳固,展现了其强大的稳健性。

总而言之,这项研究为我们展示了如何通过严谨的数学框架,将 LLM 从一个被动的知识问答库,转变为一个主动、高效、且具备逻辑推理能力的信息收集者。这或许预示着,未来的 AI 交互将不再是简单的一问一答,而是真正意义上的「智慧对话」。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川井研一公交车身标语引争议 官方:系个人自费5000元投放的广告,已整改清除

四川井研一公交车身标语引争议 官方:系个人自费5000元投放的广告,已整改清除

红星新闻
2026-03-25 20:09:43
美媒晒NBA球队市值排名:勇士113.3亿美元居首 湖人第2火箭第10

美媒晒NBA球队市值排名:勇士113.3亿美元居首 湖人第2火箭第10

罗说NBA
2026-03-26 06:18:02
见证历史,中国让Open AI绝望了!

见证历史,中国让Open AI绝望了!

君临财富
2026-03-25 23:36:26
伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

闪电新闻
2026-03-26 10:00:46
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
A股:紧急提醒股民,主力已摊牌!明天,3月26日周四尾声将至?

A股:紧急提醒股民,主力已摊牌!明天,3月26日周四尾声将至?

云鹏叙事
2026-03-26 00:00:06
好莱坞的AI招魂术:死亡不再是劳动的终点

好莱坞的AI招魂术:死亡不再是劳动的终点

动察Beating
2026-03-26 11:06:56
日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

有范又有料
2026-03-25 14:08:39
2026QS世界大学学科排名正式发布!

2026QS世界大学学科排名正式发布!

双一流高校
2026-03-26 00:11:50
白宫:美国总统特朗普将于5月访华

白宫:美国总统特朗普将于5月访华

辇毂
2026-03-26 05:18:40
尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

游民星空
2026-03-26 11:58:13
河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

大风新闻
2026-03-25 19:23:14
加时崩盘!火箭108-110森林狼,本场谁是罪魁祸首,数据不会说谎

加时崩盘!火箭108-110森林狼,本场谁是罪魁祸首,数据不会说谎

小徐讲八卦
2026-03-26 12:55:53
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
中东突发!刚刚,直线拉升

中东突发!刚刚,直线拉升

中国基金报
2026-03-26 12:35:21
蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

老杉说历史
2026-03-23 22:17:08
为什么建议你多做俯卧撑?6个被低估的好处

为什么建议你多做俯卧撑?6个被低估的好处

增肌减脂
2026-03-25 11:53:14
4亿预算!穆里尼奥是重返切尔西还是执掌葡萄牙队,终极抉择困难

4亿预算!穆里尼奥是重返切尔西还是执掌葡萄牙队,终极抉择困难

成吉思热
2026-03-26 10:02:48
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
杀不死的萨达姆:隐藏19年的秘密浮出水面,6个替身做到以假乱真

杀不死的萨达姆:隐藏19年的秘密浮出水面,6个替身做到以假乱真

丞丞故事汇
2026-03-26 10:43:34
2026-03-26 16:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
艺术
教育
本地
军事航空

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

艺术要闻

哪一座桥不是风景?

教育要闻

教育部部署开展2026年全国中小学生安全教育周活动

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版