网易首页 > 网易号 > 正文 申请入驻

无线合成数据助力破解物理感知大模型瓶颈,SynCheck获最佳论文奖

0
分享至

在万物互联的智能时代,具身智能和空间智能需要的不仅是视觉和语言,还需要突破传统感官限制的能力;无线感知正成为突破这些物理限制的关键技术:通过捕捉无线信号的反射特性,它让不可见的目标变得可感知,使机器能够 "看见" 墙壁后的动静、"感知" 数米外的动作,甚至捕捉到人类难以察觉的微妙变化。这种全新的感知维度,能对环境中人机行为实现无感监测与精准解析,正在重塑人机交互的边界。

从感知到决策,离不开具有强大语义理解能力的大模型。但怎样构建一个除了视觉和语言之外,能够理解物理原理(电磁场、光学、声学等)、与物理世界交互的大模型?

这一问题并不能复制语言、视觉大模型的经验,因为大模型可以从人类几千年的文字资料中学习语言,可以从整个互联网的视频学习视觉;但除此以外,能提供给模型学习的数据微乎其微;仅依赖真实世界的数据采集,难以支持大模型所需的海量数据。

为解决数据稀缺这一最大挑战,北京大学的许辰人教授团队和匹兹堡大学的高伟教授联合提出SynCheck,为机器学习提供与真实数据质量相近的合成数据。相关工作发表在移动计算领域旗舰会议 MobiSys 2025 上,并获得会议的最佳论文奖。

  • 论文标题:Data Can Speak for Itself: Quality-guided Utilization of Wireless Synthetic Data
  • 论文链接:https://arxiv.org/abs/2506.23174
  • 代码链接:https://github.com/MobiSys25AE/SynCheck

1. 生成模型评估:数据导向的效率优化

在无线感知领域,生成模型已被广泛用于产生合成数据以补充真实数据集。然而,现有研究大多只关注数据量的扩充,而忽视了合成数据的质量问题。为解决这一问题,研究团队提出了两个创新性质量指标:

  • 亲和力(affinity):衡量合成数据与真实数据的相似度
  • 多样性(diversity):评估合成数据覆盖真实数据分布的范围

图:两类质量指标的解释

与以往依赖视觉启发或局限于特定数据集的质量评估方法不同,这项研究通过贝叶斯分析和性能指标建立了具有理论支撑的通用评估框架。研究还引入 "边际"(margin) 概念作为性能指标,利用训练集的边际分布作为自然参考标准,实现了跨数据集的公平比较。

图:基于 margin 的质量评估方法

研究团队通过系统评估发现,现有无线合成数据普遍存在 “亲和力不足” 的问题,这会导致数据标签错误,进而降低任务性能。

2. 合成数据应用:质量优先的性能突破

基于质量评估结果,团队开发了 SynCheck 框架,其核心创新在于:

1. 将合成数据视为未标记数据,真实数据作为标记数据

2. 采用半监督学习框架结合两种数据源,在迭代训练过程中过滤低亲和力合成样本,为剩余样本分配伪标签

这种方法不需要修改生成模型的训练或推理过程,可以作为通用后处理步骤适配各种生成流程。

图:基于半监督学习的合成数据通用后处理使用方法

实验结果显示,SynCheck 在性能上实现了显著提升:

1. 在质量无关方法导致性能下降 13.4% 的最坏情况下,仍能实现 4.3% 的性能提升

2. 最佳情况下性能提升达 12.9%

3. 过滤后的合成数据展现出更好的亲和力,同时保持了与原始数据相当的多样性

图:合成数据的不同使用方法的性能对比

在逐步提升合成数据占比的过程中,由于合成数据与真实数据存在分布差异,其他基线方法的任务性能会随着合成数据比例增加而显著下降,这种分布偏移现象破坏了任务性能与训练数据之间的 scaling law 规律。相比之下,SynCheck 方法通过动态校正合成数据的分布偏差,使得模型性能能够保持稳定提升,最终收敛至最优状态。

图:任务性能随合成数据规模扩展的变化趋势

3. 超越数据瓶颈:无线大模型的规模化应用前景

当前学术界对合成数据的研究呈现明显的观点分野。持审慎态度的学者从理论推演和实证研究出发,提出了 "模型崩塌"(model collapse)的警示 —— 这类似于生物学上的近亲繁殖现象,当模型持续消化自身生成的数据时,其性能将不可避免地出现退化。然而,另一批研究者则持乐观态度,他们认为通过引入验证器(verifier)机制,完全可以规避模型崩溃的风险。值得注意的是,现有研究多集中于数学、代码等具有明确评价标准的领域,而在复杂度更高的任务场景中,这一问题的验证仍面临挑战。

北京大学和匹兹堡大学的研究团队创新性地提出了以目标任务模型为桥梁的研究范式,成功建立了合成数据与真实数据条件分布之间的映射关系。这一突破性进展为无线感知这一真实数据匮乏但性能导向的领域,确立了切实可行的数据质量评估标准与筛选方法。

未来,研究团队将致力于推动无线大模型的训练范式革新,通过拓展数据源的多样化泛化路径,探索更高效的预训练任务架构,实现合成数据与多元数据源的有机融合。在此基础上,团队将进一步构建面向各类无线感知任务的通用预训练框架,积极拓展多样化的数据来源,依托更强大的无线大模型,为具身智能系统提供坚实的感知与决策支撑。这些研究不仅将深化对合成数据质量标准的理论认知,更将为新一代具身智能系统的创新发展奠定基础,推动人工智能在物理世界的深度融合与广泛应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国真实税率的另一种视角:增值税

中国真实税率的另一种视角:增值税

生命可以承受之轻
2026-07-03 16:18:06
“爸妈连5千块都拿不出!”北京实习女孩崩溃:我不要回老家

“爸妈连5千块都拿不出!”北京实习女孩崩溃:我不要回老家

熙熙说教
2026-07-04 21:33:21
法国能源巨头感叹:中国两周,法国两年

法国能源巨头感叹:中国两周,法国两年

观察者网
2026-07-05 14:26:05
81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

人生录
2026-06-23 22:35:45
跌掉96%,“新茶饮第一股”沦为仙股:茶饮的“高溢价”泡沫,彻底破了!

跌掉96%,“新茶饮第一股”沦为仙股:茶饮的“高溢价”泡沫,彻底破了!

新浪财经
2026-07-05 09:51:53
陈奕迅女儿首度回应父亲买1.8亿港元豪宅:没跟我说,可能送给他自己的,也可能是“扩张”我们的家;此前网友猜测是为女儿准备的“嫁妆”

陈奕迅女儿首度回应父亲买1.8亿港元豪宅:没跟我说,可能送给他自己的,也可能是“扩张”我们的家;此前网友猜测是为女儿准备的“嫁妆”

鲁中晨报
2026-07-03 17:58:17
网友实拍西安赛格商城,人流量暴跌,冷冷清清,实体店太艰难!

网友实拍西安赛格商城,人流量暴跌,冷冷清清,实体店太艰难!

眼光很亮
2026-07-05 13:43:12
最近19个省份公布了2025年平均工资数据

最近19个省份公布了2025年平均工资数据

流苏晚晴
2026-07-05 17:39:22
凌晨两点妻子发来不回家微信,我直奔酒店,推门后她赤脚跪地

凌晨两点妻子发来不回家微信,我直奔酒店,推门后她赤脚跪地

千秋文化
2026-07-04 19:20:43
金价大局已定?未来将近一半的中国家庭,或许要经历这3大难关

金价大局已定?未来将近一半的中国家庭,或许要经历这3大难关

云景侃记
2026-07-05 09:40:28
为什么中国人那么介意有纹身的人,但是外国人却不介意纹身呢?

为什么中国人那么介意有纹身的人,但是外国人却不介意纹身呢?

另子维爱读史
2026-07-04 21:40:13
河南男孩高考693分,父亲脑梗偏瘫母亲打工维生,为省路费放弃清华“强基计划”:暑假当家教补贴家用,想靠学习让家人过上好日子

河南男孩高考693分,父亲脑梗偏瘫母亲打工维生,为省路费放弃清华“强基计划”:暑假当家教补贴家用,想靠学习让家人过上好日子

大象新闻
2026-07-05 01:02:05
臆测10月解放军“收复台湾” 美军大肆囤积弹药

臆测10月解放军“收复台湾” 美军大肆囤积弹药

看看新闻Knews
2026-07-04 14:28:03
谢杏芳定居西班牙与林丹分居,10岁儿子成未来依靠

谢杏芳定居西班牙与林丹分居,10岁儿子成未来依靠

原梦叁生
2026-06-13 13:48:10
巴拉圭主帅:法国最后在拖延时间,他们庆祝是因为赢得很吃力

巴拉圭主帅:法国最后在拖延时间,他们庆祝是因为赢得很吃力

刘哥谈体育
2026-07-05 13:29:21
关店800家,连亏9个亿,“中国鞋王”日薄西山,创始人已倾家荡产

关店800家,连亏9个亿,“中国鞋王”日薄西山,创始人已倾家荡产

壹只灰鸽子
2026-07-03 13:35:04
巴拉圭门将用球砸姆巴佩,赛后发声

巴拉圭门将用球砸姆巴佩,赛后发声

上观新闻
2026-07-05 10:52:22
黑白反差闺蜜街拍|两种熟女人妻穿搭,精准勾勒饱满曲线

黑白反差闺蜜街拍|两种熟女人妻穿搭,精准勾勒饱满曲线

只要高兴就好
2026-07-05 12:42:22
悔到肠子发青!阿森纳放走当世第一神锋!实力碾压阿尔瓦雷斯

悔到肠子发青!阿森纳放走当世第一神锋!实力碾压阿尔瓦雷斯

澜归序
2026-07-04 05:19:50
9岁女孩遭车主扇耳光致脸部红肿 警方称不构成立案

9岁女孩遭车主扇耳光致脸部红肿 警方称不构成立案

闪电新闻
2026-07-05 10:24:21
2026-07-05 18:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13434文章数 142688关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

网红直播时被警方当场带走 涉案金额高达50余万

头条要闻

网红直播时被警方当场带走 涉案金额高达50余万

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

王力宏成都舞台受伤 仍然坚持三小时

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

亲子
艺术
旅游
公开课
军事航空

亲子要闻

讲一个让娃整个暑假都有学有玩、还省爹妈的方法——花钱

艺术要闻

看看“馆阁体”鼻祖写的书法,比赵孟頫的字还美,狠狠打脸喷子恶评!

旅游要闻

重庆博主打车赴拉萨视频获千万点赞 西藏文旅官宣“50万元奖励将及时兑现”

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京与特朗普通话85分钟 细节公布

无障碍浏览 进入关怀版