网易首页 > 网易号 > 正文 申请入驻

无线合成数据助力破解物理感知大模型瓶颈,SynCheck获最佳论文奖

0
分享至

在万物互联的智能时代,具身智能和空间智能需要的不仅是视觉和语言,还需要突破传统感官限制的能力;无线感知正成为突破这些物理限制的关键技术:通过捕捉无线信号的反射特性,它让不可见的目标变得可感知,使机器能够 "看见" 墙壁后的动静、"感知" 数米外的动作,甚至捕捉到人类难以察觉的微妙变化。这种全新的感知维度,能对环境中人机行为实现无感监测与精准解析,正在重塑人机交互的边界。

从感知到决策,离不开具有强大语义理解能力的大模型。但怎样构建一个除了视觉和语言之外,能够理解物理原理(电磁场、光学、声学等)、与物理世界交互的大模型?

这一问题并不能复制语言、视觉大模型的经验,因为大模型可以从人类几千年的文字资料中学习语言,可以从整个互联网的视频学习视觉;但除此以外,能提供给模型学习的数据微乎其微;仅依赖真实世界的数据采集,难以支持大模型所需的海量数据。

为解决数据稀缺这一最大挑战,北京大学的许辰人教授团队和匹兹堡大学的高伟教授联合提出SynCheck,为机器学习提供与真实数据质量相近的合成数据。相关工作发表在移动计算领域旗舰会议 MobiSys 2025 上,并获得会议的最佳论文奖。

  • 论文标题:Data Can Speak for Itself: Quality-guided Utilization of Wireless Synthetic Data
  • 论文链接:https://arxiv.org/abs/2506.23174
  • 代码链接:https://github.com/MobiSys25AE/SynCheck

1. 生成模型评估:数据导向的效率优化

在无线感知领域,生成模型已被广泛用于产生合成数据以补充真实数据集。然而,现有研究大多只关注数据量的扩充,而忽视了合成数据的质量问题。为解决这一问题,研究团队提出了两个创新性质量指标:

  • 亲和力(affinity):衡量合成数据与真实数据的相似度
  • 多样性(diversity):评估合成数据覆盖真实数据分布的范围

图:两类质量指标的解释

与以往依赖视觉启发或局限于特定数据集的质量评估方法不同,这项研究通过贝叶斯分析和性能指标建立了具有理论支撑的通用评估框架。研究还引入 "边际"(margin) 概念作为性能指标,利用训练集的边际分布作为自然参考标准,实现了跨数据集的公平比较。

图:基于 margin 的质量评估方法

研究团队通过系统评估发现,现有无线合成数据普遍存在 “亲和力不足” 的问题,这会导致数据标签错误,进而降低任务性能。

2. 合成数据应用:质量优先的性能突破

基于质量评估结果,团队开发了 SynCheck 框架,其核心创新在于:

1. 将合成数据视为未标记数据,真实数据作为标记数据

2. 采用半监督学习框架结合两种数据源,在迭代训练过程中过滤低亲和力合成样本,为剩余样本分配伪标签

这种方法不需要修改生成模型的训练或推理过程,可以作为通用后处理步骤适配各种生成流程。

图:基于半监督学习的合成数据通用后处理使用方法

实验结果显示,SynCheck 在性能上实现了显著提升:

1. 在质量无关方法导致性能下降 13.4% 的最坏情况下,仍能实现 4.3% 的性能提升

2. 最佳情况下性能提升达 12.9%

3. 过滤后的合成数据展现出更好的亲和力,同时保持了与原始数据相当的多样性

图:合成数据的不同使用方法的性能对比

在逐步提升合成数据占比的过程中,由于合成数据与真实数据存在分布差异,其他基线方法的任务性能会随着合成数据比例增加而显著下降,这种分布偏移现象破坏了任务性能与训练数据之间的 scaling law 规律。相比之下,SynCheck 方法通过动态校正合成数据的分布偏差,使得模型性能能够保持稳定提升,最终收敛至最优状态。

图:任务性能随合成数据规模扩展的变化趋势

3. 超越数据瓶颈:无线大模型的规模化应用前景

当前学术界对合成数据的研究呈现明显的观点分野。持审慎态度的学者从理论推演和实证研究出发,提出了 "模型崩塌"(model collapse)的警示 —— 这类似于生物学上的近亲繁殖现象,当模型持续消化自身生成的数据时,其性能将不可避免地出现退化。然而,另一批研究者则持乐观态度,他们认为通过引入验证器(verifier)机制,完全可以规避模型崩溃的风险。值得注意的是,现有研究多集中于数学、代码等具有明确评价标准的领域,而在复杂度更高的任务场景中,这一问题的验证仍面临挑战。

北京大学和匹兹堡大学的研究团队创新性地提出了以目标任务模型为桥梁的研究范式,成功建立了合成数据与真实数据条件分布之间的映射关系。这一突破性进展为无线感知这一真实数据匮乏但性能导向的领域,确立了切实可行的数据质量评估标准与筛选方法。

未来,研究团队将致力于推动无线大模型的训练范式革新,通过拓展数据源的多样化泛化路径,探索更高效的预训练任务架构,实现合成数据与多元数据源的有机融合。在此基础上,团队将进一步构建面向各类无线感知任务的通用预训练框架,积极拓展多样化的数据来源,依托更强大的无线大模型,为具身智能系统提供坚实的感知与决策支撑。这些研究不仅将深化对合成数据质量标准的理论认知,更将为新一代具身智能系统的创新发展奠定基础,推动人工智能在物理世界的深度融合与广泛应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美方将对伊朗行动评估为“高风险高回报”

美方将对伊朗行动评估为“高风险高回报”

界面新闻
2026-02-28 23:17:08
马斯克牵手39岁女下属,3年生4娃终被承认!拿下首富的女人不简单

马斯克牵手39岁女下属,3年生4娃终被承认!拿下首富的女人不简单

商务范
2026-02-05 18:12:38
你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

带你感受人间冷暖
2026-02-16 01:10:39
千万网红“一栗小莎子”确诊癌症,不良恶习害了她,儿子不到两岁

千万网红“一栗小莎子”确诊癌症,不良恶习害了她,儿子不到两岁

温读史
2026-01-24 07:39:28
知名时尚品牌Guess宣布:将关闭在中国的店铺!有门店两折起清仓

知名时尚品牌Guess宣布:将关闭在中国的店铺!有门店两折起清仓

红星资本局
2026-02-28 18:30:08
940亿订单白签?默茨访华携大礼回国,转头德副总理公然抹黑中国

940亿订单白签?默茨访华携大礼回国,转头德副总理公然抹黑中国

东极妙严
2026-02-28 12:57:12
陈幸同意难平,不仅因为0:4惨败陈熠,更多在于以下这四点:

陈幸同意难平,不仅因为0:4惨败陈熠,更多在于以下这四点:

林子说事
2026-02-28 19:37:05
你啥时候意识到钱的重要性?网友:钱能解决85%以上的鸡毛蒜皮事

你啥时候意识到钱的重要性?网友:钱能解决85%以上的鸡毛蒜皮事

带你感受人间冷暖
2026-02-23 01:22:30
8000元相亲餐男子尿遁逃单!女子被迫买单,婚介甩锅:与我们无关

8000元相亲餐男子尿遁逃单!女子被迫买单,婚介甩锅:与我们无关

今朝牛马
2026-02-01 21:14:04
伊朗建议民众离开德黑兰

伊朗建议民众离开德黑兰

财联社
2026-02-28 21:58:42
取消早读、周三无作业……广东多地明确

取消早读、周三无作业……广东多地明确

侃故事的阿庆
2026-02-28 20:41:26
大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

通文知史
2026-02-26 22:00:04
“太恐怖,iPhone半夜自己给陌生人打47分钟电话!”

“太恐怖,iPhone半夜自己给陌生人打47分钟电话!”

都市快报橙柿互动
2026-02-25 11:28:41
内塔尼亚胡称越来越多迹象表明哈梅内伊“已不在人世”

内塔尼亚胡称越来越多迹象表明哈梅内伊“已不在人世”

澎湃新闻
2026-03-01 03:39:07
香港餐厅收内地客“天价”小费?港人怒批:香港结业潮是有原因的

香港餐厅收内地客“天价”小费?港人怒批:香港结业潮是有原因的

番外行
2026-03-01 06:42:30
宁愿在国外种地,也不愿意回国,培养出92个世界冠军的李永波图啥

宁愿在国外种地,也不愿意回国,培养出92个世界冠军的李永波图啥

阅微札记
2026-02-22 19:15:15
中国正加速抛售美债,美专家:中国用了新抛售方式,完全无法干预

中国正加速抛售美债,美专家:中国用了新抛售方式,完全无法干预

似水流年忘我
2026-01-29 01:24:08
俄军已经动了,中国帮不帮伊朗?面对外媒追问,毛宁回了三句话

俄军已经动了,中国帮不帮伊朗?面对外媒追问,毛宁回了三句话

福建平子
2026-03-01 08:22:23
20 岁女子与 40 岁钓鱼男多次开房,两人却辩称:只是师徒关系

20 岁女子与 40 岁钓鱼男多次开房,两人却辩称:只是师徒关系

没有偏旁的常庆
2026-01-05 06:15:03
直到看见蒋万安给儿子们起的名字,就知道他骨子里的身份瞒不住

直到看见蒋万安给儿子们起的名字,就知道他骨子里的身份瞒不住

小熊侃史
2026-02-23 13:00:17
2026-03-01 09:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12382文章数 142573关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

特朗普称哈梅内伊身亡 后者去年6月布局完整继承体系

头条要闻

特朗普称哈梅内伊身亡 后者去年6月布局完整继承体系

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

冲突爆发 市场变天?

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

家居
教育
数码
亲子
公开课

家居要闻

素色肌理 品意式格调

教育要闻

专业排名百分比揭秘!别再理解错了

数码要闻

英特尔Bartlett Lake-S旗舰现身 无法在消费级主板上启动

亲子要闻

逆天,在医院上班怀孕都要提前申请了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版