网易首页 > 网易号 > 正文 申请入驻

无线合成数据助力破解物理感知大模型瓶颈,SynCheck获最佳论文奖

0
分享至

在万物互联的智能时代,具身智能和空间智能需要的不仅是视觉和语言,还需要突破传统感官限制的能力;无线感知正成为突破这些物理限制的关键技术:通过捕捉无线信号的反射特性,它让不可见的目标变得可感知,使机器能够 "看见" 墙壁后的动静、"感知" 数米外的动作,甚至捕捉到人类难以察觉的微妙变化。这种全新的感知维度,能对环境中人机行为实现无感监测与精准解析,正在重塑人机交互的边界。

从感知到决策,离不开具有强大语义理解能力的大模型。但怎样构建一个除了视觉和语言之外,能够理解物理原理(电磁场、光学、声学等)、与物理世界交互的大模型?

这一问题并不能复制语言、视觉大模型的经验,因为大模型可以从人类几千年的文字资料中学习语言,可以从整个互联网的视频学习视觉;但除此以外,能提供给模型学习的数据微乎其微;仅依赖真实世界的数据采集,难以支持大模型所需的海量数据。

为解决数据稀缺这一最大挑战,北京大学的许辰人教授团队和匹兹堡大学的高伟教授联合提出SynCheck,为机器学习提供与真实数据质量相近的合成数据。相关工作发表在移动计算领域旗舰会议 MobiSys 2025 上,并获得会议的最佳论文奖。

  • 论文标题:Data Can Speak for Itself: Quality-guided Utilization of Wireless Synthetic Data
  • 论文链接:https://arxiv.org/abs/2506.23174
  • 代码链接:https://github.com/MobiSys25AE/SynCheck

1. 生成模型评估:数据导向的效率优化

在无线感知领域,生成模型已被广泛用于产生合成数据以补充真实数据集。然而,现有研究大多只关注数据量的扩充,而忽视了合成数据的质量问题。为解决这一问题,研究团队提出了两个创新性质量指标:

  • 亲和力(affinity):衡量合成数据与真实数据的相似度
  • 多样性(diversity):评估合成数据覆盖真实数据分布的范围

图:两类质量指标的解释

与以往依赖视觉启发或局限于特定数据集的质量评估方法不同,这项研究通过贝叶斯分析和性能指标建立了具有理论支撑的通用评估框架。研究还引入 "边际"(margin) 概念作为性能指标,利用训练集的边际分布作为自然参考标准,实现了跨数据集的公平比较。

图:基于 margin 的质量评估方法

研究团队通过系统评估发现,现有无线合成数据普遍存在 “亲和力不足” 的问题,这会导致数据标签错误,进而降低任务性能。

2. 合成数据应用:质量优先的性能突破

基于质量评估结果,团队开发了 SynCheck 框架,其核心创新在于:

1. 将合成数据视为未标记数据,真实数据作为标记数据

2. 采用半监督学习框架结合两种数据源,在迭代训练过程中过滤低亲和力合成样本,为剩余样本分配伪标签

这种方法不需要修改生成模型的训练或推理过程,可以作为通用后处理步骤适配各种生成流程。

图:基于半监督学习的合成数据通用后处理使用方法

实验结果显示,SynCheck 在性能上实现了显著提升:

1. 在质量无关方法导致性能下降 13.4% 的最坏情况下,仍能实现 4.3% 的性能提升

2. 最佳情况下性能提升达 12.9%

3. 过滤后的合成数据展现出更好的亲和力,同时保持了与原始数据相当的多样性

图:合成数据的不同使用方法的性能对比

在逐步提升合成数据占比的过程中,由于合成数据与真实数据存在分布差异,其他基线方法的任务性能会随着合成数据比例增加而显著下降,这种分布偏移现象破坏了任务性能与训练数据之间的 scaling law 规律。相比之下,SynCheck 方法通过动态校正合成数据的分布偏差,使得模型性能能够保持稳定提升,最终收敛至最优状态。

图:任务性能随合成数据规模扩展的变化趋势

3. 超越数据瓶颈:无线大模型的规模化应用前景

当前学术界对合成数据的研究呈现明显的观点分野。持审慎态度的学者从理论推演和实证研究出发,提出了 "模型崩塌"(model collapse)的警示 —— 这类似于生物学上的近亲繁殖现象,当模型持续消化自身生成的数据时,其性能将不可避免地出现退化。然而,另一批研究者则持乐观态度,他们认为通过引入验证器(verifier)机制,完全可以规避模型崩溃的风险。值得注意的是,现有研究多集中于数学、代码等具有明确评价标准的领域,而在复杂度更高的任务场景中,这一问题的验证仍面临挑战。

北京大学和匹兹堡大学的研究团队创新性地提出了以目标任务模型为桥梁的研究范式,成功建立了合成数据与真实数据条件分布之间的映射关系。这一突破性进展为无线感知这一真实数据匮乏但性能导向的领域,确立了切实可行的数据质量评估标准与筛选方法。

未来,研究团队将致力于推动无线大模型的训练范式革新,通过拓展数据源的多样化泛化路径,探索更高效的预训练任务架构,实现合成数据与多元数据源的有机融合。在此基础上,团队将进一步构建面向各类无线感知任务的通用预训练框架,积极拓展多样化的数据来源,依托更强大的无线大模型,为具身智能系统提供坚实的感知与决策支撑。这些研究不仅将深化对合成数据质量标准的理论认知,更将为新一代具身智能系统的创新发展奠定基础,推动人工智能在物理世界的深度融合与广泛应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
37岁福原爱宣布三胎出生:母子健康平安,产后照曝光,前夫已祝福

37岁福原爱宣布三胎出生:母子健康平安,产后照曝光,前夫已祝福

开开森森
2026-04-19 07:41:03
博主给凉山孤儿盖房,用村里水得交200,还遭工人背刺,网友炸锅

博主给凉山孤儿盖房,用村里水得交200,还遭工人背刺,网友炸锅

奇思妙想草叶君
2026-04-18 13:14:56
G1火箭98-107不敌湖人 球员评价:伊森优秀,史密斯及格,7人低迷

G1火箭98-107不敌湖人 球员评价:伊森优秀,史密斯及格,7人低迷

篮球资讯达人
2026-04-19 11:27:07
机器人半马最诡异机器人出现,网友:半夜送外卖要被吓死

机器人半马最诡异机器人出现,网友:半夜送外卖要被吓死

第一财经资讯
2026-04-19 11:39:06
宇树机器人打破人类1500米世界纪录:1.9公里4分13秒自主跑完

宇树机器人打破人类1500米世界纪录:1.9公里4分13秒自主跑完

快科技
2026-04-19 07:47:05
刚刚美国爆出惊天真相!太丢人了,中东战争真打不下去了!

刚刚美国爆出惊天真相!太丢人了,中东战争真打不下去了!

一个坏土豆
2026-04-18 19:22:14
伊朗宣布关闭霍尔木兹海峡

伊朗宣布关闭霍尔木兹海峡

财联社
2026-04-19 02:25:05
5月1日起全国严查!开车上班、做生意,这些小事别再碰,轻则罚款

5月1日起全国严查!开车上班、做生意,这些小事别再碰,轻则罚款

宝哥精彩赛事
2026-04-19 06:35:05
掘金逆转森林狼总分1-0:约基奇25+13+11创历史第3 穆雷30+5+7

掘金逆转森林狼总分1-0:约基奇25+13+11创历史第3 穆雷30+5+7

醉卧浮生
2026-04-19 06:15:13
学校组织10元车费去春游,男孩下车秒哭,“这是我家,油菜花还是我和爷爷一起种的,我妈刚把我送学校,你又把我带回来了”

学校组织10元车费去春游,男孩下车秒哭,“这是我家,油菜花还是我和爷爷一起种的,我妈刚把我送学校,你又把我带回来了”

观威海
2026-04-18 13:16:03
何润东回应亮相“苏超”为何不骑马:10年前一定骑马,现在50多岁了,“一摔下来就幻灭,对项羽不太尊重,想给大家留下美好印象”

何润东回应亮相“苏超”为何不骑马:10年前一定骑马,现在50多岁了,“一摔下来就幻灭,对项羽不太尊重,想给大家留下美好印象”

扬子晚报
2026-04-19 09:12:34
新型啃老正在流行,68岁老人哭诉:你们的孝顺让我有苦说不出

新型啃老正在流行,68岁老人哭诉:你们的孝顺让我有苦说不出

蝉吟槐蕊
2026-04-18 08:26:05
“五一”假期大批航班取消

“五一”假期大批航班取消

每日经济新闻
2026-04-18 22:20:39
央视再三提醒,绑银行卡的手机,务必开启这两项功能

央视再三提醒,绑银行卡的手机,务必开启这两项功能

另子维爱读史
2026-04-18 22:46:08
王伟中对俄罗斯后贝加尔边疆区交通事故作出批示

王伟中对俄罗斯后贝加尔边疆区交通事故作出批示

新京报
2026-04-19 12:15:11
研究表明,中学生的抑郁率已高达36%!

研究表明,中学生的抑郁率已高达36%!

黯泉
2026-04-18 18:06:01
悲催!丈夫每月给30000生活费,河南女子发帖,嫌弃他是留守儿童

悲催!丈夫每月给30000生活费,河南女子发帖,嫌弃他是留守儿童

火山詩话
2026-04-19 07:49:14
霍思燕一家四口现身机场!代孕女儿大方带出门,母女俩背影像极了

霍思燕一家四口现身机场!代孕女儿大方带出门,母女俩背影像极了

八卦王者
2026-04-19 11:27:27
警告三次不如动真格一次!中国下达逐客令,巴拿马的反应出乎意料

警告三次不如动真格一次!中国下达逐客令,巴拿马的反应出乎意料

共工之锚
2026-04-19 00:10:58
网友称山西一酒店回访电话暴露其行程致家庭破碎,酒店回应:正常回访,但电话没接通

网友称山西一酒店回访电话暴露其行程致家庭破碎,酒店回应:正常回访,但电话没接通

潇湘晨报
2026-04-18 22:04:11
2026-04-19 14:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12792文章数 142632关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

牛弹琴:伊朗遭到特朗普"羞辱"被激怒 结果印度遭了殃

头条要闻

牛弹琴:伊朗遭到特朗普"羞辱"被激怒 结果印度遭了殃

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

时尚
家居
旅游
本地
军事航空

选对发型,真的能少走很多变美弯路

家居要闻

法式线条 时光静淌

旅游要闻

锦绣马山一路繁花,济南长清区马山镇第二十九届传统文化山会启幕

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

军事要闻

伊朗逼退美扫雷艇:美方求给15分钟撤退

无障碍浏览 进入关怀版