网易首页 > 网易号 > 正文 申请入驻

北大提出数据质量评估新标准,破解无线感知领域合成数据质量难题

0
分享至

北京大学许辰人教授团队与美国匹兹堡大学高伟教授合作,系统性地定义了无线感知领域合成数据的质量评估指标,提出了 SynCheck 框架。研究人员设计了具有普适性的、即插即用的数据筛选机制,能够确保训练过程中仅纳入高质量的合成样本。

该框架突破了智能家居或工业监测等小数据场景的瓶颈化难题。另一方面,其在跨场景泛化领域,具有更低的部署成本,更高的精度和更强的环境适应性。该研究为无线感知的实际落地,提供了一种在真实数据有限场景下的解决方案,并有望在数据合成后的质量验证接口、任务模型训练、场景适配等环节产生价值。

审稿人认为这项工作填补了现有研究的空白,且实验评估全面有力,对实际应用具有重要指导意义。其对该研究评价称:“这项研究针对合成无线数据质量评估这一独特而重要的问题,创新性地提出了亲和性与多样性的评估框架,并通过技术扎实的半监督学习框架有效提升了合成数据在下游任务中的实用性。”


(来源:该团队)

日前,相关论文以《数据自证其质:面向无线合成数据的质量导向利用方法》(Data Can Speak for Itself: Quality-guided Utilization of Wireless Synthetic Data)为题发表在预印本网站 arXiv[1],并获得了移动计算领域顶会 MobiSys 2025 的最佳论文奖。论文作者包括北京大学博士生龚晨、梁博、美国匹兹堡大学高伟教授和北京大学许辰人教授。


图丨相关论文(来源:arXiv)

与 AI 领域的丰富数据相比,无线感知领域的高质量开源数据集相对较少。主要原因在于:一方面,研究人员采集真实数据需要实际测量需要特定的设备;另一方面,数据受时间、空间变化等物理因素的影响,因此在有限场景下的实测难以覆盖真实世界的长尾分布。

随着技术的发展,生成模型(如 GAN、Diffusion Models)等新技术在图像和文本领域已展现出强大的能力。此前,已有研究者尝试将生成模型应用在无线感知领域,尝试用合成数据来补充真实数据。

然而,他们在直接应用生成模型时,面临领域特定的挑战:无线信号需要更强的物理可解释性,必须符合电磁波传播规律,例如菲涅尔区效应、多普勒频移等。因此,目前尚未有系统性的评估框架来量化合成数据的质量,以及它们在感知任务中的有效性,更缺乏与真实信号物理一致性的理论保障。


图丨对无线合成数据的质量评估和质量引导的利用(来源:arXiv)

研究团队希望通过建立可量化的无线领域数据质量标准,来解决将合成数据用于模型训练的可靠性问题。SynCheck 框架的核心思路是,在训练过程中动态优化合成数据的质量,而不是进行单次的筛选过滤。

具体来说:

首先进行半监督学习,将真实数据作为有标签数据,合成数据作为无标签数据,共同放入模型中训练。这样既能兼顾真实数据的准确性,又能发挥合成数据的规模优势。

第二步是动态评估和过滤。在训练过程中,模型会迭代地实时判断哪些合成数据是可信的。研究人员筛选出这些质量高的合成数据,并且只用这些数据参与监督式训练。同时,他们会及时删除那些标签错误或分布偏差较大的样本。


(来源:arXiv)

SynCheck 框架的主要创新点在于,训练和迭代筛选优化过程是同步进行的,可动态地对数据进行筛选和优化质量。它不依赖额外的人工规则,而是根据任务模型的置信度来进行判断。同时,也适用于不同的感知任务,并兼容各种各样的生成模型。

值得关注的是,该团队创新性地提出了亲和性(affinity)与多样性(diversity)两个指标,以将任务模型作为桥梁来衡量合成数据能增强真实数据的具体程度。具体来说,亲和性关注的是合成数据在每个类别内部是否足够接近真实数据,而多样性则关注合成数据是否足够广泛地覆盖真实数据的分布。

龚晨对 DeepTech 解释说道:“这是一种在无线感知领域不依赖于人工设计规则,且比较具有普适性的质量评估方法。我们不需要去理解这些信号的含义,它们直接面向需要合成数据的最终目标,适用于不同的感知任务,也不需要针对不同的生成模型做调整,最终提升目标任务的性能。”


图丨合成数据的质量量化(来源:arXiv)

传统方法由于直接使用合成数据,容易引起数据质量方面的缺陷。研究人员通过实验对比,发现在传统方法模型训练性能下降 13.4% 情况下,采用 SynCheck 框架仍能实现性能提升 4.3%。其核心差异在于,该框架通过动态去噪和智能化筛选,有选择性地利用这些数据,其性能提升本质上是通过数据筛选解决了合成数据的可靠性问题。

总体来说,该研究为生成式模型在无线感知领域的可靠应用开辟了新路径,使其真正成为扩展数据边界的有效工具,为无线大模型实现“数据自由”开启了一个好的开端。

许辰人团队的重点研究方向是多模态感知赋能科学与工程智能。未来,研究团队将聚焦在两个关键方向:一方面,他们计划进一步直接优化生成模型,把这些质量评估指标反向地指导生成模型的训练,从而直接改善生成模型;另一方面,他们还希望深度整合物理仿真器,构建基于电磁传播原理的仿真引擎,以减少对真实标注数据的依赖程度。

参考资料:

1.https://arxiv.org/abs/2506.23174

2.https://github.com/MobiSys25AE/SynCheck

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
粟裕汇报作战计划,毛泽东很惊讶:你打算一次性消灭450万蒋军?

粟裕汇报作战计划,毛泽东很惊讶:你打算一次性消灭450万蒋军?

大运河时空
2025-11-01 19:03:57
刘亦菲一字马标准吗?似乎不是每个人都适合练的,至少我是练不了

刘亦菲一字马标准吗?似乎不是每个人都适合练的,至少我是练不了

白宸侃片
2025-11-03 12:38:33
换了三套房才知道,“地暖”和“暖气片”哪个更好,幸亏没选错!

换了三套房才知道,“地暖”和“暖气片”哪个更好,幸亏没选错!

家居设计师苏哥
2025-11-02 10:39:34
8个月前洪金宝还有点念想,冯淬帆这一走他的愿望彻底实现不了了

8个月前洪金宝还有点念想,冯淬帆这一走他的愿望彻底实现不了了

小娱乐悠悠
2025-11-02 10:52:47
俄罗斯有多穷?莫斯科有多富?| 地球知识局

俄罗斯有多穷?莫斯科有多富?| 地球知识局

地球知识局
2025-10-28 20:28:17
中国斯诺克单日1胜4负!丁俊晖第3轮对手确定,肖国栋周跃龙陪跑

中国斯诺克单日1胜4负!丁俊晖第3轮对手确定,肖国栋周跃龙陪跑

刘姚尧的文字城堡
2025-11-03 19:36:49
72岁老人中毒身亡!医生提醒:吃完降压药千万别碰它,中老年要看

72岁老人中毒身亡!医生提醒:吃完降压药千万别碰它,中老年要看

39健康网
2025-10-28 19:30:54
中国正在大量囤油,一度吞掉世界9成囤量,是有什么大事要发生?

中国正在大量囤油,一度吞掉世界9成囤量,是有什么大事要发生?

次元君情感
2025-11-03 15:47:46
“辞职看世界”的女老师,10年后成这样:黯然回乡,老公已分开

“辞职看世界”的女老师,10年后成这样:黯然回乡,老公已分开

热风追逐者
2025-10-24 01:15:03
清华大学研究报告:个人养老金没成……

清华大学研究报告:个人养老金没成……

家传编辑部
2025-11-03 12:16:38
突破耐久极限?一辆特斯拉Model S被曝行驶260万公里

突破耐久极限?一辆特斯拉Model S被曝行驶260万公里

手机中国
2025-11-03 10:03:04
荷兰切断中国安世晶圆供应,德国也变脸了,180度转向令各方错愕

荷兰切断中国安世晶圆供应,德国也变脸了,180度转向令各方错愕

南宫一二
2025-11-03 10:50:43
不找矮个、不找穷人!31岁网球名将公开择偶标准,要求附银行流水

不找矮个、不找穷人!31岁网球名将公开择偶标准,要求附银行流水

往史过眼云烟
2025-11-03 14:24:12
网友分享:你捡过最大的漏是什么?看完笑到飞起!

网友分享:你捡过最大的漏是什么?看完笑到飞起!

特约前排观众
2025-09-29 00:05:12
丫蛋有三个孩子,大儿子王天琦是她与王金龙所生,于2011年出生。

丫蛋有三个孩子,大儿子王天琦是她与王金龙所生,于2011年出生。

百态人间
2025-10-31 14:43:12
刚刚公布:广东最新消费券来了

刚刚公布:广东最新消费券来了

珠江时报
2025-11-03 12:34:54
今年谁能有他猛!拿到亿元合同,当上球队老大,有望入选全明星

今年谁能有他猛!拿到亿元合同,当上球队老大,有望入选全明星

球毛鬼胎
2025-11-03 16:17:33
中共中央批准,开除王建军党籍

中共中央批准,开除王建军党籍

新京报政事儿
2025-11-03 11:13:13
村里建广场我赞助40万,却发现没我名字我淡定离开,三天后村长懵了

村里建广场我赞助40万,却发现没我名字我淡定离开,三天后村长懵了

眼泪博物
2025-08-22 18:21:23
张靓颖这下估计后半辈子都跟辣菜说拜拜了。

张靓颖这下估计后半辈子都跟辣菜说拜拜了。

小光侃娱乐
2025-11-03 18:15:03
2025-11-03 22:28:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15815文章数 514260关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

郑丽文公开表态愿意访问大陆100次:要来解决2个问题

头条要闻

郑丽文公开表态愿意访问大陆100次:要来解决2个问题

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

环比增长28.7% 方程豹品牌10月销量31052辆

态度原创

健康
本地
时尚
旅游
公开课

超声探头会加重受伤情况吗?

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

今年秋冬最时髦的穿法:外套+连帽卫衣,减龄又松弛!

旅游要闻

摩旅湘西,偶遇湖南省最大的少数民族聚居安置区,感受却五味杂陈

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版