网易首页 > 网易号 > 正文 申请入驻

北大提出数据质量评估新标准,破解无线感知领域合成数据质量难题

0
分享至

北京大学许辰人教授团队与美国匹兹堡大学高伟教授合作,系统性地定义了无线感知领域合成数据的质量评估指标,提出了 SynCheck 框架。研究人员设计了具有普适性的、即插即用的数据筛选机制,能够确保训练过程中仅纳入高质量的合成样本。

该框架突破了智能家居或工业监测等小数据场景的瓶颈化难题。另一方面,其在跨场景泛化领域,具有更低的部署成本,更高的精度和更强的环境适应性。该研究为无线感知的实际落地,提供了一种在真实数据有限场景下的解决方案,并有望在数据合成后的质量验证接口、任务模型训练、场景适配等环节产生价值。

审稿人认为这项工作填补了现有研究的空白,且实验评估全面有力,对实际应用具有重要指导意义。其对该研究评价称:“这项研究针对合成无线数据质量评估这一独特而重要的问题,创新性地提出了亲和性与多样性的评估框架,并通过技术扎实的半监督学习框架有效提升了合成数据在下游任务中的实用性。”


(来源:该团队)

日前,相关论文以《数据自证其质:面向无线合成数据的质量导向利用方法》(Data Can Speak for Itself: Quality-guided Utilization of Wireless Synthetic Data)为题发表在预印本网站 arXiv[1],并获得了移动计算领域顶会 MobiSys 2025 的最佳论文奖。论文作者包括北京大学博士生龚晨、梁博、美国匹兹堡大学高伟教授和北京大学许辰人教授。


图丨相关论文(来源:arXiv)

与 AI 领域的丰富数据相比,无线感知领域的高质量开源数据集相对较少。主要原因在于:一方面,研究人员采集真实数据需要实际测量需要特定的设备;另一方面,数据受时间、空间变化等物理因素的影响,因此在有限场景下的实测难以覆盖真实世界的长尾分布。

随着技术的发展,生成模型(如 GAN、Diffusion Models)等新技术在图像和文本领域已展现出强大的能力。此前,已有研究者尝试将生成模型应用在无线感知领域,尝试用合成数据来补充真实数据。

然而,他们在直接应用生成模型时,面临领域特定的挑战:无线信号需要更强的物理可解释性,必须符合电磁波传播规律,例如菲涅尔区效应、多普勒频移等。因此,目前尚未有系统性的评估框架来量化合成数据的质量,以及它们在感知任务中的有效性,更缺乏与真实信号物理一致性的理论保障。


图丨对无线合成数据的质量评估和质量引导的利用(来源:arXiv)

研究团队希望通过建立可量化的无线领域数据质量标准,来解决将合成数据用于模型训练的可靠性问题。SynCheck 框架的核心思路是,在训练过程中动态优化合成数据的质量,而不是进行单次的筛选过滤。

具体来说:

首先进行半监督学习,将真实数据作为有标签数据,合成数据作为无标签数据,共同放入模型中训练。这样既能兼顾真实数据的准确性,又能发挥合成数据的规模优势。

第二步是动态评估和过滤。在训练过程中,模型会迭代地实时判断哪些合成数据是可信的。研究人员筛选出这些质量高的合成数据,并且只用这些数据参与监督式训练。同时,他们会及时删除那些标签错误或分布偏差较大的样本。


(来源:arXiv)

SynCheck 框架的主要创新点在于,训练和迭代筛选优化过程是同步进行的,可动态地对数据进行筛选和优化质量。它不依赖额外的人工规则,而是根据任务模型的置信度来进行判断。同时,也适用于不同的感知任务,并兼容各种各样的生成模型。

值得关注的是,该团队创新性地提出了亲和性(affinity)与多样性(diversity)两个指标,以将任务模型作为桥梁来衡量合成数据能增强真实数据的具体程度。具体来说,亲和性关注的是合成数据在每个类别内部是否足够接近真实数据,而多样性则关注合成数据是否足够广泛地覆盖真实数据的分布。

龚晨对 DeepTech 解释说道:“这是一种在无线感知领域不依赖于人工设计规则,且比较具有普适性的质量评估方法。我们不需要去理解这些信号的含义,它们直接面向需要合成数据的最终目标,适用于不同的感知任务,也不需要针对不同的生成模型做调整,最终提升目标任务的性能。”


图丨合成数据的质量量化(来源:arXiv)

传统方法由于直接使用合成数据,容易引起数据质量方面的缺陷。研究人员通过实验对比,发现在传统方法模型训练性能下降 13.4% 情况下,采用 SynCheck 框架仍能实现性能提升 4.3%。其核心差异在于,该框架通过动态去噪和智能化筛选,有选择性地利用这些数据,其性能提升本质上是通过数据筛选解决了合成数据的可靠性问题。

总体来说,该研究为生成式模型在无线感知领域的可靠应用开辟了新路径,使其真正成为扩展数据边界的有效工具,为无线大模型实现“数据自由”开启了一个好的开端。

许辰人团队的重点研究方向是多模态感知赋能科学与工程智能。未来,研究团队将聚焦在两个关键方向:一方面,他们计划进一步直接优化生成模型,把这些质量评估指标反向地指导生成模型的训练,从而直接改善生成模型;另一方面,他们还希望深度整合物理仿真器,构建基于电磁传播原理的仿真引擎,以减少对真实标注数据的依赖程度。

参考资料:

1.https://arxiv.org/abs/2506.23174

2.https://github.com/MobiSys25AE/SynCheck

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蓝营人事新动向!连胜文接棒,吴宗宪掌文宣

蓝营人事新动向!连胜文接棒,吴宗宪掌文宣

小陆搞笑日常
2025-11-03 07:38:46
揭秘:斯诺登在港澳潜逃时发生枪战,我军出动击毙多人,细节曝光

揭秘:斯诺登在港澳潜逃时发生枪战,我军出动击毙多人,细节曝光

叶天辰故事会
2024-03-13 11:25:14
总统府被包围!乌克兰人终于醒悟了:最大敌人并不是俄罗斯?

总统府被包围!乌克兰人终于醒悟了:最大敌人并不是俄罗斯?

花花娱界
2025-11-02 17:45:52
彻底玩脱了?荷兰安世半导体暂停供应晶圆,不料中国却甩出王炸!

彻底玩脱了?荷兰安世半导体暂停供应晶圆,不料中国却甩出王炸!

燕梳楼频道
2025-11-02 21:14:19
轰26+4+2!加盟火箭真好,杜兰特赛后动情了,乌度卡承认一个事实

轰26+4+2!加盟火箭真好,杜兰特赛后动情了,乌度卡承认一个事实

巴叔GO聊体育
2025-11-02 11:33:36
中国不想当老大,美国不想当老二!诺贝尔奖得主:这才是完蛋之处

中国不想当老大,美国不想当老二!诺贝尔奖得主:这才是完蛋之处

苏曼文史
2025-10-24 17:32:53
正式退出,张茹发声,官宣决定,李梦感同身受,李缘或也退出

正式退出,张茹发声,官宣决定,李梦感同身受,李缘或也退出

乐聊球
2025-11-02 09:26:37
甘肃一地众多市民使用简易工具淘金?周边商户:年初就开始,曾被政府叫停,近期随着河道清理出现回潮

甘肃一地众多市民使用简易工具淘金?周边商户:年初就开始,曾被政府叫停,近期随着河道清理出现回潮

都市快报橙柿互动
2025-11-02 18:52:52
在钓鱼岛问题上,中国对待日本的态度出现了明显的变化

在钓鱼岛问题上,中国对待日本的态度出现了明显的变化

窥史
2025-10-23 21:01:43
被遗忘的战役:20万德军血战190万苏军,杀伤110万,却打出了阴影

被遗忘的战役:20万德军血战190万苏军,杀伤110万,却打出了阴影

老闫侃史
2025-10-31 18:25:03
2-0创造历史:超770万奖金,重返世界第1,第5冠+第5冠+第23冠

2-0创造历史:超770万奖金,重返世界第1,第5冠+第5冠+第23冠

草根体育
2025-11-03 08:58:16
安德鲁,劣质基因隔代遗传的接盘侠

安德鲁,劣质基因隔代遗传的接盘侠

石辰搞笑日常
2025-11-02 03:56:42
小米YU9全面曝光,年轻人第一台“路虎揽胜”来了

小米YU9全面曝光,年轻人第一台“路虎揽胜”来了

科技头版Pro
2025-10-31 14:47:29
牺牲太大了!中国首个出舱女宇航员谈太空之旅:落地后路都走不了

牺牲太大了!中国首个出舱女宇航员谈太空之旅:落地后路都走不了

青途历史
2025-11-01 20:56:18
香港失业率创三年新高!专家:早死早超生!

香港失业率创三年新高!专家:早死早超生!

港港地
2025-11-02 15:25:41
蔡奇在人民日报撰文

蔡奇在人民日报撰文

澎湃新闻
2025-11-03 09:04:04
率队七连胜,亚历山大三节打卡14中8砍30分2板7助,罚球13中13

率队七连胜,亚历山大三节打卡14中8砍30分2板7助,罚球13中13

懂球帝
2025-11-03 07:50:07
400斤安禄山正熟睡,突然被阉人一刀剖开肚子,他睁大眼睛:家贼

400斤安禄山正熟睡,突然被阉人一刀剖开肚子,他睁大眼睛:家贼

掠影后有感
2025-10-31 09:01:34
另一个角度看清军的入关

另一个角度看清军的入关

尚曦读史
2025-11-01 22:20:06
这下好了,君合律所不仅上海人,全国人民都知道了!

这下好了,君合律所不仅上海人,全国人民都知道了!

夜深爱杂谈
2025-11-02 15:47:12
2025-11-03 10:39:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15809文章数 514256关注度
往期回顾 全部

科技要闻

马斯克为这事开骂:“他们什么都不懂”!

头条要闻

牛弹琴:中国元首告诉特朗普的3句话 值得美国细细体会

头条要闻

牛弹琴:中国元首告诉特朗普的3句话 值得美国细细体会

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

录音彻底揭露知名导演王家卫的体面

财经要闻

马斯克:未来5-6年传统手机与App将消失

汽车要闻

特斯拉成简配“鲶鱼”,中国品牌如何应对?

态度原创

本地
游戏
房产
手机
亲子

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

屯好铠玉!《怪物猎人:荒野》透露"巨戟龙"特殊机制

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

手机要闻

消息称真我 GT8 Pro 阿斯顿马丁 F1 限量版采用全套收藏级设计

亲子要闻

产后如何快速恢复“性”趣?宝妈必看!

无障碍浏览 进入关怀版