网易首页 > 网易号 > 正文 申请入驻

北大提出数据质量评估新标准,破解无线感知领域合成数据质量难题

0
分享至

北京大学许辰人教授团队与美国匹兹堡大学高伟教授合作,系统性地定义了无线感知领域合成数据的质量评估指标,提出了 SynCheck 框架。研究人员设计了具有普适性的、即插即用的数据筛选机制,能够确保训练过程中仅纳入高质量的合成样本。

该框架突破了智能家居或工业监测等小数据场景的瓶颈化难题。另一方面,其在跨场景泛化领域,具有更低的部署成本,更高的精度和更强的环境适应性。该研究为无线感知的实际落地,提供了一种在真实数据有限场景下的解决方案,并有望在数据合成后的质量验证接口、任务模型训练、场景适配等环节产生价值。

审稿人认为这项工作填补了现有研究的空白,且实验评估全面有力,对实际应用具有重要指导意义。其对该研究评价称:“这项研究针对合成无线数据质量评估这一独特而重要的问题,创新性地提出了亲和性与多样性的评估框架,并通过技术扎实的半监督学习框架有效提升了合成数据在下游任务中的实用性。”


(来源:该团队)

日前,相关论文以《数据自证其质:面向无线合成数据的质量导向利用方法》(Data Can Speak for Itself: Quality-guided Utilization of Wireless Synthetic Data)为题发表在预印本网站 arXiv[1],并获得了移动计算领域顶会 MobiSys 2025 的最佳论文奖。论文作者包括北京大学博士生龚晨、梁博、美国匹兹堡大学高伟教授和北京大学许辰人教授。


图丨相关论文(来源:arXiv)

与 AI 领域的丰富数据相比,无线感知领域的高质量开源数据集相对较少。主要原因在于:一方面,研究人员采集真实数据需要实际测量需要特定的设备;另一方面,数据受时间、空间变化等物理因素的影响,因此在有限场景下的实测难以覆盖真实世界的长尾分布。

随着技术的发展,生成模型(如 GAN、Diffusion Models)等新技术在图像和文本领域已展现出强大的能力。此前,已有研究者尝试将生成模型应用在无线感知领域,尝试用合成数据来补充真实数据。

然而,他们在直接应用生成模型时,面临领域特定的挑战:无线信号需要更强的物理可解释性,必须符合电磁波传播规律,例如菲涅尔区效应、多普勒频移等。因此,目前尚未有系统性的评估框架来量化合成数据的质量,以及它们在感知任务中的有效性,更缺乏与真实信号物理一致性的理论保障。


图丨对无线合成数据的质量评估和质量引导的利用(来源:arXiv)

研究团队希望通过建立可量化的无线领域数据质量标准,来解决将合成数据用于模型训练的可靠性问题。SynCheck 框架的核心思路是,在训练过程中动态优化合成数据的质量,而不是进行单次的筛选过滤。

具体来说:

首先进行半监督学习,将真实数据作为有标签数据,合成数据作为无标签数据,共同放入模型中训练。这样既能兼顾真实数据的准确性,又能发挥合成数据的规模优势。

第二步是动态评估和过滤。在训练过程中,模型会迭代地实时判断哪些合成数据是可信的。研究人员筛选出这些质量高的合成数据,并且只用这些数据参与监督式训练。同时,他们会及时删除那些标签错误或分布偏差较大的样本。


(来源:arXiv)

SynCheck 框架的主要创新点在于,训练和迭代筛选优化过程是同步进行的,可动态地对数据进行筛选和优化质量。它不依赖额外的人工规则,而是根据任务模型的置信度来进行判断。同时,也适用于不同的感知任务,并兼容各种各样的生成模型。

值得关注的是,该团队创新性地提出了亲和性(affinity)与多样性(diversity)两个指标,以将任务模型作为桥梁来衡量合成数据能增强真实数据的具体程度。具体来说,亲和性关注的是合成数据在每个类别内部是否足够接近真实数据,而多样性则关注合成数据是否足够广泛地覆盖真实数据的分布。

龚晨对 DeepTech 解释说道:“这是一种在无线感知领域不依赖于人工设计规则,且比较具有普适性的质量评估方法。我们不需要去理解这些信号的含义,它们直接面向需要合成数据的最终目标,适用于不同的感知任务,也不需要针对不同的生成模型做调整,最终提升目标任务的性能。”


图丨合成数据的质量量化(来源:arXiv)

传统方法由于直接使用合成数据,容易引起数据质量方面的缺陷。研究人员通过实验对比,发现在传统方法模型训练性能下降 13.4% 情况下,采用 SynCheck 框架仍能实现性能提升 4.3%。其核心差异在于,该框架通过动态去噪和智能化筛选,有选择性地利用这些数据,其性能提升本质上是通过数据筛选解决了合成数据的可靠性问题。

总体来说,该研究为生成式模型在无线感知领域的可靠应用开辟了新路径,使其真正成为扩展数据边界的有效工具,为无线大模型实现“数据自由”开启了一个好的开端。

许辰人团队的重点研究方向是多模态感知赋能科学与工程智能。未来,研究团队将聚焦在两个关键方向:一方面,他们计划进一步直接优化生成模型,把这些质量评估指标反向地指导生成模型的训练,从而直接改善生成模型;另一方面,他们还希望深度整合物理仿真器,构建基于电磁传播原理的仿真引擎,以减少对真实标注数据的依赖程度。

参考资料:

1.https://arxiv.org/abs/2506.23174

2.https://github.com/MobiSys25AE/SynCheck

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“这个春节还怎么过!”漏呀漏呀漏……70多岁上海阿婆,苦不堪言

“这个春节还怎么过!”漏呀漏呀漏……70多岁上海阿婆,苦不堪言

上观新闻
2026-01-31 11:29:04
缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

小虎新车推荐员
2026-02-01 05:45:13
难以置信!郑州网友哭诉公司年会抽中苹果17,奖品被顶头上司盯上

难以置信!郑州网友哭诉公司年会抽中苹果17,奖品被顶头上司盯上

火山诗话
2026-02-01 10:26:39
伴娘好看还是新娘好看​​​​

伴娘好看还是新娘好看​​​​

太急张三疯
2026-02-01 15:55:51
老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

快科技
2026-02-01 11:55:44
吃相越来越难看,都开始硬抢了!

吃相越来越难看,都开始硬抢了!

胖胖说他不胖
2026-02-01 10:00:18
深圳水贝“杰我睿”最新进展:有消费者收到兑付方案,20g黄金+9000多元余额,兑付本金4856元

深圳水贝“杰我睿”最新进展:有消费者收到兑付方案,20g黄金+9000多元余额,兑付本金4856元

每日经济新闻
2026-02-01 17:45:18
乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

史政先锋
2026-02-01 19:11:54
突发史诗级暴跌!工行、农行、中行、建行、交行等五大行,紧急出手!

突发史诗级暴跌!工行、农行、中行、建行、交行等五大行,紧急出手!

中国基金报
2026-02-01 15:36:35
两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

侠客栈
2026-02-01 13:50:37
印度暴发尼帕病毒疫情!医生提醒:侵袭呼吸系统和中枢神经系统,可能人传人,春节出行非必要不前往疫区

印度暴发尼帕病毒疫情!医生提醒:侵袭呼吸系统和中枢神经系统,可能人传人,春节出行非必要不前往疫区

封面新闻
2026-01-27 03:27:03
伊朗最高领袖哈梅内伊:如果美国挑起战争,这次冲突将不再局限于一地;美方发布“林肯”号航母在阿拉伯海接受补给视频

伊朗最高领袖哈梅内伊:如果美国挑起战争,这次冲突将不再局限于一地;美方发布“林肯”号航母在阿拉伯海接受补给视频

每日经济新闻
2026-02-01 21:46:27
总统是间谍?美国最新机密文件显示:特朗普是傀儡,早已被以色列收买

总统是间谍?美国最新机密文件显示:特朗普是傀儡,早已被以色列收买

不掉线电波
2026-02-01 15:52:15
马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

山河路口
2026-02-01 18:31:19
访日刚结束,斯塔默遭51%民众反对,高市早苗犯愁,700万亿还不上

访日刚结束,斯塔默遭51%民众反对,高市早苗犯愁,700万亿还不上

东极妙严
2026-02-01 21:18:04
萝莉岛上拆解儿童高达吃肉,这事儿怎么洗?

萝莉岛上拆解儿童高达吃肉,这事儿怎么洗?

韬闻
2026-02-01 13:46:13
台湾GDP靓眼   跃居亚洲第三

台湾GDP靓眼 跃居亚洲第三

跟着老李看世界
2026-02-01 11:44:55
绍伊古突然访华,一天内谈什么?四大焦点曝光!

绍伊古突然访华,一天内谈什么?四大焦点曝光!

华山穹剑
2026-02-01 20:29:38
官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

史行途
2026-01-30 09:43:04
郑爽完全变样了!抱孩子当街和张恒一家吵架,头发白了穿搭很邋遢

郑爽完全变样了!抱孩子当街和张恒一家吵架,头发白了穿搭很邋遢

叶公子
2026-02-01 18:05:30
2026-02-02 04:28:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16208文章数 514581关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

游戏
健康
旅游
本地
公开课

末期癌症玩家圆梦《毁灭战士》!id公开致敬

耳石症分类型,症状大不同

旅游要闻

春节必打卡10大榜单聚焦“京味年味”

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版