网易首页 > 网易号 > 正文 申请入驻

北大提出数据质量评估新标准,破解无线感知领域合成数据质量难题

0
分享至

北京大学许辰人教授团队与美国匹兹堡大学高伟教授合作,系统性地定义了无线感知领域合成数据的质量评估指标,提出了 SynCheck 框架。研究人员设计了具有普适性的、即插即用的数据筛选机制,能够确保训练过程中仅纳入高质量的合成样本。

该框架突破了智能家居或工业监测等小数据场景的瓶颈化难题。另一方面,其在跨场景泛化领域,具有更低的部署成本,更高的精度和更强的环境适应性。该研究为无线感知的实际落地,提供了一种在真实数据有限场景下的解决方案,并有望在数据合成后的质量验证接口、任务模型训练、场景适配等环节产生价值。

审稿人认为这项工作填补了现有研究的空白,且实验评估全面有力,对实际应用具有重要指导意义。其对该研究评价称:“这项研究针对合成无线数据质量评估这一独特而重要的问题,创新性地提出了亲和性与多样性的评估框架,并通过技术扎实的半监督学习框架有效提升了合成数据在下游任务中的实用性。”


(来源:该团队)

日前,相关论文以《数据自证其质:面向无线合成数据的质量导向利用方法》(Data Can Speak for Itself: Quality-guided Utilization of Wireless Synthetic Data)为题发表在预印本网站 arXiv[1],并获得了移动计算领域顶会 MobiSys 2025 的最佳论文奖。论文作者包括北京大学博士生龚晨、梁博、美国匹兹堡大学高伟教授和北京大学许辰人教授。


图丨相关论文(来源:arXiv)

与 AI 领域的丰富数据相比,无线感知领域的高质量开源数据集相对较少。主要原因在于:一方面,研究人员采集真实数据需要实际测量需要特定的设备;另一方面,数据受时间、空间变化等物理因素的影响,因此在有限场景下的实测难以覆盖真实世界的长尾分布。

随着技术的发展,生成模型(如 GAN、Diffusion Models)等新技术在图像和文本领域已展现出强大的能力。此前,已有研究者尝试将生成模型应用在无线感知领域,尝试用合成数据来补充真实数据。

然而,他们在直接应用生成模型时,面临领域特定的挑战:无线信号需要更强的物理可解释性,必须符合电磁波传播规律,例如菲涅尔区效应、多普勒频移等。因此,目前尚未有系统性的评估框架来量化合成数据的质量,以及它们在感知任务中的有效性,更缺乏与真实信号物理一致性的理论保障。


图丨对无线合成数据的质量评估和质量引导的利用(来源:arXiv)

研究团队希望通过建立可量化的无线领域数据质量标准,来解决将合成数据用于模型训练的可靠性问题。SynCheck 框架的核心思路是,在训练过程中动态优化合成数据的质量,而不是进行单次的筛选过滤。

具体来说:

首先进行半监督学习,将真实数据作为有标签数据,合成数据作为无标签数据,共同放入模型中训练。这样既能兼顾真实数据的准确性,又能发挥合成数据的规模优势。

第二步是动态评估和过滤。在训练过程中,模型会迭代地实时判断哪些合成数据是可信的。研究人员筛选出这些质量高的合成数据,并且只用这些数据参与监督式训练。同时,他们会及时删除那些标签错误或分布偏差较大的样本。


(来源:arXiv)

SynCheck 框架的主要创新点在于,训练和迭代筛选优化过程是同步进行的,可动态地对数据进行筛选和优化质量。它不依赖额外的人工规则,而是根据任务模型的置信度来进行判断。同时,也适用于不同的感知任务,并兼容各种各样的生成模型。

值得关注的是,该团队创新性地提出了亲和性(affinity)与多样性(diversity)两个指标,以将任务模型作为桥梁来衡量合成数据能增强真实数据的具体程度。具体来说,亲和性关注的是合成数据在每个类别内部是否足够接近真实数据,而多样性则关注合成数据是否足够广泛地覆盖真实数据的分布。

龚晨对 DeepTech 解释说道:“这是一种在无线感知领域不依赖于人工设计规则,且比较具有普适性的质量评估方法。我们不需要去理解这些信号的含义,它们直接面向需要合成数据的最终目标,适用于不同的感知任务,也不需要针对不同的生成模型做调整,最终提升目标任务的性能。”


图丨合成数据的质量量化(来源:arXiv)

传统方法由于直接使用合成数据,容易引起数据质量方面的缺陷。研究人员通过实验对比,发现在传统方法模型训练性能下降 13.4% 情况下,采用 SynCheck 框架仍能实现性能提升 4.3%。其核心差异在于,该框架通过动态去噪和智能化筛选,有选择性地利用这些数据,其性能提升本质上是通过数据筛选解决了合成数据的可靠性问题。

总体来说,该研究为生成式模型在无线感知领域的可靠应用开辟了新路径,使其真正成为扩展数据边界的有效工具,为无线大模型实现“数据自由”开启了一个好的开端。

许辰人团队的重点研究方向是多模态感知赋能科学与工程智能。未来,研究团队将聚焦在两个关键方向:一方面,他们计划进一步直接优化生成模型,把这些质量评估指标反向地指导生成模型的训练,从而直接改善生成模型;另一方面,他们还希望深度整合物理仿真器,构建基于电磁传播原理的仿真引擎,以减少对真实标注数据的依赖程度。

参考资料:

1.https://arxiv.org/abs/2506.23174

2.https://github.com/MobiSys25AE/SynCheck

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗谈判细节,表示同意不发展核武器,“伊朗不希望发生战争”

伊朗谈判细节,表示同意不发展核武器,“伊朗不希望发生战争”

铁锤简科
2026-02-02 23:20:04
男子转账800元被认定嫖娼拘留,他起诉警方却两度败诉!

男子转账800元被认定嫖娼拘留,他起诉警方却两度败诉!

没有偏旁的常庆
2026-02-01 20:14:55
人活多久,看脖子就知道?寿命长的人,脖子一般有这5个特征

人活多久,看脖子就知道?寿命长的人,脖子一般有这5个特征

大象新闻
2026-01-08 14:05:04
青岛知名民企迈出重组关键一步,昔日“山东首富”退出股东名单

青岛知名民企迈出重组关键一步,昔日“山东首富”退出股东名单

山东财经报道
2026-02-02 12:21:32
整天开会有啥必要啊?

整天开会有啥必要啊?

北京老付
2026-01-20 10:59:33
太狠了!趁着极寒天气下死手?泽连斯基下令宣布能源紧急状态!

太狠了!趁着极寒天气下死手?泽连斯基下令宣布能源紧急状态!

妙知
2026-02-02 18:23:54
又惹麻烦!赵睿,你可是中国男篮队长,咋啥话都敢说,让老郭咋办

又惹麻烦!赵睿,你可是中国男篮队长,咋啥话都敢说,让老郭咋办

萌兰聊个球
2026-02-02 13:32:35
31分+56分+34分!历史首人!这就是他能拿5年2.7亿顶薪美金的原因

31分+56分+34分!历史首人!这就是他能拿5年2.7亿顶薪美金的原因

篮球扫地僧
2026-02-02 23:52:46
“彩电一哥”康佳崩了!巨亏126亿,发生了什么?

“彩电一哥”康佳崩了!巨亏126亿,发生了什么?

说财猫
2026-02-02 20:37:08
上海男篮拒绝输球!全力击败广东宏远,李添荣回归,央视直播

上海男篮拒绝输球!全力击败广东宏远,李添荣回归,央视直播

体坛瞎白话
2026-02-02 14:58:21
大S雕像邻居是高以翔!石碑「藏具俊晔催泪告白」 设计理念曝光

大S雕像邻居是高以翔!石碑「藏具俊晔催泪告白」 设计理念曝光

ETtoday星光云
2026-02-02 16:20:05
爱泼斯坦派对被曝出过人命,已故知名主持人遭指控勒死年轻女孩

爱泼斯坦派对被曝出过人命,已故知名主持人遭指控勒死年轻女孩

译言
2026-02-01 05:56:46
3天反转大戏!伊朗官宣军演遭美军警告,转头否认:媒体写错了

3天反转大戏!伊朗官宣军演遭美军警告,转头否认:媒体写错了

老马拉车莫少装
2026-02-02 19:29:52
西部排名又乱了:快船创NBA奇迹,火箭收大礼,4队排名互换

西部排名又乱了:快船创NBA奇迹,火箭收大礼,4队排名互换

篮球大视野
2026-02-02 16:20:17
央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

西门老爹
2025-12-16 15:35:31
在农村见过最离谱的事情是什么?男女关系的开放程度让人目瞪口呆

在农村见过最离谱的事情是什么?男女关系的开放程度让人目瞪口呆

夜深爱杂谈
2026-01-06 20:51:44
上海飞迪拜一航班滑行前数名乘客接连下机,飞机延误2小时后起飞,乘客称听到广播“有人身体不适”

上海飞迪拜一航班滑行前数名乘客接连下机,飞机延误2小时后起飞,乘客称听到广播“有人身体不适”

黄河新闻网吕梁频道
2026-02-02 09:19:11
本命年不穿红,祸事找上门"2026属马人需慎穿,只因老祖宗早已解释

本命年不穿红,祸事找上门"2026属马人需慎穿,只因老祖宗早已解释

古怪奇谈录
2026-02-02 10:06:33
随着山东5分败天津!广厦输吉林6分,2弱旅爆冷,最新积分榜大变

随着山东5分败天津!广厦输吉林6分,2弱旅爆冷,最新积分榜大变

老吴说体育
2026-02-02 21:48:02
属狗人,近期将会有望好运缠身,福禄双全,正财大旺,偏财大好!

属狗人,近期将会有望好运缠身,福禄双全,正财大旺,偏财大好!

糖逗在娱乐
2026-02-02 15:50:34
2026-02-03 03:43:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16213文章数 514584关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

江苏在建大桥垮塌致2死3失联 现场画面公布

头条要闻

江苏在建大桥垮塌致2死3失联 现场画面公布

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

家居
本地
旅游
公开课
军事航空

家居要闻

现代几何彩拼 智焕童梦居

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

旅游要闻

解锁勐泐 4 大玩法,读懂真正的傣家风情!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版