网易首页 > 网易号 > 正文 申请入驻

npj: 实验数据不够? 数据增强帮你凑

0
分享至

近年来,信息学与新材料相结合的科学发现如雨后春笋般涌现。机器学习方法在这些研究中扮演了关键角色。一般而言,在保证数据质量的前提下,训练数据集越大,训练后的机器学习模型越精确。对于深度神经网络来说尤其如此,当使用大量的数据进行训练时,神经网络具有卓越的预测性能。因此,一些加速数据积累的方法,如高通量计算和高通量实验,已经被发展用来建立大型数据库。然而,在许多材料研究中,特别是对于新材料,我们仍然面临着缺乏高质量数据来训练可靠的机器学习模型的困境。主要的障碍来自于收集实验数据(真实数据)的过程困难且耗时。虽然计算数据的成本可能比实验数据低,但在材料科学的许多应用中,这两类数据之间仍然存在很大的差距。

来自北京科技大学的班晓娟教授和黄海友研究员等人开发了一种新的基于迁移学习的数据增广策略来解决材料数据挖掘中小数据或数据不足的困境,这种策略实现了计算模拟数据和实验数据(真实数据)的转换和融合,成功扩充了训练数据,仅根据一小批实验数据就可以建立性能更好的机器学习模型。在材料科学研究中,模拟计算是一种高效的数据采集方法。但由于模拟数据和真实数据存在数据分布差异,仅将模拟数据混合到真实数据中,可能对机器学习模型产生负面的影响。该研究提出利用生成对抗网络减少域间差异,以纯铁晶粒的语义分割任务为例,通过模拟仿真模型获得大量模拟图像,同时使用部分真实图像构建和训练风格迁移网络模型,再实现模拟图像到真实图像的转换,最终生成大量的具有模拟图像晶粒结构和真实图像纹理信息的合成图像,成功提高了机器学习模型的预测性能,降低了对大量真实数据的依赖。

该文近期发表于npj Computational Materials 6: 125 (2020),英文标题与摘要如下,点击https://www.nature.com/articles/s41524-020-00392-6可以自由获取论文PDF。

Data augmentation in microscopic images for material data mining

Boyuan Ma, Xiaoyan Wei, Chuni Liu, Xiaojuan Ban, Haiyou Huang, Hao Wang, Weihua Xue, Stephen Wu, Mingfei Gao, Qing Shen, Michele Mukeshimana, Adnan Omer Abuassba, Haokai Shen & Yanjing Su

Recent progress in material data mining has been driven by high-capacity models trained on large datasets. However, collecting experimental data (real data) has been extremely costly owing to the amount of human effort and expertise required. Here, we develop a novel transfer learning strategy to address problems of small or insufficient data. This strategy realizes the fusion of real and simulated data and the augmentation of training data in a data mining procedure. For a specific task of grain instance image segmentation, this strategy aims to generate synthetic data by fusing the images obtained from simulating the physical mechanism of grain formation and the “image style” information in real images. The results show that the model trained with the acquired synthetic data and only 35% of the real data can already achieve competitive segmentation performance of a model trained on all of the real data. Because the time required to perform grain simulation and to generate synthetic data are almost negligible as compared to the effort for obtaining real data, our proposed strategy is able to exploit the strong prediction power of deep learning without significantly increasing the experimental burden of training data preparation.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川首富变“首富”:欠了近千亿,一年利息18亿,每天要还500万

四川首富变“首富”:欠了近千亿,一年利息18亿,每天要还500万

说历史的老牢
2025-11-10 10:36:03
官方:央视频、央视体育客户端将转播熊猫杯中国U22vs越南U22

官方:央视频、央视体育客户端将转播熊猫杯中国U22vs越南U22

懂球帝
2025-11-11 18:11:15
1638天的想念!梅西:本来想在巴萨踢一辈子,没能以梦想方式离开

1638天的想念!梅西:本来想在巴萨踢一辈子,没能以梦想方式离开

奥拜尔
2025-11-11 20:35:14
高市早苗为“台湾有事”发言降温:承认言辞失当,今后将谨慎

高市早苗为“台湾有事”发言降温:承认言辞失当,今后将谨慎

面包夹知识
2025-11-11 14:10:23
四川阿坝州双江口水电站红旗桥发生垮塌,当地回应:前一日发现裂缝后交通管制,无伤亡

四川阿坝州双江口水电站红旗桥发生垮塌,当地回应:前一日发现裂缝后交通管制,无伤亡

大风新闻
2025-11-11 20:19:05
“一块布”1299元起,苹果与三宅一生合推新配件iPhone Pocket

“一块布”1299元起,苹果与三宅一生合推新配件iPhone Pocket

界面新闻
2025-11-11 19:55:30
今天起,全面启动改造!进站有调整

今天起,全面启动改造!进站有调整

上观新闻
2025-11-11 14:18:21
何穗晒照,不用上班住大别墅超惬意,产后母乳喂养身材变化不大

何穗晒照,不用上班住大别墅超惬意,产后母乳喂养身材变化不大

八怪娱
2025-11-11 16:27:35
骤降!江苏气象发布:0℃以下!

骤降!江苏气象发布:0℃以下!

江苏警方
2025-11-11 20:35:25
张雪峰演唱会风波升级,知情人曝其已离婚5年,本人回应!

张雪峰演唱会风波升级,知情人曝其已离婚5年,本人回应!

古希腊掌管松饼的神
2025-11-11 22:45:00
广州豹主帅:我们和铜梁龙同积60分却没能冲超,多少有点遗憾

广州豹主帅:我们和铜梁龙同积60分却没能冲超,多少有点遗憾

懂球帝
2025-11-11 09:44:05
相当于20个三峡大坝?外媒已经发现,中国悄悄在沙漠里干了件大事

相当于20个三峡大坝?外媒已经发现,中国悄悄在沙漠里干了件大事

毒sir财经
2025-11-11 20:31:06
从“刺破手”到去世,仅9天!医生:做这5件事前,务必要戴手套

从“刺破手”到去世,仅9天!医生:做这5件事前,务必要戴手套

DrX说
2025-11-10 14:24:15
功夫皇帝续命有反噬

功夫皇帝续命有反噬

毒舌扒姨太
2025-11-11 22:47:20
女生穿成这样去健身房,真的合适吗??

女生穿成这样去健身房,真的合适吗??

健身厨屋
2025-10-20 12:22:34
不愧是HBO,又拍出一部良心美剧

不愧是HBO,又拍出一部良心美剧

来看美剧
2025-11-11 19:49:03
余嘉豪14分浙江挺进决赛,四川2000万打水漂是篮球的胜利

余嘉豪14分浙江挺进决赛,四川2000万打水漂是篮球的胜利

李广专业体育评论
2025-11-11 18:00:23
上海专家发现:吃甜食的老人,健康指数是吃蔬菜的人的8倍不止?

上海专家发现:吃甜食的老人,健康指数是吃蔬菜的人的8倍不止?

霹雳炮
2025-10-17 21:31:29
中纪委:这些津补贴发不得

中纪委:这些津补贴发不得

审计之家
2025-11-10 09:02:58
这场输得不冤!杨鸣谈辽粤大战:希望大家记住辽宁曾经辉煌过

这场输得不冤!杨鸣谈辽粤大战:希望大家记住辽宁曾经辉煌过

狼叔评论
2025-11-11 22:34:41
2025-11-11 23:28:49
知社学术圈 incentive-icons
知社学术圈
海归学者发起的学术交流平台
3577文章数 107084关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

上海阿姨存了近30年的钱提不出傻眼 银行:找不到底根

头条要闻

上海阿姨存了近30年的钱提不出傻眼 银行:找不到底根

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

旅游
数码
教育
公开课
军事航空

旅游要闻

黔东南:规划先行 “一张蓝图”锚定目标奋勇前进

数码要闻

网易《永劫无间》集成英特尔XeSS 2.1,多平台提升游戏性能

教育要闻

北京10所学校!教育部公示最新名单

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

空军发布重磅视频 多款新型战机亮相

无障碍浏览 进入关怀版