网易首页 > 网易科技 > 网易科技 > 正文

避开这些坑,一个实用的机器学习框架就会诞生

0
分享至

机器学习是一种数据驱动实现人工智能的方式。在机器学习框架设计上,没有普世的最好框架,只有最适合自身应用场景的框架。设计一个实用高效的机器学习框架,要考虑哪些具体因素?目前那些总价值超过8000万美元的开源框架,能否满足企业需求?要回答这些问题,可以先从人工智能专家的过往“踩坑”经验谈起。

从机器学习系统到“成熟商用”,有这7道门槛

门槛1:有效数据量快速增长

随着越来越多的数据被记录下来,大数据背景下的机器学习,计算效率成为核心问题之一。机器学习系统必须具备可扩展性,才能有效应对数据增长。

门槛2:机器学习算法-No Free Lunch

No Free Lunch是监督学习领域著名的定理,指的是没有可以解决所有问题的完美机器学习模型。不同目标场景要采用不同的机器学习算法。所以机器学习框架还需具备算法开发的友好性。

门槛3:数据科学家的稀缺性

人工智能需要对算法和业务问题都很精通的数据科学家,但好的数据科学家是稀缺的,因此机器学习解决方案要尽可能的“智能化”,降低对数据科学家对依赖。

门槛4:机器学习计算和传统ETL计算的差异性

1. 计算

对比于ETL相对“简单”的运算,机器学习算法对数据的运算更复杂,比如一些非线性模型需要密集的计算。所以实际中,不仅要考虑到不同计算资源的特性,同时还要调整计算模式,降低因分布式计算给通讯、同步、灾备等带来的overhead。

2. 通讯

很多机器学习算法在计算过程中会频繁使用到全局或者其他节点的信息,对网络吞吐和通讯延迟的 要求要远高于ETL任务。同时,很多机器学习任务对于一致性的要求要低于ETL任务,所以在系统的设计上可以使用放松的一致性要求。

3. 存储

ETL处理的是各种来源不同的数据,其中反复迭代运算较少机器学习算法反复迭代运算很多,有大量不断擦写的中间数据产生,对存储的使用效率、访问效率有着更高的需求。

4. 灾备和效率的权衡

ETL计算任务不同,机器学习计算任务流程相对复杂,中间状态较多,在较细的粒度上进行容灾会增加执行过程中的额外开销。因此在容灾策略和容灾粒度上,机器学习计算任务和ETL计算任务之间的权衡点不一样。

门槛5:资源差异性

相同的机器学习算法可能会在不同的资源、不同的环境下被使用,因此机器学习算法系统本身能够做更好抽象和设计,屏蔽底层资源的差异性,使开发部署更为方便。

门槛6:系统的开放性

机器学习系统要能够便于集成部署实际业务系统中。同时,因为多种多样的ETL平台产生机器学习所需要的数据,所以机器学习系统要能够开放地对接已有的业务ETL、决策系统。

门槛7: 大规模分布式机器学习系统的复杂性

大规模分布式机器学习系统涉及的环节很多,计算逻辑复杂,因此整个系统架构设计的清晰度、 执行过程的可理解性、执行的可追踪性、实际系统的可运维性是非常重要的。同时,在不同的数据规模下,权衡分布式 overhead和收益。

当今巨头科技公司纷纷推出开源机器学习框架,很大程度上降低了人工智能的研究门槛。但目前这些备受追捧的开源框架,真能满足企业完成实际复杂业务的挑战吗?答案可能并不乐观。因为,从根本上来说,目前最为流行的计算框架如Hadoop、Spark,其重点任务大多是ETL类计算。前文提到过,机器学习的计算任务相比于ETL计算有很多不同之处。此外,一些算法框架比如tensorflow等,比较注重研究上的易用性,算法上偏重于深度神经网络一类算法,从而在效率上有所舍弃。而另外一些注重生产应用的算法框架,特别是分布式框架,在算法二次开发上又捉襟见拙。

如何见招拆招,设计出实用的机器学习系统?

那么,设计一个实用的机器学习系统究竟要怎么做呢?这里,我们以第四范式的大规模分布式机器学习框架GDBT(General Distributed Brilliant Technology)为例。它的设计目标可以概括为高效、智能、易开发、易部署、易运维、易扩展、覆盖场景广泛。

1.高效

计算

根据计算硬件的不同特性GDBT采用不同版本的本地计算,尽可能利用好加速指令。同时考虑到不适所有任务都需要分布式执行,所以同时对分布式、单机运行都尽可能做到最优。

存储

不同的存储设备的价格、速度和容量不一样,GDBT要能适应不同的存储配置、最优化存储访问速度、存储使用效率。

网络

通过合理设计计算模式,调配网络通讯GDBT最优化网络通讯延迟、网络使用效率。

高效灾备

因为机器学习算法中间状态很多,为避免overhead问题,GDBT的灾备更加偏重于机器学习算法的核心参数。同时基于不同计算规模,制定不同灾备策略。

2.智能

算法智能

机器学习中特征工程和模型调参需要数据科学家对机器学习算法和实际业务有较深理解。因此,先进的机器学习系统需要提供自动或半自动特征工程,例如GDBT就提供包括自动特征生成、自动特征选择、特征自动组合在内的自动特征工程,以及自动模型调参。

运行智能

根据不同应用场景,GDBT可以自动适配运行方式,获得更高的运行效率。

3.易开发

GDBT提供工业级的开发者易用性,尽量对算法开发者屏蔽底层细节,提供对机器学习组件的良好包装,能够方便实现机器学习所需的各种分布式模式。GDBT上,只需要数百行代码,就可以实现逻辑回归、矩阵分解等算法的分布式版本。

4.部署&维护

GDBT支持多种平台,例如Yarn,Hadoop MR、MPI等,并方便跨平台迁移。它能够实时监控运行状态和进度、方便调试与错误跟踪。

5.覆盖广泛应用场景

通过重新设计、深度整合现有模型和算法,合理设计计算模式和流程,GDBT能够提供更加高效的符合实际应用场景的算法,比如GDBT上的算法能够兼顾离散特征和连续特征,最优化I/O和计算资源的使用效率。

相关推荐
热点推荐
郭德纲“沉睡千年的蛆”引爆舆论:讽刺艺术的边界在哪里?

郭德纲“沉睡千年的蛆”引爆舆论:讽刺艺术的边界在哪里?

胡严乱语
2025-12-13 15:07:35
峰回路转?利物浦上下公开挽留萨拉赫!进货?法鹰正谈判德乙神锋

峰回路转?利物浦上下公开挽留萨拉赫!进货?法鹰正谈判德乙神锋

足球侦探
2025-12-15 08:35:05
42+8!中国第一摇摆人!自曝拒绝活塞训练营合同

42+8!中国第一摇摆人!自曝拒绝活塞训练营合同

篮球实战宝典
2025-12-14 23:51:52
“肉车”泛滥,打工人崩溃:为什么路上全是肉车?

“肉车”泛滥,打工人崩溃:为什么路上全是肉车?

诗意世界
2025-12-14 11:35:43
大生意人:瑞麟的原型是曾国藩,李成的原型是陈玉成,古平原呢?

大生意人:瑞麟的原型是曾国藩,李成的原型是陈玉成,古平原呢?

流云天下
2025-12-14 21:26:39
700亿骗局曝光,专门收割有钱人,上海贵酒到底有多疯狂?

700亿骗局曝光,专门收割有钱人,上海贵酒到底有多疯狂?

毒sir财经
2025-12-14 23:15:34
胡志明警方突击“上海滩”卡拉OK,包厢内发现21名未成年女服务员

胡志明警方突击“上海滩”卡拉OK,包厢内发现21名未成年女服务员

越南语学习平台
2025-12-14 10:15:23
《经济学人》丨为什么除了上海和东京,许多亚洲特大城市令人痛苦

《经济学人》丨为什么除了上海和东京,许多亚洲特大城市令人痛苦

邸报
2025-12-14 11:52:28
莫雷加德:王楚钦这样出色的运动员因伤退赛,是所有人不想看到的

莫雷加德:王楚钦这样出色的运动员因伤退赛,是所有人不想看到的

懂球帝
2025-12-14 15:39:17
香港总决赛落幕,王励勤却开心不起来,因为无法接受这三个事实!

香港总决赛落幕,王励勤却开心不起来,因为无法接受这三个事实!

田先生篮球
2025-12-14 22:08:36
打成主场,天赋碾压全场高呼MVP,近20年最强状元一特质让人钦佩

打成主场,天赋碾压全场高呼MVP,近20年最强状元一特质让人钦佩

拾叁懂球
2025-12-14 14:26:31
4-0,62岁穆帅发威:率队14轮不败+逼近葡超前二,帕夫利季斯戴帽

4-0,62岁穆帅发威:率队14轮不败+逼近葡超前二,帕夫利季斯戴帽

侧身凌空斩
2025-12-15 03:58:17
拔火罐吸出来的瘀血,是体内的毒素?告诉你大实话,看完涨知识

拔火罐吸出来的瘀血,是体内的毒素?告诉你大实话,看完涨知识

全球军事记
2025-12-11 20:47:33
纵览热点 | 数名驴友无防护攀爬悬崖峭壁引关注,村镇回应:属未开发区域,峭壁深数百米十分危险,将加强劝导

纵览热点 | 数名驴友无防护攀爬悬崖峭壁引关注,村镇回应:属未开发区域,峭壁深数百米十分危险,将加强劝导

纵览新闻
2025-12-14 18:53:05
暴跌98%、停产关店!又一巨头败走中国,曾获比尔·盖茨投资

暴跌98%、停产关店!又一巨头败走中国,曾获比尔·盖茨投资

财经八卦
2025-12-13 19:50:42
阿隆索执教首次,姆巴佩、维尼修斯、罗德里戈、贝林同时首发

阿隆索执教首次,姆巴佩、维尼修斯、罗德里戈、贝林同时首发

懂球帝
2025-12-15 03:28:09
霍家基金会晚宴现场星光熠熠!邓亚萍、郭晶晶出席,宴席菜单曝光

霍家基金会晚宴现场星光熠熠!邓亚萍、郭晶晶出席,宴席菜单曝光

李健政观察
2025-12-14 12:03:13
47岁大姐在澳门当保姆14年,辞职时雇主给红包,回家一看不是钱

47岁大姐在澳门当保姆14年,辞职时雇主给红包,回家一看不是钱

卡西莫多的故事
2025-12-07 10:45:33
泰柬战火燃烧数日,柬埔寨为何孤立无援?只因三件事让亲者痛心

泰柬战火燃烧数日,柬埔寨为何孤立无援?只因三件事让亲者痛心

博览历史
2025-12-12 21:22:17
扎哈罗娃:俄罗斯对欧盟报复行动很快就到

扎哈罗娃:俄罗斯对欧盟报复行动很快就到

参考消息
2025-12-14 11:24:04
2025-12-15 09:07:00

科技要闻

平价数码产品,要和我们说再见了?

头条要闻

牛弹琴:2025年最勇敢的一个动作 背后是全世界的震惊

头条要闻

牛弹琴:2025年最勇敢的一个动作 背后是全世界的震惊

体育要闻

马刺终结雷霆:以勇猛,以文班亚马

娱乐要闻

何晴生前最大谣言!没有再婚嫁廖京生

财经要闻

新会陈皮乱象曝光:产地造假、年份速成

汽车要闻

硬核敞篷巴士?掷弹兵Game Viewer 2026年初量产

态度原创

艺术
亲子
家居
时尚
数码

艺术要闻

毛主席草书二幅惊艳亮相,能与古代书法巨匠争锋!

亲子要闻

这项运动能帮孩子长高,还对眼睛好,但4岁前真不建议学

家居要闻

温润质感 打造干净空间

女人过了60岁也别放弃变美!冬季看看这些穿搭,得体又大方

数码要闻

Intel酷睿Ultra 9 290K/270K Plus桌面CPU齐现身!频率更高、核心更多

无障碍浏览 进入关怀版
×