网易首页 > 网易号 > 正文 申请入驻

5年前曾对标谷歌Kaggle,中国数据科学产品如何炼成?

0
分享至

原创:谭婧

人类正从IT走向DT(Data Technology),这是个大背景。

企业处在数据产品和AI产品的红海,想活命就必须手持一本《AI避坑逃生指南》。

个人处在竞争与内卷的浪潮,数据思维和工具是护身符。

在上海市徐汇区虹漕路77号C8,我见到了和鲸科技创始人范向伟与首席产品官殷自强。

这是一家拥有近15万注册数据科学家社区的公司,这是一家在数据科学的江湖里无论如何也不会错过的公司。

我们曾经从2017年就开始“聊天”。

这次只是,无数次中的一次。

只是这次,忠实地做了记录。

和鲸早期网站

出发时,和鲸只是一家被称作“对标谷歌Kaggle”的公司。

到如今,和鲸是一家“走通”从竞赛到社区,再到产品的公司。

在中国,乃至全球,这条路,都是独一无二的。

彼时,美国有,中国抄。

那一轮,投资人拿和鲸和Kaggle做中美对标,数据竞赛玩家拿“中国版Kaggle”指代和鲸。

Kaggle是什么?

是全球最大的数据科学技术分享社区(在线分享代码、项目和数据集等),创立于2010年。“Kaggle大神”是数据科学竞赛界顶礼膜拜的江湖称谓,可见其地位之显赫。

2017年,Kaggle被谷歌收购,宣布收购消息是彼时谷歌云首席科学家李飞飞。消息漂洋过海,范向伟耳边都是:“卖给BAT,财富就自由”。

1.Kaggle被收购上岸,和鲸去向何方?

范向伟不想“卖”公司,因为他一开始就没有“抄”。办竞赛、搭平台、建社区、出产品,全套拳法,天人合一。

到今天,真相大白了。因为没得抄了,反而能看出来谁在踏踏实实做数据科学的产品。

2016年的创业团队

既然不被收购,那接下来,路在何方?

这个问题,范向伟这几年应该被问了无数次。

当年,有人说Kaggle可以推出SaaS产品,因为抓住了一群独特的、技术含量极高的、小众的群体。这群人的需求,比中情局的情报还珍贵。

四年过去了,Kaggle始终没有迈出这一步。被误称为“中国版Kaggle”的公司却做到了。

SaaS产品“数据科学云端协作工具”,并非诞生美国硅谷车库,而诞生在中国人自己的数据科学社区。如果它有口号的话,估计会和熊猫、雪豹、金丝猴“撞稿”:“我们诞生在中国。”

彼时,数据化浪潮开天劈地,数据竞赛风起云涌,范向伟从上海交通大学统计系的教室里缓步走出。他并不热心于完成硕士学业,而是心心念念数据竞赛。

兴趣是最好的开始,而同行者最是惺惺相惜。社区就是吸铁石,把同类人“吸”在一起。

和鲸早期网站

数据竞赛社区高手云集,人气高,思路广,不乏大量活跃者,贡献算法、案例、数据集,吸引更多数据人才,武林高手齐聚光明顶,围攻“挑战性数据问题”。

数据竞赛社区中国不止一家,阿里巴巴、百度都有,是不是论规模,定输赢?范向伟的答案是否定的。和鲸不只是数据竞赛举办方。

别人仅仅是办一场活动,和鲸团队则在打磨产品——先做竞赛系统,再把整个竞赛系统SaaS化。他们做到了从人力运营转换到竞赛产品。

范向伟说:“多年前,比赛客户就开始自办比赛了,我们只提供竞赛产品。比如华东师范大学,就是用和鲸的比赛系统直接办比赛。”

演化与进化都是悄然发生的。歌手唱:《想爱谁你就去爱谁》

范向伟说:“想办竞赛你就去办竞赛”,下半句是:“给你工具就行了。”

中国移动、中国电信、南方电网、中华医学会、鹏城实验室、北京医保局都来找和鲸办数据竞赛,范向伟拿出产品——数据竞赛管理平台。

一面办比赛,一面产品化。这是一件很有趣的事儿。

数据竞赛不崇尚孤胆英雄,团队作战更为常见。一起写代码,让“协作”成为参赛选手的刚需。

从那时开始,像种子一样的“协作”产品理念,已经发芽了。数据竞赛系统突出竞赛,数据科学云端协作工具突出协同,两个产品的底层模块有共同之处。

首席产品官殷自强说:“SaaS化是因为有抓手,我们才有机会摸索产品化的道路。”和鲸社区打磨产品的方法是独一无二的,类似开源软件的方法论,千手捉虫(bug)快,和真实需求的距离最近。

“有多近?”

“和鲸团队的办公室,是距离中国数据科学竞赛比赛现场最近的地方。”

打磨,是SaaS产品的必由之路。

殷自强说:“数据竞赛的价值是什么?这个问题我们思考了五年,这五年来,我们办了100多场比赛,100个不同的场景,100家不同的机构,处理100个人工智能需求,100个机器学习需求,共性在哪?”

“直接给到客户的,相当于为客户做定制开发。某一模块可能只是客户唯一需求。对于高速迭代的工具平台,这种先定制开发,再产品化的模式会遇到很大的挑战。”殷自强说。

“和鲸的做法是,某个产品模块上新,让社区先使用。”

社区,是和鲸得天独厚的宝地,是孙悟空的花果山,是哪咤的陈塘关。

“比赛结束,一切都结束了,那是活动营销公司的生意。” 殷自强补充说。

这时候,有人质疑,是不是和鲸的产品,只用于数据竞赛?

答案并不是。

产品要在场景无数次验证大规模的需求,数据竞赛就是这样的场景,证明产品是可以支撑千人同时在线编程。若论同时使用产品的人数,一家普通公司不可能比社区里的人多。所以,和鲸的产品对客户的服务,变成了降维满足客户需求。

和鲸社区里的各色需求都被提炼成产品的迭代需求。这既是一种“折磨”,也是一种“幸福”。折磨受得越多,产品越成熟。很多时候,在和鲸办公室里看见研发团队谁的神情最焦灼,那人便是殷自强。

但是他说这句话的时候充满自(fan)信(er)心(sai):“从来没有碰到过哪个公司的并发,把我们给卡住了。”

2. 准确判断AI的技术趋势

数据与AI的发展既强势,又混沌。做数据和AI产品要对主流技术趋势敏感,有判断力。

用范向伟的话说就是:“数据科学已经发展到第三阶段(3.0),数据类型、基础设施、分析工具和工程任务中的行为,发生巨大变化。” 一个软件版本用N年的时代,已经一去不复返了。

殷自强自问自答:“快速扩容是一个里程碑。10台变成100台,1000台变成10000台,这种变化不能影响服务。支持大规模工程的能力,业界迟早要有,且大家都会去选最好的。这件事情,为什么不是我们来做?”

当K8s刚出1.0版本的时候,CTO和技术团队敏锐地关注了。

第一是发现大厂都选K8s,主流的大厂进来,需求迅速变成现实。第二K8s表现强势,刚出来的时候还有一个叫Swarm的一套技术,也能解决弹性控制的问题,但还是被K8s快速淘汰掉了。第三K8s是开源的。人工智能界的好东西,很多都开源了。 判断结论有了:K8s有优势,会带来一波变化,那就抓住它。

产品好是一个大概念,有很多“诀窍”是外行人难以察觉的。

3.SaaS产品,不唯技术论英雄

江湖有一种迷信,似乎只要算法高超,就胜券在握。但是,传统机器学习算法和深度学习算法各有优势,各有用途。

大规模深度学习已是贵族游戏了,只有工业界的头部大公司才可以承受,鲤鱼跃龙门般的高门槛限制了创新探索和整体发展。比起深度学习,数据分析“身价平平”。

但是,江湖有云,欲练上乘剑法,不限招式多寡。

《倚天屠龙记》当中,孤鸿子和杨逍比武,杨逍夺走孤鸿子的倚天剑又扔还。杀伤力不大,侮辱性极强。杨逍拿着剑冷笑道:“倚天剑,好大的名气!在我眼中,却如废铜废铁一般!”

孤鸿子对兵器盲目迷信。杨逍就不信这个邪。

算法和产品都是工具,工具的存在,是为了解决问题。

在“解决问题”这个终极任务面前,人的智慧极为重要,不能过分夸大工具的威力。

范向伟说:“我们判断数据分析的场景价值更大一些,或者是说,要做AI,首先要从数据分析起步。单独看技术难度,数据分析肯定简单,但是不能说价值低,要做好数据分析,一样充满挑战,需要发掘人的价值、解决人的问题。”

倚天剑不能击败所有对手,深度学习也不能。

范向伟认为,在企业中,最难处理的问题,永远是人的问题。他坚信,人是一切问题的根源,也是一切办法的支点。

所以,当和鲸团队意识到这个问题的重要性的时候,产品逻辑了然于胸——数据科学云端协作工具,也就是和鲸的ModelWhale。

他说:“数据科学家彼此之间的协同,是权利责任、资源分配、分工协同、过程追踪、成果整合的问题。产品定位,立足于此。”

“人才和管理,是数据产品和AI产品落地过程中隐形大坑。”这句话应该写在《AI避坑逃生指南》的第一页。

明枪易躲,暗坑难防。

近几年,最知名的数据产品,莫过于数据中台。一个数据中台的实施与落地,牵扯企业组织变革、资源变革、流程变革……一场变革尚且穷尽其力,如此多的变革,让一款产品,难负其重。

这是数字化改革的“深水区”,触动了很多人的深层次利益。

某公司中层干部的内心独白是:“我们部门的私有数据,是私有资产,为啥要和隔壁部门共享。年终奖拱手让人嘛?”

数据工具的先进性,并不能解决人类思维的惯性。

产品逻辑的背后,是产品理念、企业的理念,以及创始团队的信仰。数据协作工具这一类型的产品猛地听起来,并不容易理解。而范向伟则认为这是最好的“工具”。

“数据思维”狠狠告别“原始年代”,也是个体的必然选择。培训拯救不了焦虑,数据科学唯有从动手开始。

殷自强说:“我们也在做拖拉拽系统,降低门槛,降低畏惧情绪。”“同时,也思考用户快速搭建分析框架(框架包括,观察数据分布、提取特征、测试模型、评估效果),完善代码,并调整成能提高模型准确率和业务相关性的成果(报告或模型)。”

门槛的高度是一个比较值,不是一个绝对值。自2017年起,范向伟就一直拿学英语这件事情打比方。

他说:“七八十年代,国民整体英语水平偏低,英语翻译很吃香。近十年,英语普及得较好,英语能力不再是一种稀缺能力。”

以前,学英语。

如今,学数据科学。

范向伟也谈到了5年以来的观察:

“5年前,用户绝大多数是计算机专业背景,因为编程是敲门砖。现在,很多社会科学学院、大气科学学院、商学院、医学院背景的人已经离不开数据科学的工具了。”

这个变化,符合几年前他的判断。

他说:“我们跟随行业的脚步,很多人在社区里成长,努力培养数据思维,学以致用。和鲸团队不相信,只靠类似AI全家桶的产品,就能解决产业里无法穷尽的问题。”

将视野放宽到行业,那些做数据科学产品与AI产品的中国SaaS厂商,帮客户把算法都搞定了,变成一个普通业务员工能去用的工具。

范向伟认为:这是过度“封装”,容易陷入局部最优的陷阱,长期看来,难以迭代,拓展和复用。

企业业务是动态变化的,数据的用法是动态变化的。

有,且只有:业务员越具备数据思维的时候,越利用得好数据,才会把数据的价值渗透到毛细血管级别的场景里面去。

《AI避坑逃生指南》认为:定位数据与人工智能类的企业级产品,有两个大坑。

一号坑位

工具类的产品都是赋能千行百业的,石油、电力、交通等,大多数情况下创业者自己不是核心用户,你满足的是别人的需求,无法得知客户的真实需求,容易踏进主观臆断的坑。

二号坑位

订单合同金额较高,碰到大的项目,客户必定有定制化的需求,标准化产品卖不进去。屈从定制,团队和人力就搭进去了,容易踏进人力资源外包公司的坑。

今天的和鲸,是国家气象信息中心国家级工程——气象大数据云平台(“天擎”)数据挖掘分析系统支撑方。和鲸做对了什么?第一,洞悉了客户需求的“水晶球”,第二,做到了产品通用性的厚积薄发。

(完)

《亲爱的数据》出品

更多阅读:

1. 七分之一在线评论都有假,人工智能救一把?

2. 清华系创企RealAI:独家“隐私保护机器学习”技术,全球首款编译级产品

3. 世间可有“最低订单IT成本”?京东颜伟鹏的《善战兵法》

4. 揭秘AI 公司盈利“生意经”,竹间智能CEO简仁贤的AI产品化和工程化

5. 难倒刘强东的奥数题,京东智能供应链解开了

6. 专访商汤科技联合创始人林达华丨一名AI人才,需要多少栽培?

随手点赞(这里应该有一个小桃心)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他身高不足160cm,6年半连杀45人,专挑情侣下手,连肛门都不放过

他身高不足160cm,6年半连杀45人,专挑情侣下手,连肛门都不放过

东北不拜
2024-05-10 18:03:37
西媒:为防止斯威夫特演唱会泄密,皇马工作人员均无法进入伯纳乌

西媒:为防止斯威夫特演唱会泄密,皇马工作人员均无法进入伯纳乌

直播吧
2024-05-28 02:57:04
安徽黄金回收31克变15克后续:通报已出,双方就赔偿达成一致

安徽黄金回收31克变15克后续:通报已出,双方就赔偿达成一致

莆农阿
2024-05-27 20:24:39
53岁女港星内地农村走穴,唱歌难听还笑场,出场费垫底仍遭嫌弃

53岁女港星内地农村走穴,唱歌难听还笑场,出场费垫底仍遭嫌弃

全球劳斯机
2024-05-26 09:24:51
歌手2024:官方爆料后,孙楠评论区彻底沦陷,他的口碑为何这么差

歌手2024:官方爆料后,孙楠评论区彻底沦陷,他的口碑为何这么差

娱乐的小灶
2024-05-27 23:03:38
4月份车企品牌销量排行,比亚迪超过大众与丰田之和,特斯拉落榜

4月份车企品牌销量排行,比亚迪超过大众与丰田之和,特斯拉落榜

财经老庄
2024-05-25 12:41:53
真的顶级!极品大长腿,完美腰臀!

真的顶级!极品大长腿,完美腰臀!

记录平远
2024-05-07 00:00:37
时间定了!明晚成品油零售价三连跌,5月28日柴油、汽油今日价格

时间定了!明晚成品油零售价三连跌,5月28日柴油、汽油今日价格

有料财经
2024-05-28 00:05:02
小鹏子品牌 MONA 首车尾部谍照曝光,有望命名为“想往 03”

小鹏子品牌 MONA 首车尾部谍照曝光,有望命名为“想往 03”

IT之家
2024-05-27 20:00:15
神车“最后一搏”,一台车救活整个公司!合资B级车,标配8AT仅售12万

神车“最后一搏”,一台车救活整个公司!合资B级车,标配8AT仅售12万

隔壁说车老王
2024-05-26 16:50:51
森林狼如果西决出局,将导致四大连锁反应:唐斯、戈贝尔肯定要散

森林狼如果西决出局,将导致四大连锁反应:唐斯、戈贝尔肯定要散

毒舌NBA
2024-05-27 11:27:26
黄仁勋携妻抵达中国台湾参加台北电脑展:群众高喊AI教父来了

黄仁勋携妻抵达中国台湾参加台北电脑展:群众高喊AI教父来了

快科技
2024-05-27 11:38:43
里程悲!俄军损失士兵突破50万,俄罗斯成为全球残疾人最多的国家

里程悲!俄军损失士兵突破50万,俄罗斯成为全球残疾人最多的国家

娱宙观
2024-05-26 09:49:13
医务人员薪酬将迎来大变革!有望重归职业初心

医务人员薪酬将迎来大变革!有望重归职业初心

康迅网
2024-05-27 16:55:51
专家评20大自由球员:詹姆斯居首乔治第二 哈登第四 水拉十五

专家评20大自由球员:詹姆斯居首乔治第二 哈登第四 水拉十五

直播吧
2024-05-28 02:34:11
头皮上总能摸到小疙瘩和脓包,或暗示4种疾病,别不当回事!

头皮上总能摸到小疙瘩和脓包,或暗示4种疾病,别不当回事!

DrX说
2024-05-27 11:31:01
“中国已经进入一个最缺德的时代”这是危言耸听?还是故意抹黑?

“中国已经进入一个最缺德的时代”这是危言耸听?还是故意抹黑?

影孖看世界
2024-05-05 15:21:40
水漫高架桥,鱼儿进家门!暴雨之下,合肥城内的水为何排不出去?

水漫高架桥,鱼儿进家门!暴雨之下,合肥城内的水为何排不出去?

优美生态环境保卫者
2024-05-27 17:19:01
WTT重庆赛来了,央视直播+奖金出炉,国乒11人参赛,机场照片流出

WTT重庆赛来了,央视直播+奖金出炉,国乒11人参赛,机场照片流出

体育大学僧
2024-05-27 10:54:36
美国派代表参加瑞士和平峰会,80多国代表将出席,中亚国家不参加

美国派代表参加瑞士和平峰会,80多国代表将出席,中亚国家不参加

山河路口
2024-05-27 10:58:07
2024-05-28 07:58:44
亲爱的数据
亲爱的数据
顺着技术写产业落地。
651文章数 219846关注度
往期回顾 全部

科技要闻

刘强东为何此时重新定义“兄弟”?

头条要闻

中日韩领导人会议取得"重大成果" 日韩媒体高度关注

头条要闻

中日韩领导人会议取得"重大成果" 日韩媒体高度关注

体育要闻

阿根廷一代神锋,击碎了沙特的金元足球梦

娱乐要闻

赵丽颖辟谣新恋情,林更新晒照显暧昧

财经要闻

郑裕彤家族撑腰 小赢科技撮合放贷大赚

汽车要闻

硬又没那么硬?体验为满足更多人需求的深蓝G318

态度原创

教育
游戏
健康
房产
艺术

教育要闻

二年级奥数,考场一片白卷,规律不好找

物华弥新:诗文执壶抽取价值分析!这会是乳鸭图受到的第三次暴击

晚餐不吃or吃七分饱,哪种更减肥?

房产要闻

大量宅地爆发上架!海口2大片区旧改,又要火力全开!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

无障碍浏览 进入关怀版