网易首页 > 网易手机 > 正文

TechCrunch国际创新峰会:百度的余凯

0
分享至

网易手机讯 由动点科技主办的TechCrunch国际创新峰会于11月19-20日在上海国际时尚中心秀场隆重举行。以下是百度深度学习研究院的常务副院长余凯先生给我们带来的百度创新大数据时代的深度学习。

余凯:今天非常高兴来到这里跟大家分享一下在百度我们做技术创新的一些经验和一些思考。今天的话题当然是关于创新,今天大部分话题都是关于业务模式的创新。我在这边讲的是技术创新,因为今天上午有一个嘉宾讲到,在中国产生自己从事的自主的技术创新是比较少的。听了这个话促使我改变了一下我今天的主题,所以我今天的题目本来是说从大数据时代的深度学习,我又专门加了一句,在这里的话我想分享一下在中国发生的事。



    我们知道移动互联网在改变很多事情,今天上午有嘉宾分享360的一个非常感人的非常酷的拍照。这确实发生了很深刻的变化。比如说8年前的话像这个画面里面展示的,当时是罗马教选举的结果要宣布,很多信众在教堂门口等待结果的发生。8年以后,好像这个世界发生了一个翻天覆地的变化,同样的事情在8年以后新的教皇诞生,也许是同样一批人,但是他们每个人都用互联网形成了数据的产生。无论是在大洋彼岸的美国,第一行的这三个公司现在都非常的成功,股值都很高,包括在中国的公司,比如说像蘑菇街、美丽说、美图秀秀,还有百度魔图,Camera360。
    大家看到,在动时代,比如对将来的穿戴式设备,人机交互是一个关键的问题,最自然的人机交互还是语音,所以大家投入最大的精力在语音交互。在中国的话也同样在发生,中国有科大讯飞是超过十年时间里面长期在语音识别这个领域耕耘,百度同样也是,我们去年4月份上市了自己自主研发的语音识别技术用于我们的移动搜索,到现在已经经历了好几代的产品更新。现在大家也公认,百度在中文语音识别里面做的是最顶尖的公司。在中文语音识别的准确率上我们跟国际同行比起来可以说是完全的不逊色。还有很多很多的东西很多很多的事情,这些事情的话,其实它一方面来讲的话使人机交互发生深刻的变化,但是另外一方面也都需要这种新的产品需要我们持续的研发,这些都是我们百度所关注的。
    最近这些年,人工智能的这些领域发生往前的推向前进的前进步伐加快了,很大程度上跟一个事情有关的这是百度的CEO参加一个数据挖掘的学术会议,它讲了9个技术挑战,希望学术界跟我们一起解决。第一个是OCR,就是在自然图片里面的字符识别。比如GLASS这样的穿戴设备的话,你知道客户在读什么内容,这里面有很大业务创新的想象空间。第二个是语音刚才讲了。第三个就是图像,图像的搜索,我们讲的图像搜索不是传统的以文搜图,而是视觉搜索。我拍一个照片,一个产品,我能够比价,能够找到在什么地方,能够知道用户的情况,这些的话都是有巨大的想象空间。所以今天我要谈的事情就是说,跟前面讲的所有的事情都有非常紧密的关系,也是推动这个领域往前发展。
    稍微讲一下这个技术,这波热潮是2006年开始的,当时多伦多大学的教授发表了这篇文章,这篇文章相当于吹响了深度学习革命的号角。到今天深度学习在技术领域的话已经相当的受到重视,比如说这是麻省理工学院的今年列出来的十大网络排名。过去的这几年里面我们很少看到一个学术界的研究成果这么快被工业界所认同,所有基于大数据的顶尖公司投入大的数据在里面,比如微软、谷歌、还有Faecbook。百度同样如此,我们在今年的1月份就宣布要成立百度历史上第一个研究院,就是百度我们第一次觉得有这么一个事情让我们足够的热情投入资源,建设我们的第一个基础研究机构,这个研究机构就是IDL。所以基本上来讲的话就是这种复杂的学习模型从大数据里面发挥找到它的价值。目前来讲我们研究院有两个方面的研究,一个在北京。我现在负责研究院的常务副院长,大家很关心,院长是谁,院长就是Rabin本人。
    这里不是我通常做报告的地方,什么叫深度学习,我解释一下,机遇学习可以说是在最近三十年的时间里面人工智能发展最核心的。机遇学习在过去长时间的发展过程,都是学习一些顶层的模型,我们现在开发深层模型,顾名思义就是它非常深,使我们更容易发现数据。深度学习跟我们人脑的结构有相当的相似程度,比如我们深度学习的模型放在图像上的话,它所获得的神经原的形象跟我们的人脑是非常非常一致的。不光是图象数据我们其他的也有一些发现。
    百度的深度学习我们干什么,我们知道我们是大量的搜索引擎,我们大量的分析互联网的数据,点击的数据等等这些都需要复杂的机遇学习模型,能够建模做预测。所以我们必需的希望深度学习,基于使用者去分析所有的事情,使我们的搜索引擎更加的智能。所以百度内部的话,实际上我们去年夏天就开始了深度学习的基础技术的研发,我们目前在语音、搜索广告等等都取得了巨大的进展。实际上在去年下半年的时候,年底的时候,我们就有5个不同的产品都已经上线了。跟大家分享一些具体的数据,我们深度学习我们去年11月份上线了深度学习模型,这是国内第一个应用在产品上的深度学习模型。在语音识别率的话大大提升,它相对错误率一下子降低了25%,这是非常非常了不起的一件事情。桐油OCR也是。还有一件了不起的事情,5月份我们广告上线了一个深度神经网络,使广告能够变得更加的精准,然后收入能够更加的就是持续增长的一个非常核心的技术。这可能是整个工业界第一次的一个深度学习的模型在这样一个非常大体量的商业产品上。
    稍微过一下,这是我们深度学习模型,有非常多的陈述,用在图象识别领域,这是另外一个深度学习模型。这是我们现在正在线上做的广告的CTR模型。这边的话是我们整个业界最常用的,我们现在叫第一代的CTR模型,这个模型到去年年底的时候基本上这个增长的非常快,到今年因为我们有一个新的机遇学习模型,所以我们现在整个广告的CTR已经进入到一个第二个长期的增长通道。因为我们持续的会去更新这个模型,使这个模型更加的完善。
    我们讲大数据,就是在百度里面我们有很多大数据,实际上我们图像的方面现在的训练数据是千万规模,千万级规模,明年的话肯定是亿级规模,这绝对是大数据,而且每天模型都在更新。我们知道,我们现在的宣传样本,每年是增长一个数量级,从去年到今年,从今年到明年,我可以非常准确的预测我们的数据增长规模。但是我们数据中心的投资是跟不上这个数字,这就是怎么样做平衡。我们最近内部做了一个用GPU和CPU做海量的神经网络的训练。基于这些大数据的模型,我们的这些技术比如说语音识别,其实已经应用在百度几乎所有的移动产品上面,包括通用的,还有垂直的一些搜索,还有输入法。大家可能关心,我们的语音识别究竟做的怎么样,这个的话是跟我们因特网来比较,我们比我们的竞争对手要显著高很多,尤其是令人振奋的是说,从我们去年4月份语音搜索第一次上线到去年年底的时候,实际上这个搜索量已经占10%的占比。这是移动输入法,在中国的话只有两家企业可以做移动的基于语音的输入法,一个是科大,一个是百度。这是我们语音的算法团队,今年百度两个百万美金的最高奖,语音团队非常光荣的获得其中一个。这也是第一次在我们公司内部一个基础研发团队获得这么一个奖。
    另外我再讲一个OCR,这里面有很多外国朋友来到上海,这是我一个朋友在上海拍的照片,他看到这个照片他懵了,他不知道什么意思,没有关系,我们可以用百度的翻译,你可以说中文或是英文,我们可以翻译成另外一种语言,另外你还可以拍照,拍照的话你可以,我们识别出就牛肉拉面,你说拉面的英文,等等这些非常有用,中国朋友到国外去,我们会持续投入翻译更多的语言,识别更多的语言,所以你到西班牙旅游也不会因为点菜犯愁。
    关于在图像方面的话我们还有其他的产品,比如说这是一款百度魔图,我们是在6月份上线了一个人脸识别技术,你拍一张自己的照片,我们可以找到跟你脸相似的一个人,这个非常成功,在很短的时间里面,在IOS的排行总榜上排名第一。这个也创造了百度移动产品的一个记录。这是我去年7月份访问谷歌,故谷歌收购的一个公司的教授谈,说我们做这样的一个产品,这位老先生对这个结果非常的满意。他立刻就分享给了他的老婆。有的时候我们返回的结果我们也不能确认,反正你懂的。这个获得广告的一个营销大奖。怎么样返回它相似的图片,我们讲相似的是什么,是语意相似和视觉相似,这个语意是什么,草坪、雪山、远山,我们返回的效果都是这样的,非常的统一,我们很多的案例,比如说这样一个教堂的照片,我们返回的结果,它视觉可能是相似的但是在语意上,因为它没有像我们一样用深度学习去理解这个图片的内容,所以它不知道前面是教堂。比如这样的一个图片,这是一个狗,你如果是用这样的语意的话,可能返回的是另外一个结果,可能有的朋友比较喜欢这个结果,但是只要你语音识别了这个才可以达到语意和视觉的统一。
    最后这个是我们在移动端让用户随便拍照, 我们都能识别它的结果,不但识别这个结果,还根据这个结果可以做一首诗出来,用我们这个语言模型做一首诗出来,比如这个街头艺人或是乞丐,把一个接头艺人非常洒脱的心情描述出来,这说明我们这个领域图象识别的理解和语言的模型都达到了一个相当的高度。最后跟大家分享的是说,我们开发的技术的话开放更多的技术。我们这个是开放的语音媒体,它里面有语音识别,语音合成,语意理解。我相信大家百度的话用中文可以理解最好的技术。另外图像上我们人脸技术的开放EPI也上线了,这里面有人脸检测,人脸属性。定位。无论百度还是其他的互联网公司,都在进行深度学习。这里面你不光要有大数据,而且还要有这种能力去分析它,才能够享受这个大数据给你带来的价值。最后我想说的是,在中国正在发生的不光是微创新,不光是业务模式的创新。谢谢大家。

相关推荐
热点推荐
美女网红承认当小三,发文向正宫道歉:对不起,我伤害了你的人生

美女网红承认当小三,发文向正宫道歉:对不起,我伤害了你的人生

文艺圈娱乐号
2024-04-30 21:52:02
66岁大爷相亲50岁大妈:两人婚前同居一段时间,大妈:白日做梦

66岁大爷相亲50岁大妈:两人婚前同居一段时间,大妈:白日做梦

惟来
2024-04-30 06:49:09
1.公园里散步时看到的一幕。[捂脸]2.姑娘,这毕竟是公共场所

1.公园里散步时看到的一幕。[捂脸]2.姑娘,这毕竟是公共场所

水泥土的搞笑
2024-04-30 23:44:25
如果一个顶级病毒学家都要睡大街,那说明问题已十分严重

如果一个顶级病毒学家都要睡大街,那说明问题已十分严重

顾礼先生
2024-04-30 14:35:37
政治局会议提研究消化存量房产,住宅待售面积与多地二手房挂牌量大增,“以旧换新”成新动力源

政治局会议提研究消化存量房产,住宅待售面积与多地二手房挂牌量大增,“以旧换新”成新动力源

华夏时报
2024-04-30 17:51:33
深夜大招!这次是北京

深夜大招!这次是北京

博闻财经
2024-04-30 21:42:06
终止上市!股价连续7日跌停 股民直呼:央企股也难逃退市命运

终止上市!股价连续7日跌停 股民直呼:央企股也难逃退市命运

张三爱锤说
2024-04-30 23:38:16
江苏一女子穿半透明装乘地铁,市民吐槽不雅观:就跟没穿一样

江苏一女子穿半透明装乘地铁,市民吐槽不雅观:就跟没穿一样

大宗看萌宠
2024-04-30 20:25:57
无法接受的惨剧:俄军屠杀七千中国人,连婴儿也不放过

无法接受的惨剧:俄军屠杀七千中国人,连婴儿也不放过

梦里大唐
2024-04-28 17:55:23
党中央决定:程福波履新

党中央决定:程福波履新

蓝色海边
2024-04-30 18:30:07
这一中央部门有重要部署!履新一月后,蔡丽新南下,提出新要求

这一中央部门有重要部署!履新一月后,蔡丽新南下,提出新要求

政知新媒体
2024-04-30 20:13:05
日本汇率崩盘,岸田开始自救,对华连下3道挑战书,中方早有防备

日本汇率崩盘,岸田开始自救,对华连下3道挑战书,中方早有防备

说天说地说实事
2024-04-30 20:11:38
湖南这一夜,主动退赛的两位浪姐,印证了内娱的不公平

湖南这一夜,主动退赛的两位浪姐,印证了内娱的不公平

温柔娱公子
2024-04-29 14:37:24
民进党否定“炎黄子孙”后,赖清德祖籍被挖出,直接被打脸

民进党否定“炎黄子孙”后,赖清德祖籍被挖出,直接被打脸

镇远校尉
2024-04-30 19:12:37
明日五一为“凶日”,记得:1不开、2不去、3不动,尊重老传统

明日五一为“凶日”,记得:1不开、2不去、3不动,尊重老传统

书中自有颜如玉
2024-04-30 17:21:37
北京上演真实“扶不扶”?老太摔倒让女子扶一把,女子说不敢

北京上演真实“扶不扶”?老太摔倒让女子扶一把,女子说不敢

白浅娱乐聊
2024-04-30 19:15:09
印度人破防了,马斯克去了中国说印度没电,印度网友:我们有塔塔

印度人破防了,马斯克去了中国说印度没电,印度网友:我们有塔塔

陈博世财经
2024-04-30 20:21:54
离婚一年后,汪峰高调现身北京车展!女伴不输章子怡,心情大好!

离婚一年后,汪峰高调现身北京车展!女伴不输章子怡,心情大好!

八卦爱侃娱
2024-04-30 10:12:07
布林肯在中国遭BBC女记者连怼:你们要求中国停止出口零部件,自己却向以色列提供武器?

布林肯在中国遭BBC女记者连怼:你们要求中国停止出口零部件,自己却向以色列提供武器?

国际在线
2024-04-28 14:52:26
人前拼命三娘,人后努力爬床,这次,左小青的“假面”被彻底撕烂

人前拼命三娘,人后努力爬床,这次,左小青的“假面”被彻底撕烂

娱乐的小灶
2024-05-01 00:07:17
2024-05-01 08:28:49

头条要闻

英方称将完全移除敏感场地的中国监控设备 中使馆回应

头条要闻

英方称将完全移除敏感场地的中国监控设备 中使馆回应

体育要闻

穆雷,绝杀了一个时代

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

查道炯:中国经济的外部挑战与应对思考

科技要闻

余承东卸任华为终端CEO 新任命为董事长

汽车要闻

越野老炮最爱 哈弗新H9新增2.4T柴油机

态度原创

亲子
游戏
本地
房产
手机

亲子要闻

签下郭晶晶!比小天才还火的“儿童顶流”,正被家长疯抢

钢岚:聊聊改版后的新守护提费斯!官方这次的野心似乎有点大啊!

本地新闻

食味印象 | 潍坊:碳水脑袋的人间乐园

房产要闻

刺激!市区惊现1.1w/㎡新房+现房!海口楼市,五一打响价格战!

手机要闻

Pixel 8a 美国定价信息及更多渲染图泄露

无障碍浏览 进入关怀版
×