网易首页 > 网易号 > 正文 申请入驻

杨植麟:28 岁青年科学家,开挂人生的方法论

0
分享至

  杨植麟,循环智能创始人、智源青年科学家。如今仅28岁的他,曾于2011年至2015年在清华计算机系就读,本科期间师从唐杰教授;随后去往CMU读博,师从苹果AI研究负责人Ruslan Salakhutdinov 和谷歌首席科学家 William Cohen。在此期间先后以一作身份,发表了影响广泛的成果 Transformer-XL 和 XLNet,对自然语言处理带来了极大的影响。

  作者 | 贾伟

  在最近由“青源会”组织的青源Talk中,杨植麟博士分享了《 从学习的角度看NLP的现状与未来 》的报告。在此之后,智源社区邀请主持人张家俊研究员与杨植麟博士,就其科研及创业经验进行了深度对话。

  下面智源社区从对话中选出部分观点内容,分享给读者。

  张家俊:中国科学院自动化研究所模式识别国家重点实验室研究员、博士生导师,智源青年科学家,研究方向为机器翻译和自然语言处理等。

  杨植麟:循环智能创始人,智源青年科学家,NLP 领域知名青年学者,其作为第一作者发明的 XLNet 在20项任务上超越 BERT;其发明的 Transformer-XL 成为首个全面超越 RNN 的注意力语言模型。

  

  1

  科研三经验

  张家俊:你从大二大三就开始跟着唐杰老师做科研,并且发了不少顶级论文;随后又在国外师从 Ruslan 和 Cohen 读博。在这段时间里,你有哪些比较深刻的经验?

  杨植麟:我觉得有三点。 第一,我们应该更倾向去做简单的 Idea。因为越简单的 Idea,反而越本质。

  如果你去看历史,就会发现所有有影响力的方法,或者最后真的能沉淀下来的技术,都是非常简单的东西,只有简单的东西才能持久。反而是那些复杂的,例如以前大家做 QA,去搭各种非常复杂的架构,可能都不太本质,因为它太复杂,它的动机可能也比较奇怪。

  我们经常会看到有人写论文时会写 “Simple Yet Effective”,其实正确的说法应该是 “Simple And Effective”,因为这两个目标能够同时满足,也是我们的最终目标。

  所以我觉得简单很重要,而且是个优点,没有必要在论文里面专门把它写得很复杂。简单就是简单,简单是个优点。

  第二,我们做科研,应当去对你定义一个 High-level 的或者Long-term 的Research Agenda,然后拆解这个问题 ,做到研究的每一步都确定自己到底要去解决这个问题中的哪个部分。

  这是我从 Jason Weston (注:Facebook研究科学家、纽约大学客座教授) 身上学到的,他们整个组目前都是这样。从好几年前他就想去解决对话问题,然后他把对话问题拆解成很多子问题,然后每年去解决其中的一部分,最后拼起来就是一个比较好的系统。

  我觉得这种研究方式就是长期思维,并不是这个 Idea 碰一下,那个 Idea 碰一下,最后靠运气来获得成果;而是形成一种体系化的研究路径,然后有计划地进行研究。当然中间可能会有很多新的灵感,但这些灵感也都是计划中的一部分。

  第三,要始终认识到,最好的东西都还没做出来。 之前我一直以为好的工作都已经被别人做出来了,已经没有机会做出好的工作了。当时我刚开始做NLP,Word Embedding、Memory 网络、Attention 等都出来了,站在那个时间点去看,好像没有什么东西可以做了。但事实上真正的好戏才刚刚开始呢,例如2017年就出现了 Transformer,2018年之后出现了各种预训练,今年有GPT-3等。所以其实最好的东西还没有到来。

  这个是 Quoc V. Le (注:Quoc Le 为 seq2seq,AutoML 等工作的作者) 教给我的,他是我在 Google 的导师。在13、14年的时候,当时他发现,AlexNet 有了,LSTM 有了,Word Embedding 也有了,他就想是不是已经没有好东西可以做了。但后来发现并非如此,后面有更多好的东西出来。

  站在今天来看,大家依然会提出许多很尖锐的问题,而且通过预训练的方法很难解决。这就说明还有很多问题值得做。所以千万不要想着说,现在已经没东西做了,因为最好的东西永远都在接下来的时刻。

  2

  四年 CMU 博毕的秘诀:快速迭代

  张家俊:我们了解到,你只花了四年就从 CMU 博士毕业了;而 CMU,特别是语言技术研究所,学生的毕业年限基本上都在六七年以上。你是怎么做到的,以及当时是怎么规划你博士生涯的?

  杨植麟:首先,我觉得基本面上还是运气比较好,赶上了一个 NLP 发展非常迅速的时代,正好有很多 Open 的问题可以去解决。解决了这些问题,相应的就会有一些成果。所以我觉得时代背景非常重要。

  其次, 我觉得最为重要的一点是,要快速迭代。 我们做科研,其实并不是每个想法都正确,我们的 Idea 总会出错,而且大多数人的大多数 Idea 都是不 Work 的。我之前有个规律,就是把我的所有结果都写到Google Spreadsheet 里面,然后就发现每当写四五百行或者1000行,就会有一个 Positive 的结果。所以这就意味着,产出结果的速度,取决于你迭代的速度,你要迭代的足够快,才有可能快速地出结果。所以我觉得这是一个很重要的经验。

  至于具体的规划。第一,可能因为当时我在本科阶段奠定一些基础,所以到CMU之后基本上就可以直接开始做研究了,这节省了一些时间。第二,在规划上是这样:读博士的前一两年,我去探索了几个不同的方向;后面两年则主要专注在一个方向上,然后把它做到极致。

  3

  XLNet提出的精髓:序列问题驱动

  张家俊:你在博士期间,在语言模型上有两个非常好的工作,一个是 Transformer-XL,一个是 XLNet 。我看你之前的一些访谈说,你是在 Transformer-XL 失败之后,才想怎么去深入的思考语言模型这件事情,然后提出了 XLNet。但我在读 XLNet 这篇文章时,就有一个疑惑,整个模型你们是怎么凭空把它想出来的,你能不能介绍一下?

  杨植麟:我觉得是这样,一般想到一个新的东西,可能会有几种不同的方式。

  一种是从问题出发,然后一步一步去想怎么解决这个问题。 这时,就会把这个问题拆分成子问题,然后再继续去解决子问题。

  另一种则是从方法出发,有了现有的方法,怎么去做组合。 技术的本质就是对方法做组合,把小的技术组合成大的技术,把老的技术组合成新的技术。

  这两种方案一个是自下而上,问题驱动;一个是自上而下,方法驱动。

  我们在做XLNet这个事情的过程中,更多的是一个问题驱动的方式。做的方式就是先看到有一个问题,然后我去工具集驱找有哪些东西可以解决这个问题;但在解决这个问题的过程中,我发现它会带来新的问题,然后我就再去找新的工具来解决这个新问题,大概是这样。

  我们一开始想解决的问题是自回归和自编码。它们都有自己的优势,我们想让它们的有点统一起来。基于这个动机,我们想到之前看到过一些基于 Permutation 的思路,就想是不是可以把它拿来用。但拿来之后我们发现一个新的问题,就是虽然可以做 Permutation,但中间会有一些 Ambiguity 存在,然后我就去解决 Ambiguity。解决完之后发现还不够,又有新的问题,我们就提出了双流的 Attention 机制。所以它其实是一步一步的,通过这种序列的问题解决,最后形成了现在这样一个结果。

  所以如果不去考虑中间的动机,可能就会觉得非常奇怪;但如果去推理中间的每一步,就发现非常合理。这也是问题驱动和方法驱动的区别。方法驱动的结果看起来就会非常合理。

  4

  GPT-4 会做什么?

  张家俊:请你预测一下 GPT-4 会做什么?

  杨植麟:我觉得会有一些不同的方向。

  一方面,我们当然可以把它变得更大;另一方面可以去做 Multi-model 的预训练;再一方面,可以去改变它的架构,加入更多、更好、更可扩展的架构,或者用一个泛化能力更强的目标函数,把它显式地加到预训练中。

  我觉得都是一些可行的方向。

  5

  NLP 独角兽成长之路的两大基本原则:年费 + 标准化

  张家俊:你现在是循环智能的联合创始人。在真实的应用场景中也做了一些非常成功的落地工作。我跟工业界的人交流时就发现,有人说 NLP 创业很难出现独角兽企业。你同意这个观点吗?如果你不同意,怎么样才能成为一个独角兽?譬如说循环智能怎么样成为独角兽,或者如果你有一些其他的不同的看法?

  杨植麟: 首先我觉得这个命题本身确实值得商榷,因为要看怎么去定义NLP独角兽。 如果去看纯做NLP的厂商,会发现在美国有很多对标的公司,它实际上已经是独角兽或者马上成为独角兽,比如 Asapp、People.ai、Chorus.ai、Gong.io等,它们都是以 NLP 为核心的一些初创企业,但估值已经非常高了。我觉得中国肯定也会诞生一些这样的企业,我觉得完全是有机会的。

  我们从国内来看,其实已经有很多公司做得非常好了。如果我们把定义稍微放宽松一点,不只看纯做 NLP 的公司,可以看 NLP 加语音或者 NLP 加结构化数据,其实已经有非常多的公司做得非常好了,包括上市的也有很多。

  所以市场的情况我觉得其实还是挺好,所以我觉得肯定可以产生独角兽。如果我们放宽一点定义,实际上已经产生了很多独角兽。

  但为什么大家会形成这样的一个印象呢?我觉得其实这里面主要会有几块,做 NLP 既有一些与 to B 共通的地方,又有一些自己独特的难点。

  首先,与 to B 共通的地方就在于说,在当前中国的商业环境下,你能不能用坚持用年费加标准化交付的方式去做。 美国 SaaS (注:Software-as-a-Service,软件即服务) 商业模式成功的一个前提是必须年费,必须标准化,不然 PS 或者 PE 就非常低。所以我觉得只有去坚持这两个东西。

  现在我觉得中国其实 to B 可能面临的整体问题就是,怎么在一个特定行业里面去找到这样的机会,能够去做年费加标准化的产品。当然现在其实市面,很多人已经找到了这个方式,所以我觉得剩下的只是一个时间的问题。

  其次, NLP 自己独有的一些难题,最核心的便是场景的碎片化。 如果我做语音识别引擎,我只需要即插即用,基本没有新的边际成本;但如果是 NLP 的话,由于它跟业务绑定非常近,需要考虑业务的具体定义,然后才能真正落地产生价值,这里面的交付边际成本在早期会比较高。不过以后,我相信以预训练为核心。通过更大规模的预训练,可以降低它的交付成本,来缓解这个困难。

  但另一方面,NLP 这种场景的碎片化,也正是它商业模型的一个优点。譬如如果直接做 ASR(注:自动语音识别)把语音转成文本,这是不产生业务价值的;必须在上面做一层 NLP 才行,因为 NLP 才是跟业务价值绑定的。在很多场景下,AI 产生最终价值的最后一英里,必须用到 NLP 的技术才能真正落地。所以,我觉得这也是 NLP 商业落地非常核心的东西。

  所以我觉得既要看到好的一面,也要看到不足的一面。NLP 离用户近,能够产生最终的价值;而边际成本高,这是它的缺点,但这可以用预训练等方法来提升它的标准化程度。

  综上来说, 年费加标准化产品,我觉得坚持这两个原则,中国必然会产生 NLP 的独角兽企业。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全网最不想火的鸡煲店,凭一句“劝退”爆火

全网最不想火的鸡煲店,凭一句“劝退”爆火

广东发布
2026-04-03 20:04:56
伊朗肠子都悔青了!怎么能让美军深入战区100多千米、把F-15飞行员给救走了?!

伊朗肠子都悔青了!怎么能让美军深入战区100多千米、把F-15飞行员给救走了?!

军武速递
2026-04-04 19:19:03
新华网评:给愿意改错的人留一扇门

新华网评:给愿意改错的人留一扇门

新华社
2026-04-03 18:42:05
优思益:公司已无力进行相关售后及客诉服务,整体处于崩溃边缘

优思益:公司已无力进行相关售后及客诉服务,整体处于崩溃边缘

界面新闻
2026-04-03 16:32:06
美军直升机超低空飞行搜救,地上伊朗士兵用机枪追着打!伊朗称用了新武器;美军飞行员被俘怎么办?特朗普:希望“那种情况”不会发生

美军直升机超低空飞行搜救,地上伊朗士兵用机枪追着打!伊朗称用了新武器;美军飞行员被俘怎么办?特朗普:希望“那种情况”不会发生

每日经济新闻
2026-04-04 13:47:27
美议员:公开外星人简报将让国家混乱,近两年5名顶尖科学家失踪或死亡恐与此有关

美议员:公开外星人简报将让国家混乱,近两年5名顶尖科学家失踪或死亡恐与此有关

红星新闻
2026-04-04 19:31:34
周杰伦演唱会口碑崩塌,3小时划水2小时,万元门票听了个寂寞

周杰伦演唱会口碑崩塌,3小时划水2小时,万元门票听了个寂寞

观察者海风
2026-04-04 22:06:54
1-2!2-1!疯狂一夜,阿森纳爆冷出局,巴萨绝杀,切尔西狂胜晋级

1-2!2-1!疯狂一夜,阿森纳爆冷出局,巴萨绝杀,切尔西狂胜晋级

足球狗说
2026-04-05 05:10:41
东北知名设计院脱衣团建,真骚气!

东北知名设计院脱衣团建,真骚气!

黯泉
2026-04-04 22:43:42
战巴萨6次扑救,马竞门将穆索当选全场最佳球员

战巴萨6次扑救,马竞门将穆索当选全场最佳球员

懂球帝
2026-04-05 05:14:25
开始疯狂抛售黄金!

开始疯狂抛售黄金!

贩财局
2026-04-04 21:16:51
签完反华声明,马克龙离开日本,临走前一锤定音,减少对华依赖

签完反华声明,马克龙离开日本,临走前一锤定音,减少对华依赖

书纪文谭
2026-04-04 17:07:31
台湾餐饮业劳工平均月薪仅为3.9万新台币,专家叹“连存钱都难”

台湾餐饮业劳工平均月薪仅为3.9万新台币,专家叹“连存钱都难”

海峡导报社
2026-04-04 10:01:02
英格兰成人女星:若曼城战胜利物浦,我就按最热评论去做件事

英格兰成人女星:若曼城战胜利物浦,我就按最热评论去做件事

懂球帝
2026-04-04 23:46:13
406773 公里!阿尔忒弥斯 2 号拍下人类最远视角的地球

406773 公里!阿尔忒弥斯 2 号拍下人类最远视角的地球

ALENG自媒体
2026-04-04 21:13:20
“拯救美国大兵”,特朗普“赢学”被打脸

“拯救美国大兵”,特朗普“赢学”被打脸

上观新闻
2026-04-04 17:27:38
美军突然不会打仗了!飞行员还没有找到,在伊朗度过艰难的24小时

美军突然不会打仗了!飞行员还没有找到,在伊朗度过艰难的24小时

Ck的蜜糖
2026-04-04 14:45:19
抛弃中国,伊朗为何选择日本作为中间调停者

抛弃中国,伊朗为何选择日本作为中间调停者

民间胡扯老哥
2026-04-03 02:20:49
19岁“失联”女孩露面,称因网恋自愿前往柬埔寨,绑架是演戏为向家里要钱!其父回应:确认是她

19岁“失联”女孩露面,称因网恋自愿前往柬埔寨,绑架是演戏为向家里要钱!其父回应:确认是她

大象新闻
2026-04-04 08:49:03
世界小姐的“丰满身材”!

世界小姐的“丰满身材”!

文刀万
2026-04-04 17:49:19
2026-04-05 05:28:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7170文章数 20743关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

教育
手机
亲子
房产
公开课

教育要闻

这些英国大学开始崩盘!

手机要闻

华为新机再曝,旗舰、阔折叠、常规折叠都有!

亲子要闻

我这个00后舅舅怎么这么会带娃

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版