初入职场，不敢承担不敢试错？强化学习5要素教你决策|方法论|卡森|决策者

分享至

昨天，初入职场的师弟咨询我一个问题。

他想知道，在新人阶段，面对一个大项目时，怎么能做到敢于承担？他总是害怕自己会犯错，因而最先选退缩。现在工作快半年，大项目一个都没做，领导跟他沟通，他也说自己能力还不够。

但实际上每次项目被别人做了后，他又觉得其实并不难。

师弟不敢承担不敢试错，我非常理解。因为对职场新人来说，没有经验就没有底气，在面对项目时自然不敢承担与试错。

其实，师弟在学校时，是一个非常勇敢进取的年轻人，可他刚到职场也会胆怯。

因为跟学校不同的是，学校里答题，犯错成本并不高，错了可以重来。在工作中，每一个决策，都有可能影响你的未来。所以，师弟并不是没有勇气，而是不敢轻易决策，源于试错成本太高。

那么，我对师弟的答案是，想要更好地决策，不如看看强化学习5要素。

强化学习是什么？

想要利用强化学习进行决策，必须了解强化学习是什么。随着人工智能的浪潮，针对强化学习的研究层出不穷。强化学习是一种人工智能算法，能够辅助机器更好地去决策。实际上是一种反馈机制，根据个体和环境的交互，状态不断改变，最终获得决策。

1、强化学习的内涵

那么，首先我们需要了解强化学习的内涵是什么。

强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 [1]。

简单来说，强化学习本质上是一个自动决策的过程，所有的状态和机制，都是为了找到最优决策。而强化学习寻找决策的过程，有一套完整而清晰的逻辑。

我举个通俗的例子，便于更好理解强化学习。

如上图所示，机器人想要动起来，那么必须要观察环境后，才决定要不要走路。

这里就有一个决策，要走路的话，先出哪条腿？那么，机器人是一个个体（Agent），跟环境（Environment）的交互，就是走路这个动作（Action）。交互中，也会观察环境变化，有没有水之类的困难，来决定要不要走路。

那么，机器人每出一次腿，走一步路，都是一个状态（State）的改变。而根据状态变化，环境可以给予一些奖励（Reward），从而促使机器人不断继续前行，最终做出决策，也能改变环境。

所以，强化学习的内涵已非常明显，就是这5要素，分别是个体（Agent），环境（Environment），动作（Action），状态（State），奖励（Reward）。这5要素相辅相成，环境最后也变成了序列数据，这个数据对个体进行影响。那么对于行为和环境有了充分认识，最后得到了一个序列决策规则。

强化学习的这个决策规则在人工智能领域下应用广泛，在游戏领域拟人化中也被高频使用。那么，在职场领域中，这样的决策规则，当然也有用。

2、为什么要引入强化学习？

那为什么决策上，要引入强化学习？在职场上，强化学习有什么用呢？

首先，想说明一点的是，强化学习的决策过程非常严谨，而且逻辑层面能实现自动连续决策，而不只是一次决策的过程。也就是说，利用这套决策机制，我们可以不断根据这个方法去进行决策。

授人以鱼不如授人以渔。一次的决策可以由长辈或领导来帮忙，但次次决策不可能去求助，我们需要一套完整的方法论去决策。

那么，强化学习的决策过程就是一种通用完整的方法论，而不是孤立单一的。同时，强化学习能够教会机器决策，自然具备对应的决策公式和要素。那么在职场上，这些决策公式和要素是完全通用的。甚至可以来说，机器能明白的计算方式，人当然可以更好地使用。

而做决策一贯是很难实现最优解的。20世纪40年代，西蒙就在有限理性模型[2]提到：决策者在决策中追求“满意”标准，而非最优标准。

在决策过程中，决策者定下一个最基本的要求，然后考察现有的备择方案。如果有一个备择方案能较好地满足定下的最基本的要求，决策者就实现了满意标准，他就不愿意再去研究或寻找更好的备择方案了。决策者承认自己感觉到的世界只是纷繁复杂的真实世界的极端简化，他们满意的标准不是最大值，所以不必去确定所有可能的备择方案，由于感到真实世界是无法把握的，他们往往满足于用简单的方法，凭经验、习惯和惯例去办事。因此，导致的决策结果也各有不同[2]。

而强化学习，是一个根据个体和环境不断优化得到决策的过程，能够辅助个体在环境中得到更优的解，而不是止步于满足。

职场上，怎样的决策很重要？

新人为什么害怕试错，就是因为决策重要，决策没做好，个体的发展自然也受限。

那怎样的决策很重要的呢？其实在职场上，判断性决策是非常关键的。

英国经济学家马克·卡森（Mark Casson）曾深入研究决策，他在卡森的企业家理论[2]中说过：企业家是专门就稀缺资源的协调做出判断性决策的人。

所谓判断性决策，是指在不确定性条件下，只依据所掌握的公开信息，按照既定的决策规则和程序所做的决策，这种决策只能是在具体的环境中体现出来，它能够改善在不确定环境中必须迅速做出的决策的质量[2]。

在这样不确定的情况下，想要做出判断性决策，实际上非常困难。

但企业家，包括想要在职场上有长远发展的人，最终要做出这样的判断性决策。

既然这是结果和归宿，那么在初入职场的时候，我们就需要做好能做出判断性决策的准备。

然后一步步，用自己每一次的决策去优化，去迭代，最后让自己具备能够做到判断性决策的能力。而这个过程，个体与环境交互的过程，正是强化学习可以教会我们的东西。

初入职场，如何利用强化学习5要素决策？

那么，强化学习做决策，在职场中如何应用？接下来，我们通过对强化学习的5要素展开阐述，搞清强化学习5要素如何使用，想必在决策上就不会再是一头雾水。

一、个体（Agent）

强化学习中，第一个元素是个体，这其实在强调本人的作用。这是很好理解的一点，因为不管怎样做决策，其实都跟决策者本人分不开。如果本人止步于此，不想再去做决策，那么环境再大的激励，其实是很难对个体产生影响。

因此，强化学习对于个体层面的要求，其实是对决策者心态上的要求。决策者本人，需要具备我要去决策，我要改变这样的信念，否则再多的方法论都是空中楼阁。

那么，幸好师弟是想要决策想要改变的人，他苦恼的是如何去决策，所以他完全满足强化学习的第一个要素，也就是个体这个要素。

当然，师弟还存在一点问题，就是他虽然很勇敢，但是他害怕犯错，那么这一点，是他需要进行调整的，这个调整可以根据环境的反馈，最终得到结果。

因为如果一直没有做出决定的勇气，那么这个决定也最终会与你无关。所以，强化学习的第一个要素，就是对个体层面提出要求，希望在心态上可以更敢于尝试。

二、环境（Environment）

强化学习的第二个要素是环境，对于个体来说，环境是具有很大影响的。

在职场上，指的是公司环境。这个不仅仅是对个人的要求，而是从公司层面开始考虑。为了能够做出更好的决策，刚入职场的新人不害怕犯错的话，在公司层面，是需要提倡这样的探索的。在公司里，需要对一些探索性的项目，给予更多一点宽容。

资料显示：中国互联网巨头腾讯正在对人工智能（AI）进行一项长期投资：招揽顶尖AI研究人员，部分实验室不设KPI（关键绩效指标）。这个就是对试错的一种宽容态度。

在公司层面，倡导这样对试错宽容的态度。那么没有经验的新员工在决策上，也会更加敢于去尝试。同时，员工对于环境的观察和反馈，最后又能对环境做出改变。

新的血液进行发展，公司也会得到源源不断地良性发展。这是一个正向双赢的事。

三、动作（Action）

强化学习的第三个要素是动作，这个就是实际要去行动的意思，而不只是局限于方法论了。

所有的决策，不能只成为一个口号。

行动是最关键的，那么其实方法论在上面已经讲得非常清楚了，对于个体来说，我们需要在心态上做出调节，在环境上做出观察。对于环境来说，公司层面需要有宽容的试错机制，更加鼓励新人去做。当这两点已经完备的时候，是该做出行动了。

头脑中想着行动而不是信条，将有助于满足我们最大的需要。 ——朗费罗

当然，一次行动很有可能是失败的，因为没有任何人可以保证，每一个决策都是正确的。因此我们还需要对决策进行不断的优化，而这个优化过程，正是下一步状态的过程。

四、状态（State）

强化学习的第四个要素是状态，状态变化其实指的是及时反馈。那么这个反馈可以是由自己去发现，也可以是上级领导发现。状态的变化，才是一次次决策优化的过程。

在自我发现的过程中，我们可以对每一次行动每一次决策进行记录，然后通过最终的状态，无论是成功还是失败，都对每一次决策进行分析。然后思考如何在哪里改进，这个状态会发生改变，我们可以做的更好。

那么在上级发现过程中，例如新人的领导，可以对新人进行一些指导。对于新人这段时间的成长做一个回溯，然后去看每一次的状态变化，最终给出一些建设性意见。

不断的迭代，才是状态存在的意义，而迭代优化，才会具有更好的决策。

五、奖励（Reward）

强化学习的第五点其实是奖励，奖励就是对结果的反馈。

在奖励机制中，其实是分两方面的。对于个人来说，奖励机制可以是在完成一个好的决策时，就给予自己一定的物质奖励，当然完成后的满足感，也是一种精神奖励。

而对于公司来说，奖励机制其实是一种激励作用，例如各大公司，包括BAT都会给优秀员工颁发期权和股票，这样的长期激励，对于员工的积极性是有较大提高的。

股权激励作为一种长期激励机制，在国外已得到广泛运用，它有助于解决委托代理问题所产生的利益不一致问题，即股东通过向经理人授予股权或期权，将经理人与股东利益长期捆绑，同时实现企业价值最大化和股东财富最大化。企业实施股权激励动机有很多,它能够激励员工努力工作，为企业创造更多的财富,又能提高企业的业绩，留住核心员工[5]。

因而，奖励可以是各种各样，对于员工积极性来说，长期激励是很有帮助的。

这样的回馈机制，在强化学习中也非常关键。

最后

本文从职场新人不敢试错出发，引入了强化学习，将人工智能的决策算法，巧妙融入职场中。通过强化学习5要素，个体（Agent），环境（Environment），动作（Action），状态（State），奖励（Reward）出发，深入浅出地阐述了职场新人该如何利用好这个工具，真正做好决策。

最后，不要害怕承担，不要害怕犯错，勇敢做决定，开始你的决策之旅。

引用文献：

[1] 《神经网络与深度学习》复旦邱锡鹏著

[2] 黄泰岩, 郑江淮. 卡森企业家理论述评[J]. 经济学动态, 1997(08):66-70.

[3] 邓汉慧. 西蒙的有限理性研究综述[J]. 国土资源高等职业教育研究, 2002, 4(4):37-41.

[4]解析腾讯人工智能：基础研究不设KPI，明星产品帮算法演练

[5]曹佳伟. 浙江龙盛定增式股权激励的经济后果研究[D].

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.