ChatGPT火了之后,有人惊叹这个工具的厉害,也有人讨论它的不严谨。有人认为它未来能带来教育方面的平权,因为所有人可以公平的通过它接触到全世界的公开资料。
也有人认为,这个工具反而会放大大家的信息鸿沟,因为使用者水平的不同会导致使用效果天差地别。会用和不会用的两波人之间的差距,会比它没出现之前更大。
以深蓝、阿尔法狗和chatGPT为代表的人工智能,已经在多个领域战胜了人类。这是事实。
在研究了它们到底怎样战胜人类之后,我发现,自己必须要开始向机器学习。因为它们的训练方法确实能导向更强的实力。
第一个要学习的,就是克服人性的弱点。贪婪、恐惧、焦虑、不安、傲慢和懒惰,都是人性的弱点。这些机器人都没有。
1997年,世界棋王卡斯帕罗夫就曾经被IBM的机器人“深蓝”打败。事后,他曾经回忆过,自己和机器人对决的时候那种不安的感觉。
卡斯帕罗夫是国际象棋界公认的世界棋王,他少年成名,从22岁开始,他连续21年在棋坛封王。有一场经典的比赛证实过卡斯帕罗夫的实力。
他曾经一个人对抗来自全世界75个国家和地区的5万名国际象棋高手。卡斯帕罗夫自己在一边,其他5万人在另外一边。
那5万人可以讨论,商量、投票决定下一步往哪走,一招棋的讨论时间可以长达1天。经过4个月的拉锯战,5万人弃权认输,卡斯帕罗夫获胜。
但是,这位世界棋王在和“深蓝”的对决中,溃败认输。事后,他曾经在TED演讲中回忆了这场比赛。
“比赛之前,我已经和世界顶级选手进行过数百场较量。我能从他们的肢体语言中判断出他们的精神状态,还有下一步会怎么走。但当我坐在‘深蓝’对面的时候,立刻有一种崭新的、不安的感觉。我无法预测它到底要做什么。”
之后,谷歌的阿尔法狗又曾经先后打败过世界冠军李世石和柯洁。柯洁在赛后曾经沮丧的认为,自己的职业生涯就要结束了。
无数人研究过阿尔法狗为什么能够战胜人类。他们发现了阿尔法狗“强化学习”模式。的两个秘密。
第一个就是“左右互搏”,每天自己和自己下棋,自我对弈3万局,不知疲倦。这是人类不可能做到的,人的体力最多支撑对决十几盘。
第二个就是,它每下一步棋都能实现“快速复盘”。快速评估这一招棋走的是好是坏。从而进一步计算这一步棋对全局赢面的影响。还能根据这一步棋,决定接下来的棋要怎么走。这种快速的计算能力和积累,是人类很难做到的。
阿尔法狗成功的这两个秘密,正是人类需要向机器学习的地方。在第一个秘密中,我们并不是要学习机器永不知疲倦,这是不可能做到的。值得学习和借鉴的是,我们需要向机器一样,尽量让自己在对决中克服人性的弱点,弱点越少,赢面越大。
第二个秘密,要学习这种“快速复盘”的能力,尽管我们根本就不可能很快速。但这种思路仍然可以在实际做事过程中给我们很多启发。我们需要尽量快速的盘点每一个动作的得失,以便于调整接下来的动作。
如果我们能够做到这两点,的确可以在实际工作中获得更好的结果。
ChatGPT相比于前几代人工智能机器人,更厉害的地方在于它的RLHF训练方法。这种训练方法翻译过来叫“从人类反馈中强化学习”(Reinforcement Learning from Human Feedback,RLHF)。
工程师们为了训练chatGPT,除了搭建语言模型之外,还要喂给它大量的语料,让它能够自主理解上下文。这样,才能实现给了上文之后,自动生成下文。而且,每一次用户和它的互动和反馈,都是在帮助chatGPT学习和提升。它的理解越来越精准,回复也越来越完善。
就在两年前,它还仅仅只能回答“一年有几个季节”这种基本的事实性问题。两年过后,它已经能在聊天中识别笑话、能写新闻稿和代码,也能给程序找bug了。
而人类,即便在学习能力最强的10-20岁时期,也不可能成长的这么快。更何况,人在一生中还有故步自封的中年和老年时期。相比于机器人,我们经常听不进去别人的劝告和建议。机器人训练中这种快速学习和反馈调整的策略,不正是自我迭代的方法嘛。
人和机器人要如何相处?乐观派认为,机器人永远都只是人类的工具;悲观派也曾经担心人类被机器人殖民和统治。在人工智能技术逐渐成熟的过程中,科学家和工程师们模拟人类大脑思考的方式去训练机器人。
在这两派之外,我想,如果我们能像机器一样学习,不是也会很厉害吗?
(全文完)
感谢阅读,原创不易,转载请注明出处。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.