网易首页 > 网易号 > 正文 申请入驻

一个代号引发全网恐慌?OpenAI的Q*到底是啥

0
分享至

让我们先把OpenAI管理层内部的极地大乱斗放在一边,聊一聊这家公司最新的传言——Q*。

OpenAI在11月22号的时候给员工发了一封内部信,承认了Q*,并将这个项目描述为“超越人类的自主系统”。着实让人感觉到有一丝丝可怕。

虽然OpenAI官方没有放出任何有关Q*的消息,但是我们还是能浅浅了解。

首先第一步,我们要认识Q*的读法,官方正式名称叫做Q-Star,翻译过来就是Q星。对,你没看错,即便深度学习中,区块之间是通过乘积来求解的,但是在Q*里,“*”并不是乘的意思,而是“星号”。“Q”这个字母在强化学习中表示一个动作的期望奖励。

在人工智能领域里,但凡跟大写Q沾边的,本质都是Q学习。Q学习以现在的评判标准可以算是强化学习的一种,指的是在训练的过程中,以记录训练历史奖励值的方式,告诉智能体下一步怎么样选才能跟历史最高奖励值相同。但请注意,历史最大奖励值并不代表模型的最大奖励值,有可能是,也有很大可能不是,甚至还有可能八竿子打不着。

换句话说,Q学习和智能体就像是一支球队的分析师和教练之间的关系。教练负责指导球队,分析师则用来辅佐教练。

在强化学习的过程中,智能体输出的决策是要反馈到环境中才能得到奖励值。而Q学习因为只记录奖励值,因此它不需要对环境进行建模,相当于“结果好,一切就好”。

不过这样看下来,好像Q学习还不如现在人工智能,尤其是大模型常用的深度学习模型。像现在这种动不动几十亿几百亿这么多参数下,Q学习不仅对模型没什么帮助,反倒还增加了复杂性,从而降低了鲁棒性。

别急,其实这是因为上述Q学习背后的思路本身只是一个诞生于1989年的基本概念。

DeepMind在2013年的时候曾经通过改进Q学习,推出过一个算法叫做深度Q学习,其最鲜明的特点就是使用经历回放,从过去多个结果中进行采样,再使用Q学习,进而达到提高模型的稳定性,降低模型因为某一次结果导致训练方向过于发散。

然而实话实说,这个概念一直没有走红也是有原因的,而从实际意义来看,深度Q学习此前在学界看来最大的作用就是开发出了DQN。

DQN是指深度Q网络,诞生于深度Q学习。DQN的思路和Q学习是一模一样的,但是在求得Q学习中最大奖励值的过程,是用神经网络来实现的。这一下子就fashion了起来。

DQN同一时间只会生成一个节点。与此同时,DQN会生成一个优先级队列,然后再把剩下的节点和动作的元祖存到优先级队列里。显而易见,一个节点肯定不够用,如果全程就一个节点那最后求解的答案一定错得离谱。当节点和动作元祖从队列中移出来的时候,就会根据这个动作应用到已经生成的那个节点得出来的关联性进而生成一个新节点,以此类推。

稍微懂点人工智能发展史的人会觉得越看越眼熟,这不就是高配版弗洛伊德求边长?

现代计算机中,处理器所使用的核心原理就是弗洛伊德算法,通过与历史最优值比对,求得两点之间最短的路径。内存的作用就是将计算以优先级的方式存储,每当处理器完成一次计算后,内存再把下一条计算扔给处理器。

DQN本质没什么区别。

这基本就是Q的意思,那么*又是指什么呢?

从诸多的业内人士分析来看,*很有可能指代的是A*算法。

这是一种启发式算法。先不着急讲启发式算法是什么,我来讲个笑话:

A问B说“快速求出1928749189571*1982379176的乘积”,B立马就回答A说:“32”。这个A听了就很纳闷,这么大的两个数相乘,不可能答案是两位数。B反问A:“你就说快不快?”。

看起来离谱,但启发式算法也是同理。

它的本质就是估算,在效率和正解之间只能选择一个。要不然就非常讲究效率,可有时候会出错;要不然就非常讲究正确性,可耗时有时候会很长。A*算法则是先通过启发式算法估算一个大概其的值,当然这个值很有可能极其偏离正解。估算完成后就会开始循环遍历,如果怎么都没办法求解那就重新估值,直到开始出现解。如此反复,最终得出最佳解。

虽然能得到最佳解,然而A*就是上文提到的第二种,答案对,耗时比较长。放在实验室环境还好,这种算法要是放在个人设备上,有可能会导致内存溢出,产生系统问题,比如蓝屏。

因此这样的局限性使得过往A*算法往往应用于一些不太复杂的模型,最典型的就是网络游戏中角色寻路。一些大型游戏中,角色在寻路开始的那一刹那出现卡顿,就是因为A*算法。

综合来看,目前人工智能圈的共识是,OpenAI内部信中提到的Q*算法,大抵是Q学习和A两者的取长补短,即节省算力、节省内存,并得到最佳解——因为它总不可能是又多花费算力,又浪费内存,最后还得不到最佳解吧!那不成累傻小子了吗!

而且,就像OpenAI把基础模型这件事最终做成了一样,它同样早已存在,甚至也一度被人们冷落,直到OpenAI用具体的创新的方法把它的潜力重新发掘出来。今天人们自然有理由相信在Q和A这两个早就存在的算法思路里,OpenAI能故技重施再次创造奇迹——当然,对于这奇迹可能对人类带来的危害也因为最近OpenAI的闹剧而让更多人忧心忡忡。

所以,回到这个算法,Q*最有可能的样子是,利用Q学习快速找到接近最优解的估值,再利用A*算法在小范围内求解,省去了大量没有意义的计算过程,以此达到快速求得最佳解的效果。但是OpenAI具体要怎么做,还得等公开论文(如果能等到的话)。

Q*的出现其实说明了一个问题,人工智能头部公司意识到当下人工智能发展中求解的过程比求解更有意义。因为现在只追求答案的正确性不再能满足人们对人工智能的需求。比如OpenCompass上,即便是平均分数差10分、20分,但是如果从理解的准确率上看,最好的模型和最差的模型也没有很大的差距。

在人们的猜测和恐慌中,一个关于Q*的说法是,Q*可以解决非常高级的数学问题。萨里以人为本人工智能研究所所长安德鲁·罗戈斯基表示“我们知道现有的人工智能已被证明能够进行本科水平的数学运算,但无法处理更高级的数学问题。但是Q*极有可能用来解决高难度的数学问题。”说不定等到Q*出来的那一天,还可以考考它哥德巴赫猜想。而数学被认为是人类智慧的最大结晶之一,因此Q*只是一个代号就引发了全网的恐慌。

而且Q*背后还被与OpenAI的那个使命相联系——那就是对通用人工智能(AGI),甚至是超级智能的探索。OpenAI 将 AGI 定义为在最具经济价值的任务中超越人类的自主系统,Q*就是OpenAI迈向的AGI的一步。

目前OpenAI对于Q*和内部信泄露事件没有对外发表任何置评,可我却喜忧参半。对Q*拥有强大能力表示开心,人工智能领域发展将会更进一步。同时也比较担心Q*噱头大于实际,最后真到发布的那一天测试结果也就那么回事,让我被哐哐打脸。

欢迎加入这个星球,见证硅基时代发展↓

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯超保真死亡之组!4队全死完了:3队进32强 短短2天都被淘汰

世界杯超保真死亡之组!4队全死完了:3队进32强 短短2天都被淘汰

风过乡
2026-07-01 07:11:43
湖人休赛期要崩!詹姆斯出走后,神射手签约太阳,斯玛特也要走

湖人休赛期要崩!詹姆斯出走后,神射手签约太阳,斯玛特也要走

夜白侃球
2026-07-01 13:09:19
姆巴佩:我不会看射手榜,相信梅西还会继续进球

姆巴佩:我不会看射手榜,相信梅西还会继续进球

懂球帝
2026-07-01 08:37:30
2026年三伏天要来了!2个坏消息,1个好消息,3个要注意,别大意

2026年三伏天要来了!2个坏消息,1个好消息,3个要注意,别大意

阿龙美食记
2026-06-28 16:52:24
减肥这生意,有多脏!

减肥这生意,有多脏!

梳子姐
2026-06-30 11:43:52
俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

南宗历史
2026-03-17 16:53:10
全面复盘“四渡赤水”:不是蒋介石不会打仗,实在是毛主席太厉害

全面复盘“四渡赤水”:不是蒋介石不会打仗,实在是毛主席太厉害

掠影后有感
2026-07-01 09:52:42
阿利松主动打招呼,铃木彩艳:几年前我根本不敢想这样的场景

阿利松主动打招呼,铃木彩艳:几年前我根本不敢想这样的场景

懂球帝
2026-07-01 10:13:28
女护士与“银行男子”开房,被医院认为涉嫌卖淫开除;法院:可能是恋人行为,赔偿11万余元

女护士与“银行男子”开房,被医院认为涉嫌卖淫开除;法院:可能是恋人行为,赔偿11万余元

大风新闻
2026-06-30 19:17:49
日本没料到,模拟攻击辽宁舰会惹这么大麻烦,中俄轰炸机都出动了

日本没料到,模拟攻击辽宁舰会惹这么大麻烦,中俄轰炸机都出动了

半壁胭脂色
2026-07-01 07:31:46
医院领导三观正!自行定性护士卖淫,贺州一医院违法辞退赔了11万

医院领导三观正!自行定性护士卖淫,贺州一医院违法辞退赔了11万

火山詩话
2026-07-01 14:55:06
新一届港姐亮相红毯,这审美又回来了

新一届港姐亮相红毯,这审美又回来了

娱你同欢
2026-06-28 20:48:27
跌落神坛:2026退步最惨烈的6所985大学

跌落神坛:2026退步最惨烈的6所985大学

王姐懒人家常菜
2026-06-27 15:52:02
破案了!路边18元一只的烤鸭,用的其实不是你以为的那种鸭子!

破案了!路边18元一只的烤鸭,用的其实不是你以为的那种鸭子!

混沌录
2026-06-30 15:04:07
六代机,就这么明晃晃的官宣了

六代机,就这么明晃晃的官宣了

侠客栈
2026-06-30 13:35:58
罗永浩:我也不喜欢韩红说的“走个面儿”,但突然对她喊打喊杀,太流氓了

罗永浩:我也不喜欢韩红说的“走个面儿”,但突然对她喊打喊杀,太流氓了

观察者网
2026-06-30 16:37:17
WTT美国大满贯7月2日赛程:中日强强对决!国乒约战张本美和等人

WTT美国大满贯7月2日赛程:中日强强对决!国乒约战张本美和等人

全言作品
2026-07-01 12:58:30
红牌警告!这8个专业学生已严重饱和,谨慎选择

红牌警告!这8个专业学生已严重饱和,谨慎选择

谭老师地理大课堂
2026-07-01 01:50:09
扎心了!“我生君未富”,一博主举出大厂大量现实案例,评论沸腾

扎心了!“我生君未富”,一博主举出大厂大量现实案例,评论沸腾

火山詩话
2026-06-30 05:52:05
大陆要动手抓人了,台独分子一个都別想跑

大陆要动手抓人了,台独分子一个都別想跑

一口娱乐
2026-06-30 13:27:46
2026-07-01 15:52:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3205文章数 10508关注度
往期回顾 全部

科技要闻

AI写了90%代码,大厂程序员的煎熬时刻

头条要闻

嘉峪关一景区NPC被游客掰断手臂:互程中对方突然发力

头条要闻

嘉峪关一景区NPC被游客掰断手臂:互程中对方突然发力

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

罗晋大孤山素颜照,秃顶白发引热议

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

交付持续攀升再破纪录 零跑6月全球交付93376台

态度原创

家居
本地
旅游
时尚
游戏

家居要闻

传奇筑 日常诗

本地新闻

强烈建议,全国高校都向这所大学看齐!

旅游要闻

120座临江房车别墅投用 湖南湘潭完善旅发大会配套设施

Meiinpsn的穿衣风格,清新又叛逆

噬血代码2全新DLC官宣!废弃世界与新战斗就在今夏

无障碍浏览 进入关怀版