网易首页 > 网易号 > 正文 申请入驻

Claude 3 追上 GPT-4,它来自怎样一家公司?丨TECH TUESDAY

0
分享至

最熟悉 OpenAI 的团队,用更少的资源开发大模型。

文丨贺乾明 朱丽琨
编辑丨黄俊杰

OpenAI 的 GPT-4 发布一年后,终于有了一个评测指标全面超越它的大模型。

3 月 4 日,Anthropic 发布三个版本的大模型系列 Claude 3,性能由强到弱分别是:Opus (拉丁语 “作品”)、Sonnet(英语 “十四行诗”)和 Haiku(日语 “俳句” 的音译)。

Anthropic 列出的十项常用模型能力评估数据集表现,Opus 得分全都超过 GPT-4,视觉识别能力评估数据集上的情况也一样。

Claude 3 的另两款模型智能水平不及 Opus,但用起来更便宜,适用需要快速响应的场景,比如 Haiku 可以 3 秒阅读 1 万字的论文。Anthropic 没有公布两个模型的参数,也没有提是否能用在手机上。

从部分开发者的测评反馈来看,Opus 的能力似乎与 GPT-4 接近。有一些开发者用 Opus 的视觉识别能力打扑克牌、麻将,还赢了几把。

Google 上月发布的 Gemini Ultra 版本大语言模型被认为在技术上追平 GPT-4,但很快陷入 “政治不正确” 泥潭。Anthropic 出现类似问题的概率更低——它比大多数公司都更看重大模型的 “普世价值观”。

相比 Google,Anthropic 的模型追上 GPT-4 给 OpenAI 的冲击更大。与 OpenAI 相比,它用的时间和资源更少。Anthropic 称,大模型还没有达到极限,他们计划未来几个月内密集更新 Claude 3 模型系列。

最熟悉 OpenAI 的团队

Anthropic 的模型赶上 GPT-4 并不只靠堆砌资源,他们本就是熟悉 OpenAI 技术路线的团队。成立于 2021 年的 Anthropic 早期的团队成员全部来自 OpenAI,他们具备开发一款大模型需要的不同能力。

Anthropic 联合创始人、CEO 达里奥·阿莫代(Dario Amodei)在 OpenAI 工作 5 年,离职前担任研发副总裁,参与了 GPT-2、GPT-3 的研究。最初 OpenAI 尝试多种方法探索 AI 的可能性,比如游戏、机械手。是阿莫代和 OpenAI 首席科学家伊利亚·苏茨克维尔(Ilya Sutskever)一起确定了 OpenAI 专注研究大语言模型。

另一位联合创始人萨姆·麦坎利什(Sam McCandlish)在 OpenAI 负责研究如何扩展大模型,是大模型规模定律(Scaling Law)的核心作者。

Scaling Law 被称为大模型成功的关键之一。它可以较为准确地预测,随着大模型参数增长,模型的训练效率、能力上限会到什么程度,从而帮研究者更好地设计模型架构、分配训练模型的资源等。

此外,团队中还有负责 GPT-3 训练基础设施的汤姆·布朗(Tom Brown)、参与数据处理的本杰明·曼恩(Benjamin Mann)、参与算法研究的尼古拉斯·约瑟夫(Nicholas Joseph)等人。

Anthropic 因此也被称为最有可能与 OpenAI 竞争的公司。接下来两年,让 Anthropic 开发大模型的资源迅速补齐。截至 2023 年底,Anthropic 从亚马逊、Google、Salesforce 等投资者手中筹集 70 多亿美元,融资规模仅次于 OpenAI。

这些投资人不只为 Anthropic 提供资金,还提供稀缺的算力资源,Claude 3 就是用 AWS 和 Google 的云计算平台的硬件训练出来的。

重点研究 RLHF,追求安全带来性能提升

Anthropic 与 OpenAI 最大的分歧是如何让大模型更安全。根据多家媒体报道,达里奥·阿莫代等人 2020 年底离开 OpenAI 是因为不满公司更偏重盈利,降低大模型的安全研究的优先级。当时 OpenAI 发布 GPT-3 的 API,加快商业化节奏。

在 Anthropic,他们的目标是开发一个 “有用、诚实、无害” 的大模型,而且无害的重要性不比有用低。

去年 7 月,《纽约时报》的专栏作家凯文·罗斯(Kevin Roose)去 Anthropic 采访多位工程师,发现大多数人都更愿意谈自己对人工智能的恐惧,还有人因此失眠。“我感觉自己像一个美食作家,去报道一家时尚的新餐厅,而厨房的工作人员只想谈食物中毒。”

对安全的关注,让 Anthropic 投入大量资源研究基于人类反馈的强化学习(RLHF)技术。

训练一个大模型有预训练(pre-training)加精调(fine-tuning)两个步骤,前者是用庞大数据训练出初版的大模型,它不针对具体任务。精调是给模型一些具体任务的数据,提升模型的效果,它也会调整模型的价值观以跟设计者保持一致。

RLHF 是一种精调大模型的方法,现在被证明是提升模型能力的关键。RLHF 的具体做法是,模型开发者招募大量人类标注员,让他们写回答教大模型什么是人类想要的答案,还会对大模型反馈的不同答案评分,告诉它哪个更好,让机器按人类的反馈改进。

去年发布 GPT-4 时,OpenAI 称,与 GPT-3.5 相比,仅经过预训练的 GPT-4 在回答事实性测试题时表现没什么改进,但经过 RLHF 训练后,其评估得分提升了 40%。

Anthropic 对 RLHF 的研究走得更远。他们在一篇论文中提到,因为 RLHF 训练环节靠人评估,而人会偏向符合自己预期的答案,所以会导致大模型出现阿谀奉承的情况,即反馈的答案迎合人类需求,但不一定正确。

在 RLHF 的基础上,Anthropic 开发出 “宪法式人工智能”(Constitutional AI)解决这些问题。Anthropic 在技术文档中写道,“宪法式人工智能” 是他们训练 Claude 3 的关键步骤。

用普通人为 AI 设立 “价值观”

在最近这次新模型发布前几天,Anthropic 联合创始人丹妮拉·阿莫代(Daniela Amodei)在一次访谈中再次提到 RLHF 和他们重点研究的 “宪法式人工智能” 的差异。“RLHF 改变模型行为相当有效,但很难调整模型深层次的一些反应和信念。” 她说,“所以我们想赋予模型一种更广泛的 ‘宪法’,就像在人类社会里的那些基本原则,让模型知道哪些行动和参与社会的方式是好的。”

Anthropic 在一篇介绍 “宪法式人工智能” 的公告中写道:“无论有意无意,AI 模型会形成自己的价值体系。” 他们比其他大模型创业公司花更多精力研究人类社会,试图将一些跨越国界、种族的 “基本共识” 用于培养 AI 的价值观。

Anthropic 撰写给 AI 模型的初版 “宪法” 中,几条原则来自 1948 年出版的联合国人权宣言,另有几条原则受到苹果公司服务条款的启发,补充回应 1948 年人类还没遇到的数据隐私问题。“宪法” 还包括 Anthropic 训练模型时总结的、以及 DeepMind 等其他前沿 AI 实验室确立的价值观。Anthropic 声称他们也试图 “鼓励模型考虑不仅仅来自西方、富人阶层或工业化文化的价值观和观点。”

2023 年 10 月,Anthropic 公布了 “宪法式人工智能” 的最新成果,把这个有关 “基本共识” 的研究延伸成一场更广泛的公民实践。他们邀请约 1000 位美国公民协助他们制定大语言模型回答问题时的原则。

这 1000 多位参与者中,近 400 人年龄在 50 岁以上,还有约 100 位超过 70 岁——总是中青年在主导科技前沿浪潮,老年人在其中近乎隐形,Anthropic 的样本选择或将减少年龄带来的偏见。

Anthropic 在这次研究的报告中总结,这次公开征集的原则比 Anthropic 团队的原始版本更注重大模型回应时的 “客观性和公正性”,如新增的原则 “选择最平衡客观信息、反映事情各方面的回应”“选择对残障人士最包容、适应、友善和灵活的回应。” 一些人类自己还在争论不休的价值观不会纳入新准则,如 AI 到底该优先考虑集体利益还是优先考虑个人的责任和自由。这项研究最终确定了 75 条原则——其中四成是本次研究中新增的——用于后续的模型训练。

在达里奥·阿莫代的设想中,想把 Anthropic 的理念变成现实,最有效的方法就是自己研发出领先大模型,这样才能理解先进的大模型会遇到什么问题,从而找出解决办法。

研发出更安全的大模型后,他也不打算延续 OpenAI 最初的愿景——靠开放、开源让更多人用上好的 AI。

Anthropic 成立至今,都没有详细公布 Claude 系列模型是具体如何训练出来的,也不打算开源。他们认为,如果没有做好充分的保护措施,开源大模型会导致滥用。

在曾经普遍拥抱开源的硅谷 AI 界,今天模型产品技术最领先的三个团队 OpenAI、Google DeepMind、Anthropic 都带着类似的自负走向另一个方向:AI 是个危险的技术,不能开源开放,必须商业化运营。毕竟,只有自己才靠得住。

题图:Anthropic 的 CEO 达里奥·阿莫代(Dario Amodei),来源:视觉中国。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全力反华?美国通知北约开始从欧洲撤军,对付俄罗斯自己想办法?

全力反华?美国通知北约开始从欧洲撤军,对付俄罗斯自己想办法?

阿器谈史
2025-11-01 20:20:06
无滤镜后,章子怡发福臃肿,柯淳又矮又挫,冰冰和蔡明傻傻分不清

无滤镜后,章子怡发福臃肿,柯淳又矮又挫,冰冰和蔡明傻傻分不清

卷史
2025-11-01 16:30:36
浙江一女子多次前往境外赌博,不到一年输1300万,卷走公司2000

浙江一女子多次前往境外赌博,不到一年输1300万,卷走公司2000

三农老历
2025-11-01 13:56:26
江一燕这腰非得要露出来吗?腰上这一圈肉还挺让人出戏的

江一燕这腰非得要露出来吗?腰上这一圈肉还挺让人出戏的

TVB的四小花
2025-11-01 14:36:44
李泽楷做梦也想不到!为他连生3个儿子的梁洛施,会跟马浴柯牵手

李泽楷做梦也想不到!为他连生3个儿子的梁洛施,会跟马浴柯牵手

TVB的四小花
2025-11-01 08:43:27
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
高兴的太早了?特朗普刚回国,两大噩耗袭来,之前努力全白费

高兴的太早了?特朗普刚回国,两大噩耗袭来,之前努力全白费

近史博览
2025-11-01 13:46:28
见识过令人拍案叫绝的临场反应吗?评论区:我等凡人只有五体投地

见识过令人拍案叫绝的临场反应吗?评论区:我等凡人只有五体投地

夜深爱杂谈
2025-10-31 19:29:00
有人问安世破产谁损失大?损失的只有中企,荷兰能有什么损失呢

有人问安世破产谁损失大?损失的只有中企,荷兰能有什么损失呢

南权先生
2025-10-23 12:11:28
陪小三产检被抓现行,老公强硬回怼原配“比你好”,完整对话流出

陪小三产检被抓现行,老公强硬回怼原配“比你好”,完整对话流出

探源历史
2025-11-01 14:06:39
中国3大长寿食物,牛肉只排第三,第一名我们天天见,却吃得的少

中国3大长寿食物,牛肉只排第三,第一名我们天天见,却吃得的少

江江食研社
2025-10-21 14:30:03
村人偷光我家苹果还抵赖,我喷泻药后次日状况出乎意料

村人偷光我家苹果还抵赖,我喷泻药后次日状况出乎意料

晓艾故事汇
2025-10-27 13:00:26
清华大学原校长王希勤的人大代表资格终止

清华大学原校长王希勤的人大代表资格终止

鲁中晨报
2025-10-31 13:11:02
重庆新增一家三甲医院!预计2026年投入使用

重庆新增一家三甲医院!预计2026年投入使用

原广工业
2025-10-31 12:22:40
上海养老金补发到账!每月多领330元,有人一次补超4000元?

上海养老金补发到账!每月多领330元,有人一次补超4000元?

山药蛋TV
2025-11-01 12:14:50
17岁女孩弄丢妈妈,坚守上海火车站17年,卖盒饭为生,现场落泪

17岁女孩弄丢妈妈,坚守上海火车站17年,卖盒饭为生,现场落泪

明德阅读
2025-10-28 19:35:37
北大才女李天乐:赴美留学,入职顶尖药企,用金属铊毒杀清华丈夫

北大才女李天乐:赴美留学,入职顶尖药企,用金属铊毒杀清华丈夫

何嗀爱捕渔
2025-10-27 21:05:57
开拓者击败掘金,不用摆烂了,新赛季有望冲击季后赛!

开拓者击败掘金,不用摆烂了,新赛季有望冲击季后赛!

爱体育
2025-11-01 20:41:55
历史上的施琅、清军攻台

历史上的施琅、清军攻台

名人苟或
2025-10-30 06:31:08
哇太漂亮了,俄罗斯顶级女神,五官绝美,完全符合东方的审美

哇太漂亮了,俄罗斯顶级女神,五官绝美,完全符合东方的审美

陈意小可爱
2025-10-11 15:05:05
2025-11-01 21:23:00
晚点LatePost
晚点LatePost
晚一点,好一点。商业的真相总是在晚点。《晚点LatePost》官方账号
2900文章数 21838关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

美财长吹嘘:我们立规矩对付中国 谁敢不从

头条要闻

美财长吹嘘:我们立规矩对付中国 谁敢不从

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

前CTO索赔42.87亿 158亿股权归属成谜?

汽车要闻

连续8个月销量破万 阿维塔10月销量13506辆

态度原创

教育
艺术
健康
数码
公开课

教育要闻

鸡笼山下开起文学课,著名作家黄蓓佳与南外学子共话阅读

艺术要闻

Aziz Sulaimanov的风景刀画,太治愈了!

核磁VS肌骨超声,谁更胜一筹?

数码要闻

AMD 完成 ZT Systems 数据中心制造业务剥离出售,买家为 Sanmina

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版