网易首页 > 网易科技 > 网易科技 > 正文

Claude 3为何能媲美GPT-4?

0
分享至

出品丨网易科技《态度》

作者丨赵芙瑶

编辑丨丁广胜

GPT-4劲敌来了?“杀手锏”总是来的静悄悄,Anthropic 默默发布了Claude3,在业界引起了一次“大地震”。

Claude 3为何能媲美GPT-4?

Anthropic声称,此次发布的模型在一系列认知任务中设定了新的行业基准,甚至在某些情况下达到了“接近人类”水平。如果是其它模型这样“自吹自擂”,怕是早就被喷的体无完肤了,但是Anthropic的创始团队来源于OpenAI,2021年因观念不和才退出公司并自立门户,可以说是OpenAI的最强对手之一了,实力不容小觑。

Anthropic 这次一口气发布了三个人工智能语言模型,这三个模型的复杂性和参数数量排序依次为:Claude 3 Haiku,Claude 3 Sonnet和Claude 3 Opus。

其中Haiku响应速度快、成本最低,包含多模态能力;Sonnet的成本和性能较为平衡,适合有预算使用AI,但预算不多的群体。Opus拥有接近人类的理解能力,适用于需要高度智能和复杂任务处理的场景,想要使用Opus的话需要订阅“Claude Pro”服务,每月收费20美元。

Claude的三个模型都具有20万标记上下文窗口,而GPT-4 Turbo的上下文窗口为12.8万,也就是说,Claude一次性能处理的文本量是远远高于GPT的,同时,它也提供API给开发者使用。

我们再来看看Claude官网透露的最新价格。其中MTok表示百万Token,Opus每100万条token收费15美元,相比之下,GPT-4 Turbo模型的每百万token的收费仅为10美元。不过,Haiku的价格低于GPT3.5,可以说使用Claude的话,丰俭由人了。

依靠合成数据 安全性强于GPT?

2023年3月,Claude问世,7月Claude 2发布,但是彼时并未引起太大的水花。因为每次,Anthropic在性能方面都略微落后于OpenAI的最佳模型,但在上下文窗口长度方面超过OpenAI。随着Claude 3的发布,Anthropic的性能或许可以与OpenAI一较高下了。

根据Anthropic的说法,Claude 3 Opus在10个AI基准测试中超过了GPT-4,包括MMLU(本科水平知识)、GSM8K(小学数学)、HumanEval(编码)以及名为HellaSwag(常识)的基准测试。其中一些测试只是“险胜”,例如在MMLU的五次试验中,Opus以86.8%战胜了GPT-4的86.4%,而有些测试则是“赢很大”,例如在HumanEval上,Opus的90.7%超过了GPT-4的67.0%。但这到底对用户来说意味着什么,还很难界定。

“一如既往,应该对LLM基准持一些怀疑态度。”AI研究员Simon Willison公开评价道。“模型在基准测试中的表现并不能告诉你模型在使用中‘感觉’如何。但这仍然是一件大事—没有其他模型在一系列广泛使用的基准测试中击败GPT-4。”

与其前身相比,Claude 3模型还具有增强的视觉能力,使其能够处理照片、图表和图解等视觉格式,类似于ChatGPT的DALLE-3和Google的Gemini。

除此之外,Anthropic在Claude 3通过在训练过程中使用合成数据实现其能力提升,也就是说,Claude 3的原创能力没有那么强。

据外媒实测,Opus在能力上类似于ChatGPT-4,它不能编写原创的笑话(所有笑话似乎都来自网络),在总结信息和以各种风格撰写文本方面表现得相当不错,对于逻辑分析单词问题也表现得相当好,而且幻觉似乎确实相对较低(但在询问一些更为晦涩的话题时,还是看到了一些错误的回答)。

Anthropic在安全性方面可以说做足了功课,也正是因为重视AI安全,Anthropic当年才与OpenAI分家。Anthropic表示将确保安全措施与AI性能的进步保持同步,并且Claude 3模型“目前几乎没有潜在的灾难风险”。Anthropic也一直在进行红队测试,并且制定了一套框架,用于评估和减轻 AI 模型可能带来的潜在风险,路线比GPT更保守。

支持图像输入 努力避免人工智能偏见

Anthropic此次推出的三个模型都支持图像输入,这是一项需求量很大的功能,特别是对于图像中的文本识别等应用。许多企业需要从图像、文档、图表和图表中提取信息的用例,Claude 3可以来帮忙了。

“许多客户的数据要么是高度非结构化的,要么是某种视觉格式的,仅仅必须手动复制这些信息才能使其与生成式人工智能工具交互的过程就相当麻烦了。”Anthropic 总裁兼联合创始人 Daniela 道出了如今用户的痛点。

此前,人们发现谷歌的Gemini在生成图像时存在一些BUG。例如,用户让Gemini生成过歧视性照片。谷歌的回应是禁用 Gemini 的图像生成功能并发表道歉,称正在努力进行改善。但是有专家表示,这种情况说明了人工智能偏见依然存在。

导致人工智能存在偏见的原因很简单,主要是因为训练数据偏见、算法偏见、特征选择偏见和标签偏见,也有可能是因为数据缺乏多样性。

Daniela也承认,用目前的方法可能无法实现完全无偏见的人工智能:“我认为,创建一个完全中立的生成式人工智能工具几乎是不可能的,不仅在技术上,而且还因为并不是每个人都同意什么是中立。”

那么Anthropic如何减少人工智能偏见带来的影响呢? 其战略的一部分是“宪法人工智能”,也就是说模型经过调整以遵循“宪法”中定义的原则。2023年4月,Anthropic开源宪法人工智能(Constitutional AI)引起了大范围讨论,Anthropic一直都在争做“遵纪守法”的AI。

微软携手OpenAI Anthropic“背靠”亚马逊?

背靠大树好乘凉,Anthropic也深谙此理,Claude 3发布后,亚马逊也透露了更多和Anthropic合作的细节。

亚马逊AWS宣布,Anthropic的Claude 3系列最先进模型将在Amazon Bedrock上提供,增强了各种规模的客户快速测试、构建和部署生成人工智能(AI)应用程序的能力。Claude 3模型具有高级视觉能力,能够处理各种数据格式,分析图像数据,满足客户对更好理解图表、图表、技术图解、照片等视觉资产的需求。

Amazon Bedrock的客户,包括ADP、Intuit、Pfizer等,已经在构建生成AI应用程序方面使用Anthropic的Claude技术,并将在未来几周内获得Claude 3模型。Anthropic的Claude 3模型扩展了Amazon Bedrock的生成AI模型范围,提供了更多的模型选择。

Amazon Bedrock的客户也已经在使用Claude构建生成AI应用程序,包括从体育到旅行再到生命科学等各个行业的组织。这些组织使用Claude模型自动化任务、创建新的用户界面应用程序。

Anthropic还表示将使用AWS Trainium和Inferentia芯片构建、训练和部署其未来的基础模型,并表示AWS将成为Anthropic的主要云提供商。Anthropic的Claude 3模型将进一步丰富Amazon Bedrock的生成AI模型选择,给客户更多的模型选择权。

结语

无论如何,Claude3模型发布都标志着人工智能领域的又一次巨大飞跃,这不仅是技术的竞赛,更是有关创新和安全的一场“持久战”。

不同公司和团队的竞争推动了技术的不断演进,也让我们见证了人工智能在不同领域的广泛应用。在技术进步的同时,与之相伴的挑战是其安全性和道德性。Anthropic对于人工智能偏见的关注以及对模型安全性的强调,或许会成为其与OpenAI竞争的重要筹码。

一面是追求商业利益、采取激进的发展策略、还陷入与马斯克纷争的OpenAI,一面是保守派、遵纪守法、团队同样强大的Anthropic,你看好哪家公司呢?

延伸阅读
相关推荐
热点推荐
辽宁舰继续北上,日方拨通了中方电话,请求中方高抬贵手放一马

辽宁舰继续北上,日方拨通了中方电话,请求中方高抬贵手放一马

王裕庆
2025-12-12 17:44:48
三亚红毯成"照妖镜"!章子怡假发出糗,孙俪深V险走光,邓超显老

三亚红毯成"照妖镜"!章子怡假发出糗,孙俪深V险走光,邓超显老

小徐讲八卦
2025-12-11 07:56:23
WTT总决赛战报!女单决赛对阵出炉,王曼昱强势零封,孙颖莎遗

WTT总决赛战报!女单决赛对阵出炉,王曼昱强势零封,孙颖莎遗

知轩体育
2025-12-13 22:13:32
史上最贵!2026世界杯决赛票价公布

史上最贵!2026世界杯决赛票价公布

先锋新闻
2025-12-13 12:07:22
刘国梁必须要道歉!孙颖莎被折腾受伤退赛,蒯曼不用担心受牵连了

刘国梁必须要道歉!孙颖莎被折腾受伤退赛,蒯曼不用担心受牵连了

三十年莱斯特城球迷
2025-12-13 21:31:58
山东男篮为何不敌北控?赛后主教练邱彪给出了答案,球迷却不买账

山东男篮为何不敌北控?赛后主教练邱彪给出了答案,球迷却不买账

萌兰聊个球
2025-12-13 22:52:29
男子从医院带走上万个被堕胎的婴尸,养了100个孩子,真相曝光后,所有人沉默了…

男子从医院带走上万个被堕胎的婴尸,养了100个孩子,真相曝光后,所有人沉默了…

明月光
2025-12-12 20:55:14
新国标允许载12岁以下儿童,新车却无后座?车企:不砍超标没法卖

新国标允许载12岁以下儿童,新车却无后座?车企:不砍超标没法卖

诗意世界
2025-12-12 22:57:35
17投狂轰36分7助!超级外援大杀四方,张庆鹏提前收获季后赛法宝

17投狂轰36分7助!超级外援大杀四方,张庆鹏提前收获季后赛法宝

老叶评球
2025-12-13 22:25:17
曾仕强先生曾明确作出预言:台湾的回归,会由一个谁都想不到的人

曾仕强先生曾明确作出预言:台湾的回归,会由一个谁都想不到的人

忠于法纪
2025-12-12 09:17:30
张庆鹏率队手刃旧主,里勒36+7力压克里斯26+9

张庆鹏率队手刃旧主,里勒36+7力压克里斯26+9

老表是个手艺人
2025-12-13 22:58:16
佟丽娅光脚丫干净又卫生

佟丽娅光脚丫干净又卫生

动物奇奇怪怪
2025-12-13 14:25:43
短剧演员榜名次大变,刘萧旭跌下神坛,第9新面孔,作品杀疯了!

短剧演员榜名次大变,刘萧旭跌下神坛,第9新面孔,作品杀疯了!

可乐谈情感
2025-12-13 10:46:46
石破茂再批高市:中国已不是百年前中国,当年侵华那招不好使了

石破茂再批高市:中国已不是百年前中国,当年侵华那招不好使了

通文知史
2025-12-12 21:00:05
“血糖疫苗”问世:一年两针,3类人最合适接种

“血糖疫苗”问世:一年两针,3类人最合适接种

岐黄传人孙大夫
2025-12-12 17:05:02
新华鲜报|寒潮叩问大地!守护温暖是最有力的回答

新华鲜报|寒潮叩问大地!守护温暖是最有力的回答

新华社
2025-12-12 14:53:56
放弃争夺数百亿遗产,带着女儿远遁美国,如今才知道她有多清醒

放弃争夺数百亿遗产,带着女儿远遁美国,如今才知道她有多清醒

社会日日鲜
2025-12-13 06:42:52
又一则励志新闻翻车了!

又一则励志新闻翻车了!

清书先生
2025-10-21 15:51:40
林允儿最新照肥了不少,胯也大了

林允儿最新照肥了不少,胯也大了

手工制作阿歼
2025-12-06 03:22:09
表演开始!两周连升10位,穆里尼奥不只是神奇,还有知遇之恩

表演开始!两周连升10位,穆里尼奥不只是神奇,还有知遇之恩

生活新鲜市
2025-12-13 19:48:35
2025-12-13 23:52:49

科技要闻

比亚迪、小鹏、北汽,集体表态

头条要闻

百万支体温计2周抢空 有老板备20万现金一箱货都没买到

头条要闻

百万支体温计2周抢空 有老板备20万现金一箱货都没买到

体育要闻

有了风骚白人秃头,忘掉谈了10年的前任

娱乐要闻

插刀门后,印小天一举动实现口碑逆转

财经要闻

镁信健康闯关港交所:被指窃取商业秘密

汽车要闻

表面风平浪静 内里翻天覆地!试驾银河星舰7 EM-i

态度原创

健康
游戏
时尚
公开课
军事航空

甲状腺结节到这个程度,该穿刺了!

《古墓丽影:催化剂》将呈现更成熟的劳拉形象

法式方头靴的30种穿法,时髦不重样!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄乌“和平计划”磋商顿巴斯成焦点

无障碍浏览 进入关怀版
×