网易首页 > 网易科技 > 网易科技 > 正文

Claude 3为何能媲美GPT-4?

0
分享至

出品丨网易科技《态度》

作者丨赵芙瑶

编辑丨丁广胜

GPT-4劲敌来了?“杀手锏”总是来的静悄悄,Anthropic 默默发布了Claude3,在业界引起了一次“大地震”。

Claude 3为何能媲美GPT-4?

Anthropic声称,此次发布的模型在一系列认知任务中设定了新的行业基准,甚至在某些情况下达到了“接近人类”水平。如果是其它模型这样“自吹自擂”,怕是早就被喷的体无完肤了,但是Anthropic的创始团队来源于OpenAI,2021年因观念不和才退出公司并自立门户,可以说是OpenAI的最强对手之一了,实力不容小觑。

Anthropic 这次一口气发布了三个人工智能语言模型,这三个模型的复杂性和参数数量排序依次为:Claude 3 Haiku,Claude 3 Sonnet和Claude 3 Opus。

其中Haiku响应速度快、成本最低,包含多模态能力;Sonnet的成本和性能较为平衡,适合有预算使用AI,但预算不多的群体。Opus拥有接近人类的理解能力,适用于需要高度智能和复杂任务处理的场景,想要使用Opus的话需要订阅“Claude Pro”服务,每月收费20美元。

Claude的三个模型都具有20万标记上下文窗口,而GPT-4 Turbo的上下文窗口为12.8万,也就是说,Claude一次性能处理的文本量是远远高于GPT的,同时,它也提供API给开发者使用。

我们再来看看Claude官网透露的最新价格。其中MTok表示百万Token,Opus每100万条token收费15美元,相比之下,GPT-4 Turbo模型的每百万token的收费仅为10美元。不过,Haiku的价格低于GPT3.5,可以说使用Claude的话,丰俭由人了。

依靠合成数据 安全性强于GPT?

2023年3月,Claude问世,7月Claude 2发布,但是彼时并未引起太大的水花。因为每次,Anthropic在性能方面都略微落后于OpenAI的最佳模型,但在上下文窗口长度方面超过OpenAI。随着Claude 3的发布,Anthropic的性能或许可以与OpenAI一较高下了。

根据Anthropic的说法,Claude 3 Opus在10个AI基准测试中超过了GPT-4,包括MMLU(本科水平知识)、GSM8K(小学数学)、HumanEval(编码)以及名为HellaSwag(常识)的基准测试。其中一些测试只是“险胜”,例如在MMLU的五次试验中,Opus以86.8%战胜了GPT-4的86.4%,而有些测试则是“赢很大”,例如在HumanEval上,Opus的90.7%超过了GPT-4的67.0%。但这到底对用户来说意味着什么,还很难界定。

“一如既往,应该对LLM基准持一些怀疑态度。”AI研究员Simon Willison公开评价道。“模型在基准测试中的表现并不能告诉你模型在使用中‘感觉’如何。但这仍然是一件大事—没有其他模型在一系列广泛使用的基准测试中击败GPT-4。”

与其前身相比,Claude 3模型还具有增强的视觉能力,使其能够处理照片、图表和图解等视觉格式,类似于ChatGPT的DALLE-3和Google的Gemini。

除此之外,Anthropic在Claude 3通过在训练过程中使用合成数据实现其能力提升,也就是说,Claude 3的原创能力没有那么强。

据外媒实测,Opus在能力上类似于ChatGPT-4,它不能编写原创的笑话(所有笑话似乎都来自网络),在总结信息和以各种风格撰写文本方面表现得相当不错,对于逻辑分析单词问题也表现得相当好,而且幻觉似乎确实相对较低(但在询问一些更为晦涩的话题时,还是看到了一些错误的回答)。

Anthropic在安全性方面可以说做足了功课,也正是因为重视AI安全,Anthropic当年才与OpenAI分家。Anthropic表示将确保安全措施与AI性能的进步保持同步,并且Claude 3模型“目前几乎没有潜在的灾难风险”。Anthropic也一直在进行红队测试,并且制定了一套框架,用于评估和减轻 AI 模型可能带来的潜在风险,路线比GPT更保守。

支持图像输入 努力避免人工智能偏见

Anthropic此次推出的三个模型都支持图像输入,这是一项需求量很大的功能,特别是对于图像中的文本识别等应用。许多企业需要从图像、文档、图表和图表中提取信息的用例,Claude 3可以来帮忙了。

“许多客户的数据要么是高度非结构化的,要么是某种视觉格式的,仅仅必须手动复制这些信息才能使其与生成式人工智能工具交互的过程就相当麻烦了。”Anthropic 总裁兼联合创始人 Daniela 道出了如今用户的痛点。

此前,人们发现谷歌的Gemini在生成图像时存在一些BUG。例如,用户让Gemini生成过歧视性照片。谷歌的回应是禁用 Gemini 的图像生成功能并发表道歉,称正在努力进行改善。但是有专家表示,这种情况说明了人工智能偏见依然存在。

导致人工智能存在偏见的原因很简单,主要是因为训练数据偏见、算法偏见、特征选择偏见和标签偏见,也有可能是因为数据缺乏多样性。

Daniela也承认,用目前的方法可能无法实现完全无偏见的人工智能:“我认为,创建一个完全中立的生成式人工智能工具几乎是不可能的,不仅在技术上,而且还因为并不是每个人都同意什么是中立。”

那么Anthropic如何减少人工智能偏见带来的影响呢? 其战略的一部分是“宪法人工智能”,也就是说模型经过调整以遵循“宪法”中定义的原则。2023年4月,Anthropic开源宪法人工智能(Constitutional AI)引起了大范围讨论,Anthropic一直都在争做“遵纪守法”的AI。

微软携手OpenAI Anthropic“背靠”亚马逊?

背靠大树好乘凉,Anthropic也深谙此理,Claude 3发布后,亚马逊也透露了更多和Anthropic合作的细节。

亚马逊AWS宣布,Anthropic的Claude 3系列最先进模型将在Amazon Bedrock上提供,增强了各种规模的客户快速测试、构建和部署生成人工智能(AI)应用程序的能力。Claude 3模型具有高级视觉能力,能够处理各种数据格式,分析图像数据,满足客户对更好理解图表、图表、技术图解、照片等视觉资产的需求。

Amazon Bedrock的客户,包括ADP、Intuit、Pfizer等,已经在构建生成AI应用程序方面使用Anthropic的Claude技术,并将在未来几周内获得Claude 3模型。Anthropic的Claude 3模型扩展了Amazon Bedrock的生成AI模型范围,提供了更多的模型选择。

Amazon Bedrock的客户也已经在使用Claude构建生成AI应用程序,包括从体育到旅行再到生命科学等各个行业的组织。这些组织使用Claude模型自动化任务、创建新的用户界面应用程序。

Anthropic还表示将使用AWS Trainium和Inferentia芯片构建、训练和部署其未来的基础模型,并表示AWS将成为Anthropic的主要云提供商。Anthropic的Claude 3模型将进一步丰富Amazon Bedrock的生成AI模型选择,给客户更多的模型选择权。

结语

无论如何,Claude3模型发布都标志着人工智能领域的又一次巨大飞跃,这不仅是技术的竞赛,更是有关创新和安全的一场“持久战”。

不同公司和团队的竞争推动了技术的不断演进,也让我们见证了人工智能在不同领域的广泛应用。在技术进步的同时,与之相伴的挑战是其安全性和道德性。Anthropic对于人工智能偏见的关注以及对模型安全性的强调,或许会成为其与OpenAI竞争的重要筹码。

一面是追求商业利益、采取激进的发展策略、还陷入与马斯克纷争的OpenAI,一面是保守派、遵纪守法、团队同样强大的Anthropic,你看好哪家公司呢?

延伸阅读
相关推荐
热点推荐
上诉了!上诉了!倾家族之力想保一条命?金毛还想逆风翻盘?

上诉了!上诉了!倾家族之力想保一条命?金毛还想逆风翻盘?

魔都姐姐杂谈
2025-12-17 08:58:26
吴晗:我曾劝过姚雪垠不要过于美化李自成,小说只写三卷就够了!

吴晗:我曾劝过姚雪垠不要过于美化李自成,小说只写三卷就够了!

史之铭
2025-12-18 01:34:01
被拐21年后,小伙卖房卖车、辞职、改户口,回到亲生父母身边!本人回应“家庭条件”质疑

被拐21年后,小伙卖房卖车、辞职、改户口,回到亲生父母身边!本人回应“家庭条件”质疑

封面新闻
2025-12-17 00:37:11
中外双标?康师傅红烧牛肉面在海外标注的是“红烧牛肉味”

中外双标?康师傅红烧牛肉面在海外标注的是“红烧牛肉味”

食悟
2025-12-15 15:44:28
150年后才再看太平天国,才发现:它最大贡献或是改变了中国命运

150年后才再看太平天国,才发现:它最大贡献或是改变了中国命运

夏目历史君
2025-12-17 21:01:43
哈佛大学惊奇发现:寿命和晚饭有关!晚饭吃的越多,活的就越久?

哈佛大学惊奇发现:寿命和晚饭有关!晚饭吃的越多,活的就越久?

阿捤武器装备科普
2025-12-16 19:00:35
北京94-81辽宁!赛后看看各大媒体人怎么说,杨鸣或被追罚

北京94-81辽宁!赛后看看各大媒体人怎么说,杨鸣或被追罚

天光破云来
2025-12-18 00:28:49
别吃太清淡,181个国家研究:吃得越咸,寿命可能越长?真相来了

别吃太清淡,181个国家研究:吃得越咸,寿命可能越长?真相来了

岐黄传人孙大夫
2025-12-17 09:05:37
善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

社会日日鲜
2025-12-17 08:13:19
皇马换帅实锤?内部人士确认阿隆索下课计划,继任者已锁定

皇马换帅实锤?内部人士确认阿隆索下课计划,继任者已锁定

夜白侃球
2025-12-17 22:15:42
崩溃!10中1、正负值-32!杨瀚森真带不动...

崩溃!10中1、正负值-32!杨瀚森真带不动...

体育新角度
2025-12-17 19:08:41
上海一大妈走后留700万,银行要求本人签字才给,女儿做法太解气

上海一大妈走后留700万,银行要求本人签字才给,女儿做法太解气

兰姐说故事
2025-03-19 15:00:05
香港再无董建华

香港再无董建华

华人星光
2025-11-25 12:01:27
清朝条约不让售卖之后,电商平台又上架了一批满清条约

清朝条约不让售卖之后,电商平台又上架了一批满清条约

映射生活的身影
2025-12-16 16:06:59
2028年奥运会男足名额分配:亚足联2.5个名额,欧足联4个名额

2028年奥运会男足名额分配:亚足联2.5个名额,欧足联4个名额

懂球帝
2025-12-17 22:03:05
高市早苗当局:2026年起将取消中国留学生在日打工收入的免税政策

高市早苗当局:2026年起将取消中国留学生在日打工收入的免税政策

达文西看世界
2025-12-15 18:51:59
美国一父亲去殡仪馆领亡子衣物,回家倒洗衣机却看见儿子大脑

美国一父亲去殡仪馆领亡子衣物,回家倒洗衣机却看见儿子大脑

潇湘晨报
2025-12-17 16:14:57
人数不够,票价来凑?《阿凡达3》票价太高引争议,吃相真难看

人数不够,票价来凑?《阿凡达3》票价太高引争议,吃相真难看

娱乐圈笔娱君
2025-12-17 14:15:17
克洛普直言:这四位才是足坛历史传奇主帅,安切洛蒂被无视!

克洛普直言:这四位才是足坛历史传奇主帅,安切洛蒂被无视!

澜归序
2025-12-18 01:38:00
11岁成爆红童星!叶子诚去世得年25岁,家属悲痛证实

11岁成爆红童星!叶子诚去世得年25岁,家属悲痛证实

包饺子ai剪辑
2025-12-17 14:15:26
2025-12-18 03:51:00

科技要闻

特斯拉值1.6万亿靠画饼 Waymo值千亿靠跑单

头条要闻

万斯公开与特朗普唱反调 承认美国人生活成本高涨

头条要闻

万斯公开与特朗普唱反调 承认美国人生活成本高涨

体育要闻

短短一年,从争冠到0胜垫底...

娱乐要闻

狗仔曝热播剧姐弟恋真谈了???

财经要闻

重磅信号!收入分配制度或迎重大突破

汽车要闻

一车多动力+双姿态 长城欧拉5上市 限时9.18万元起

态度原创

数码
艺术
健康
本地
公开课

数码要闻

RGB-Mini LED迎来“跨年夜”,“光色同控”从电视走向桌面

艺术要闻

毛主席书写林则徐诗词,字迹超凡,引发关注。

这些新疗法,让化疗不再那么痛苦

本地新闻

云游安徽|踏过战壕与石板,读一部活的淮北史

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×