网易首页 > 网易科技 > 网易科技 > 正文

Claude 3为何能媲美GPT-4?

0
分享至

出品丨网易科技《态度》

作者丨赵芙瑶

编辑丨丁广胜

GPT-4劲敌来了?“杀手锏”总是来的静悄悄,Anthropic 默默发布了Claude3,在业界引起了一次“大地震”。

Claude 3为何能媲美GPT-4?

Anthropic声称,此次发布的模型在一系列认知任务中设定了新的行业基准,甚至在某些情况下达到了“接近人类”水平。如果是其它模型这样“自吹自擂”,怕是早就被喷的体无完肤了,但是Anthropic的创始团队来源于OpenAI,2021年因观念不和才退出公司并自立门户,可以说是OpenAI的最强对手之一了,实力不容小觑。

Anthropic 这次一口气发布了三个人工智能语言模型,这三个模型的复杂性和参数数量排序依次为:Claude 3 Haiku,Claude 3 Sonnet和Claude 3 Opus。

其中Haiku响应速度快、成本最低,包含多模态能力;Sonnet的成本和性能较为平衡,适合有预算使用AI,但预算不多的群体。Opus拥有接近人类的理解能力,适用于需要高度智能和复杂任务处理的场景,想要使用Opus的话需要订阅“Claude Pro”服务,每月收费20美元。

Claude的三个模型都具有20万标记上下文窗口,而GPT-4 Turbo的上下文窗口为12.8万,也就是说,Claude一次性能处理的文本量是远远高于GPT的,同时,它也提供API给开发者使用。

我们再来看看Claude官网透露的最新价格。其中MTok表示百万Token,Opus每100万条token收费15美元,相比之下,GPT-4 Turbo模型的每百万token的收费仅为10美元。不过,Haiku的价格低于GPT3.5,可以说使用Claude的话,丰俭由人了。

依靠合成数据 安全性强于GPT?

2023年3月,Claude问世,7月Claude 2发布,但是彼时并未引起太大的水花。因为每次,Anthropic在性能方面都略微落后于OpenAI的最佳模型,但在上下文窗口长度方面超过OpenAI。随着Claude 3的发布,Anthropic的性能或许可以与OpenAI一较高下了。

根据Anthropic的说法,Claude 3 Opus在10个AI基准测试中超过了GPT-4,包括MMLU(本科水平知识)、GSM8K(小学数学)、HumanEval(编码)以及名为HellaSwag(常识)的基准测试。其中一些测试只是“险胜”,例如在MMLU的五次试验中,Opus以86.8%战胜了GPT-4的86.4%,而有些测试则是“赢很大”,例如在HumanEval上,Opus的90.7%超过了GPT-4的67.0%。但这到底对用户来说意味着什么,还很难界定。

“一如既往,应该对LLM基准持一些怀疑态度。”AI研究员Simon Willison公开评价道。“模型在基准测试中的表现并不能告诉你模型在使用中‘感觉’如何。但这仍然是一件大事—没有其他模型在一系列广泛使用的基准测试中击败GPT-4。”

与其前身相比,Claude 3模型还具有增强的视觉能力,使其能够处理照片、图表和图解等视觉格式,类似于ChatGPT的DALLE-3和Google的Gemini。

除此之外,Anthropic在Claude 3通过在训练过程中使用合成数据实现其能力提升,也就是说,Claude 3的原创能力没有那么强。

据外媒实测,Opus在能力上类似于ChatGPT-4,它不能编写原创的笑话(所有笑话似乎都来自网络),在总结信息和以各种风格撰写文本方面表现得相当不错,对于逻辑分析单词问题也表现得相当好,而且幻觉似乎确实相对较低(但在询问一些更为晦涩的话题时,还是看到了一些错误的回答)。

Anthropic在安全性方面可以说做足了功课,也正是因为重视AI安全,Anthropic当年才与OpenAI分家。Anthropic表示将确保安全措施与AI性能的进步保持同步,并且Claude 3模型“目前几乎没有潜在的灾难风险”。Anthropic也一直在进行红队测试,并且制定了一套框架,用于评估和减轻 AI 模型可能带来的潜在风险,路线比GPT更保守。

支持图像输入 努力避免人工智能偏见

Anthropic此次推出的三个模型都支持图像输入,这是一项需求量很大的功能,特别是对于图像中的文本识别等应用。许多企业需要从图像、文档、图表和图表中提取信息的用例,Claude 3可以来帮忙了。

“许多客户的数据要么是高度非结构化的,要么是某种视觉格式的,仅仅必须手动复制这些信息才能使其与生成式人工智能工具交互的过程就相当麻烦了。”Anthropic 总裁兼联合创始人 Daniela 道出了如今用户的痛点。

此前,人们发现谷歌的Gemini在生成图像时存在一些BUG。例如,用户让Gemini生成过歧视性照片。谷歌的回应是禁用 Gemini 的图像生成功能并发表道歉,称正在努力进行改善。但是有专家表示,这种情况说明了人工智能偏见依然存在。

导致人工智能存在偏见的原因很简单,主要是因为训练数据偏见、算法偏见、特征选择偏见和标签偏见,也有可能是因为数据缺乏多样性。

Daniela也承认,用目前的方法可能无法实现完全无偏见的人工智能:“我认为,创建一个完全中立的生成式人工智能工具几乎是不可能的,不仅在技术上,而且还因为并不是每个人都同意什么是中立。”

那么Anthropic如何减少人工智能偏见带来的影响呢? 其战略的一部分是“宪法人工智能”,也就是说模型经过调整以遵循“宪法”中定义的原则。2023年4月,Anthropic开源宪法人工智能(Constitutional AI)引起了大范围讨论,Anthropic一直都在争做“遵纪守法”的AI。

微软携手OpenAI Anthropic“背靠”亚马逊?

背靠大树好乘凉,Anthropic也深谙此理,Claude 3发布后,亚马逊也透露了更多和Anthropic合作的细节。

亚马逊AWS宣布,Anthropic的Claude 3系列最先进模型将在Amazon Bedrock上提供,增强了各种规模的客户快速测试、构建和部署生成人工智能(AI)应用程序的能力。Claude 3模型具有高级视觉能力,能够处理各种数据格式,分析图像数据,满足客户对更好理解图表、图表、技术图解、照片等视觉资产的需求。

Amazon Bedrock的客户,包括ADP、Intuit、Pfizer等,已经在构建生成AI应用程序方面使用Anthropic的Claude技术,并将在未来几周内获得Claude 3模型。Anthropic的Claude 3模型扩展了Amazon Bedrock的生成AI模型范围,提供了更多的模型选择。

Amazon Bedrock的客户也已经在使用Claude构建生成AI应用程序,包括从体育到旅行再到生命科学等各个行业的组织。这些组织使用Claude模型自动化任务、创建新的用户界面应用程序。

Anthropic还表示将使用AWS Trainium和Inferentia芯片构建、训练和部署其未来的基础模型,并表示AWS将成为Anthropic的主要云提供商。Anthropic的Claude 3模型将进一步丰富Amazon Bedrock的生成AI模型选择,给客户更多的模型选择权。

结语

无论如何,Claude3模型发布都标志着人工智能领域的又一次巨大飞跃,这不仅是技术的竞赛,更是有关创新和安全的一场“持久战”。

不同公司和团队的竞争推动了技术的不断演进,也让我们见证了人工智能在不同领域的广泛应用。在技术进步的同时,与之相伴的挑战是其安全性和道德性。Anthropic对于人工智能偏见的关注以及对模型安全性的强调,或许会成为其与OpenAI竞争的重要筹码。

一面是追求商业利益、采取激进的发展策略、还陷入与马斯克纷争的OpenAI,一面是保守派、遵纪守法、团队同样强大的Anthropic,你看好哪家公司呢?

延伸阅读
相关推荐
热点推荐
开房事后临时涨价,男子拒付,女子谎报遭强奸被判12个月缓刑监视

开房事后临时涨价,男子拒付,女子谎报遭强奸被判12个月缓刑监视

可达鸭面面观
2025-10-29 10:33:02
浙江盛达海洋股份有限公司原党委书记、董事长、总经理劳敏军接受舟山市纪委监委纪律审查和监察调查

浙江盛达海洋股份有限公司原党委书记、董事长、总经理劳敏军接受舟山市纪委监委纪律审查和监察调查

鲁中晨报
2025-10-29 17:59:13
以色列国防部长:打死数十名哈马斯指挥官!特朗普:停火协议仍然有效

以色列国防部长:打死数十名哈马斯指挥官!特朗普:停火协议仍然有效

每日经济新闻
2025-10-29 18:29:06
湖北省委书记与雷军交流

湖北省委书记与雷军交流

政知新媒体
2025-10-29 10:49:32
特朗普称对中美元首会晤持乐观态度,外交部:愿同美方共同努力取得积极成果

特朗普称对中美元首会晤持乐观态度,外交部:愿同美方共同努力取得积极成果

澎湃新闻
2025-10-29 15:20:31
1250万吨?土耳其可能成为全球稀土储量第三大国,产业链不完善寻求与他国合作

1250万吨?土耳其可能成为全球稀土储量第三大国,产业链不完善寻求与他国合作

红星新闻
2025-10-29 14:43:19
美完成X-59静音超音速飞机首飞

美完成X-59静音超音速飞机首飞

新华社
2025-10-29 12:08:02
离谱!一个玩偶让美联社破防?中国花滑选手遭国际滑联调查

离谱!一个玩偶让美联社破防?中国花滑选手遭国际滑联调查

澎湃新闻
2025-10-29 11:12:28
闹大了!河南一地为禁止燃烧秸秆,发布低俗的宣传标语,引发争议

闹大了!河南一地为禁止燃烧秸秆,发布低俗的宣传标语,引发争议

火山诗话
2025-10-29 06:58:28
美联储今夜必降息?三大终极悬念即将揭晓!

美联储今夜必降息?三大终极悬念即将揭晓!

财联社
2025-10-29 15:22:30
成“老赖”不到48小时,于谦被扒底朝天,杨议的爆料仅冰山一角

成“老赖”不到48小时,于谦被扒底朝天,杨议的爆料仅冰山一角

乡野小珥
2025-10-29 13:08:22
语出惊人!特朗普称原子弹轰炸长崎广岛是小冲突

语出惊人!特朗普称原子弹轰炸长崎广岛是小冲突

看看新闻Knews
2025-10-29 15:19:09
牡丹花下死,做鬼也风流!这一次没有人救得了44岁的宋小宝

牡丹花下死,做鬼也风流!这一次没有人救得了44岁的宋小宝

君笙的拂兮
2025-10-28 19:22:56
高市早苗蹦蹦跳跳,李在明献金冠绝杀

高市早苗蹦蹦跳跳,李在明献金冠绝杀

天真无牙
2025-10-29 14:15:10
冷空气+下雨!广东气温将现“1字头”!网友:准备入冬?

冷空气+下雨!广东气温将现“1字头”!网友:准备入冬?

鲁中晨报
2025-10-29 13:03:18
高铁直达!中国最适合退休后去的6个地方,争取每年去一个!

高铁直达!中国最适合退休后去的6个地方,争取每年去一个!

布拉旅游说
2025-10-28 13:39:04
大陆侦办沈伯洋后,赖清德急了,赶紧喊话郑丽文和国民党,不简单

大陆侦办沈伯洋后,赖清德急了,赶紧喊话郑丽文和国民党,不简单

策略述
2025-10-29 16:57:50
“90后”数学家王虹,再传喜讯

“90后”数学家王虹,再传喜讯

极目新闻
2025-10-29 16:38:20
上了60岁要远离香蕉?医生:不想坐救护车,3种水果别随便进嘴

上了60岁要远离香蕉?医生:不想坐救护车,3种水果别随便进嘴

涵豆说娱
2025-10-29 15:52:58
国家将重点布局六大行业!未来专业选择,终于找到方向!

国家将重点布局六大行业!未来专业选择,终于找到方向!

教育导向分享
2025-10-28 22:01:27
2025-10-29 21:03:00

科技要闻

英伟达GTC:黄仁勋撒钱、造芯、造梦

头条要闻

特朗普称或在中美元首会晤时讨论芬太尼问题 中方回应

头条要闻

特朗普称或在中美元首会晤时讨论芬太尼问题 中方回应

体育要闻

欧美又破防!中国运动员等结果时展示导弹玩偶 国际滑联:已调查

娱乐要闻

她二婚嫁给许绍雄,恩爱40年不离不弃

财经要闻

美联储今夜必降息?三大悬念即将揭晓

汽车要闻

自信大厂做派 全新瑞虎8诠释什么是稳中进化

态度原创

健康
旅游
亲子
艺术
军事航空

肌腱、韧带、滑膜知多少?

旅游要闻

美丽中国丨塞上湖城秋意浓

亲子要闻

6岁小女孩每天都缠着妈妈喂母乳,只要不给就一哭二闹三上吊

艺术要闻

他的画让你感受到水墨的绝美,快来看看!

军事要闻

以军称开始重新执行加沙停火协议

无障碍浏览 进入关怀版
×