网易首页 > 网易号 > 正文 申请入驻

Claude 3 大模型再度点燃 AI 战火,性能和速度全面超越 GPT-4

0
分享至


出品 | 《新程序员》编辑部

还记得 ChatGPT-3.5 刚火的时候,许多人在网上苦苦寻求入门途径,这时,一群前 OpenAI 员工和研究人员出走并创立了 Anthropic,主打安全的旗号,致力于开发更加安全、可控的人工智能系统。

没过多久,紧跟着 GPT-3.5 的发布时间,Anthropic 在 2023 年 3 月推出了 Claude 大模型,直接获得了「ChatGPT 最强平替」的称号,加持着“纯免费”的超级 buff,甚至一同带火了 Quora 创建的名为 Poe 的大模型集成平台。此后,Anthropic 的每次发布都势必对标 GPT,被视为「ChatGPT 最强劲的竞争对手」。

就在昨晚,Anthropic 再次向 OpenAI 伸出一记重拳,重磅发布新一代的人工智能模型系列Claude 3,并宣称该系列的三款产品 Opus、Sonnet 和 Haiku 在推理能力、数学计算、编程、多语言理解和视觉处理等领域树立了新的行业标杆。


Claude 3 系列的三个模型都具有200,000-token的上下文窗口,Opus 主打高水平的“类人智能”,Sonnet 则是结合性能与速度的中庸之选,Haiku 可以执行轻量级操作,兼具性价比和速度。这三个模型的命名分别代表着「作品」、「十四行诗」和「俳句」,从大到小概括了每款模型的特色。

当前,用户可通过电子邮件注册免费使用基于 Sonnet 模型的 Claude.ai 聊天机器人服务。然而,最为强大的模型 Claude 3 Opus 仅在订阅付费后才能通过 Anthropic 网站上的“Claude Pro”服务体验,每月收费 20 美元

目前,Opus 和 Sonnet 已经可以通过 Anthropic 的 API 获取,Haiku 将在随后推出;而 Sonnet 模型除了在 Anthropic API 上可用之外,还已经提前接入亚马逊的 Bedrock 平台,并在 Google Cloud 的 Vertex AI Model Garden 上线。

回想 Claude 的前两次发布,其在能力上都略微落后于 OpenAI 的最佳模型,且 Anthropic 主要宣传的是上下文窗口长度和安全这些重点。这一次,Anthropic 或许终于在性能方面赶超了 OpenAI 的模型。


性能战和价格战——我全都要

相较于前代 Claude 2,Claude 3 在分析、预测、内容创作、代码生成以及多语言对话等方面有所提升。

  • 王牌 Opus 在衡量本科级别专业知识(MMLU)、研究生级别专业推理能力(GPQA)以及基础数学(GSM8k)的测试中,其表现超越了 OpenAI 和谷歌各自最先进的模型 GPT-4 和 Gemini Ultra。

    Opus 的实际速度与 Claude 2 和 2.1 相同,但它的性能要强得多。

  • 作为对比,家中老二 Sonnet 的速度则是 Anthropic 先前最佳模型 Claude 2.1 的两倍,并且拥有更高的智能水平。Anthropic 声称,Sonnet 在需要快速响应的知识检索或销售自动化等智能任务上表现出色。

  • 性价比之选 Haiku 在性能、速度及成本方面均优于同类尺寸的其他模型。它能够在不到三秒钟的时间里阅读一篇包含图表和图形、大约 7500 字的密集型研究论文。

这三个模型都有个共同的特点:可以实时给出“近乎即时的响应”,这使其适合时间至关重要的实时客户聊天、自动完成和数据提取。此外,这些模型还具有增强的视觉能力,能够处理照片、图表、示意图,类似于 GPT-4V 和谷歌的 Gemini。

Anthropic 提供的多模态视觉能力基准图表显示了其在这方面的能力

Anthropic 特别强调,与之前几代及竞品相比,这三个模型在速度和成本效益上均有显著提升(单位为美元):


此外,Claude 3 模型针对部分客户可处理高达 100 万个 token(这一点与 Gemini Pro 1.5 相似),并且在如此庞大的上下文大小的基准测试中,Opus 模型实现了近乎完美的记忆性,准确率超过 99%。同时,Anthropic 声称Claude 3 模型降低了无害提示的拒绝率,并且在减少错误答案的同时表现出更高的准确度。

这一点被英伟达的高级科学家 Jim Fan 盛赞,因为当前大模型对无害问题过于谨慎的回答已成为一个普遍现象,凡事都要反复“叠甲”个好几次才能给你答案。但 Anthropic 意识到了这一问题,并强调了他们在降低拒绝率方面的努力。


同样被 Fan 好评的还有 Claude 在特定领域的专家基准测试。Claude 特意选择了金融、医学和哲学等专家领域,并报告了在这几个领域的性能表现。


这就不得不提到 Claude 3 的重大突破——合成数据的应用。Anthropic 通过在训练过程中使用合成数据来部分实现 Claude 3 的能力提升。合成数据是指内部使用另一款 AI 语言模型生成的数据,该技术可以拓宽训练数据的深度,以弥补抓取数据集中可能缺失的情景。


Anthropic 提供的基准图表进一步展示了其性能表现


大模型的未来:比卷性能更重要的事

许多企业对生成式人工智能的一大顾虑在于其可能出现的“幻觉”,即提供错误的信息输出。以最近发生的加拿大航空案例为例,其 AI 聊天机器人向旅客提供了不准确的退款信息,最终法院判决要求航空公司赔偿该名因得到错误信息而起诉的旅客。

Anthropic 表示,Claude 3-Opus 在整体能力和低幻觉率方面能够超越当前市场领导者 GPT-4 Turbo。而相较于 Claude 2.1,Opus 在给出正确答案和减少错误答案方面的表现提升了两倍。研究者通过三个类别来衡量准确性:正确的答案、错误的答案以及在不确定时选择回答不知道而非错误作答。

自两年前创立以来,Anthropic 始终将构建负责任的人工智能作为优先任务,旨在避免性别歧视、种族歧视以及其他有害输出,并在这次的更新宣布了一条新准则:尊重残疾人的权利,以减轻任何可能加剧刻板印象和偏见的输出。

在未来几个月内,Anthropic 计划定期更新 Claude 3 模型系列,并推出工具使用、交互式编程和“高级代理能力”(advanced agentic capabilities)等新功能。Anthropic 表示将继续致力于确保安全措施跟上 AI 性能的发展步伐,并强调目前 Claude 3 模型“带来灾难性风险的可能性极小”。

这似乎是在暗示 GPT——毕竟 Anthropic 的创始人们之所以会离开 OpenAI,其实就是因为安全理念的不符。

【开发者福利】

对于国内所有开发者而言,可以通过 Amazon Bedrock 立即试用 Claude 3,无需注册账号。下一代 Claude(Claude 3)的三个模型 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 将陆续登陆 Amazon Bedrock。Amazon Bedrock 是目前第一个也是唯一一个提供 Claude 3 Sonnet 托管服务的平台。

据亚马逊云科技官方表示,Amazon Bedrock 和第三方模型仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助开发者了解行业前沿技术和发展海外业务选择推介该服务。但亚马逊云科技也为开发者申请到了测试资源,短期开放、立即可用,欢迎大家通过下面的链接或点击「阅读原文」访问尝鲜:

https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=asdfghjkl12345

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女生欲望强不强,看胸的大小就能知道?

女生欲望强不强,看胸的大小就能知道?

今日养生之道
2024-04-30 19:07:52
“槟榔四巨头”:两年死四个,一天狂炫3包槟榔,有一个割舌保命

“槟榔四巨头”:两年死四个,一天狂炫3包槟榔,有一个割舌保命

普陀动物世界
2024-04-28 10:23:33
“我孩子没做错”,9+9÷3等于12被打红叉,家长质问老师反被打脸

“我孩子没做错”,9+9÷3等于12被打红叉,家长质问老师反被打脸

红丽说教育
2024-04-28 10:51:17
深圳一街道城市更新项目发生坠亡事故!官方披露详情

深圳一街道城市更新项目发生坠亡事故!官方披露详情

南方都市报
2024-04-30 20:08:26
这个世界太疯癫!外卖小哥送餐遇到付费电梯,坐一次5毛,甚至能办月卡!

这个世界太疯癫!外卖小哥送餐遇到付费电梯,坐一次5毛,甚至能办月卡!

可达鸭面面观
2024-04-30 13:13:02
演员张颂文砍价被吐槽穷酸,本人回应

演员张颂文砍价被吐槽穷酸,本人回应

极目新闻
2024-04-29 12:11:58
56岁男子深夜脑梗离世,提醒:晚上不要做4件事,加大脑梗风险

56岁男子深夜脑梗离世,提醒:晚上不要做4件事,加大脑梗风险

39健康网
2024-04-28 11:30:03
无法接受的惨剧:俄军屠杀七千中国人,连婴儿也不放过

无法接受的惨剧:俄军屠杀七千中国人,连婴儿也不放过

梦里大唐
2024-04-28 17:55:23
你的五一假可能“泡汤”!雷雨天广州86%航班延误,一女子滞留机场近20小时

你的五一假可能“泡汤”!雷雨天广州86%航班延误,一女子滞留机场近20小时

极目新闻
2024-04-30 18:10:30
门能打开!博主测试后证实,问界M7断电后门依旧能打开

门能打开!博主测试后证实,问界M7断电后门依旧能打开

映射生活的身影
2024-04-30 10:26:59
南墙别撞:不肯正视再分配,无非就是生扛大萧条

南墙别撞:不肯正视再分配,无非就是生扛大萧条

鹏飞深文
2024-04-29 00:04:44
66岁老太太天天公园晒背,半年后去检查,身体指标有啥变化

66岁老太太天天公园晒背,半年后去检查,身体指标有啥变化

今日养生之道
2024-04-30 18:50:40
天津津门虎0-1北京国安,赛后评分:北京国安34号球员排名第一

天津津门虎0-1北京国安,赛后评分:北京国安34号球员排名第一

侧身凌空斩
2024-04-30 21:33:28
乌军从前线三地“匆忙”撤退

乌军从前线三地“匆忙”撤退

环球时报国际
2024-04-30 07:02:24
重要会议!楼市进入新阶段—“去库存",天津会全面取消限购吗?

重要会议!楼市进入新阶段—“去库存",天津会全面取消限购吗?

刘晓博说楼市
2024-04-30 16:49:23
巴勒斯坦总统称以色列应享有安全环境!哈马斯愿意放下武器?

巴勒斯坦总统称以色列应享有安全环境!哈马斯愿意放下武器?

项鹏飞
2024-04-30 12:04:21
特斯拉中国版FSD被曝将采用百度高辅地图!特斯拉:目前还没有FSD入华时间表【附自动驾驶行业现状分析】

特斯拉中国版FSD被曝将采用百度高辅地图!特斯拉:目前还没有FSD入华时间表【附自动驾驶行业现状分析】

前瞻网
2024-04-29 15:56:22
萨顶顶今年才40岁?网友调侃:周鹏,换个名字我就不认识你了?

萨顶顶今年才40岁?网友调侃:周鹏,换个名字我就不认识你了?

五四观娱
2024-04-29 18:33:29
中央批准!985大学,迎女校长(副部长级)

中央批准!985大学,迎女校长(副部长级)

双一流高校
2024-04-30 17:45:18
伦纳德宣布赛季报销!快船陷入绝境,哈登和乔治出现悲观情绪

伦纳德宣布赛季报销!快船陷入绝境,哈登和乔治出现悲观情绪

张敏
2024-04-30 11:31:30
2024-05-01 00:12:49
CSDN
CSDN
成就一亿技术人
24612文章数 241796关注度
往期回顾 全部

科技要闻

传余承东卸任华为终端BG CEO,何刚接任

头条要闻

媒体:余承东将卸任华为终端BG CEO

头条要闻

媒体:余承东将卸任华为终端BG CEO

体育要闻

穆雷,绝杀了一个时代

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

中共中央政治局:要灵活运用利率和存款准备金率等工具

汽车要闻

越野老炮最爱 哈弗新H9新增2.4T柴油机

态度原创

游戏
教育
数码
时尚
公开课

物华弥新:洛神赋图/十二花卉抽取价值分析!搞清楚这点就行了!

教育要闻

有的地方乡镇的中小学都撤销了,这是逼着农民去县城买房吗?

数码要闻

华为6款新品蓄势待发,HarmonyOS NEXT细节再曝

岁月不败美人,姐姐们的50岁也太好看了

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版