网易首页 > 网易号 > 正文 申请入驻

吊打 GPT-4?我花了 40 刀得出的经验:Claude 3 代码能力不行

0
分享至

作者 | Tina

3 月 5 日 ,OpenAI 的最大竞争对手 Anthropic 刚刚发布了新一代 AI 大模型系列 —— Claude 3。该系列包含三个模型,按能力由弱到强排列分别是:Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus。

比 GPT-4 更强?

Anthropic 表示,Claude 3 Haiku 是最快的模型,适用于需要即时响应的场景。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。

Claude 3 Sonnet 在智能和速度之间提供平衡,适合企业工作负载,如知识检索或销售自动化。

而 Claude 3 Opus 则是能力最强的模型,实现了接近人类的理解能力,适用于高度复杂的任务,在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。

从 Anthropic 给出的 benchmark 测试数据来看,Opus 在多个指标上超过了 GPT-4。

在此之前,GPT-4 的综合性能全球绝对领先,能实测到的模型中只有这次 Claude 3 的上一代 Claude 2 超过了 GPT-3.5。

这次的 Claude 3,除了速度、理解、效率等综合性能之外,这次在长文本上有亮点,可以支持 200K Tokens 的上下文长度,另外也可以支持图像和文件输入了。

再值得参考的一点是价格:Opus 输入 15 刀 / 百万 tokens,输出 75 刀 / 百万 tokens;Sonnet 输入 3 刀 / 百万 tokens,输出 15 刀 / 百万 tokens;Haiku 输入 0.25 刀 / 百万 tokens,输出 1.25 刀 / 百万 tokens。

Anthropic 还放出了 42 页的技术报告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。

报告地址:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

在报告中,我们能看到 Claude 3 系列模型的训练数据、评估标准以及更详细的实验结果。

Anthropic 将 Claude 3 系列模型在推理、阅读理解、数学、科学和编程能力上,与竞品模型展开了比较,结果显示不仅超越了其他家模型,还在大多数情况下实现了新 SOTA。

效果好不好,还得看大家的测试结果

至于性能比较,虽然 Anthropic 表明自家模型比 GPT-4 更强,但很明显,大家对基准测试并不抱那么大的希望,“就像汽车厂商一样,他们肯定会说自家的车是最快最安全的。”

benchmark 已经不再那么具备参考意义,一是 Claude 3 比的是去年 3 月发出来的 GPT-4,二是选取指标上都会更“偏向”自己。

因此,不少网友用自己的方法进行了测试,来验证 Claude 3 是否有 Anthropic 宣传中的那么厉害。

其中一位网友说,第一眼感觉它比 GPT-4 好一点,比 Mistral 等好很多。比较特别的一件事情是,Claude 3 的回复似乎比之前的 LLM(大型语言模型)更人性化得多

“我知道现在你可能感觉不到,但你肯定会度过难关的。I know it may not feel like it right now, but you ARE going to get through this.”这句话中的 “ARE” 非常人性化,GPT-4 不会在不经提示的情况下用大写字母来强调。

下面这幅图,大家能看懂讲的是什么吗?

这是一位网友别出心裁的用 ASCII 进行提问,Claude 3 也用了 ASCII 进行回复。

“Claude 3 (mid) 现在也可以读取 ASCII 码了。我用 ASCII 询问一些问题,并要求它以 ASCII 形式回答。该死的,他们做到了。这是 GPT-4++ 级别哇!”

另外,在代码能力上,也有一些网友进行了测试。有位网友要求 Claude 3 画一副 3D 自画像,再渲染成代码,效果非常令人惊叹:

有一位名为Ruben的网友,专门设置了了一个测试来对比 Claude 3 和 ChatGPT 的能力。

他给出了一个网站 UI 界面,要求 Claude 3 和 ChatGPT 将其转为代码。Claude 3 拒绝了,而 ChatGPT 成功的执行了。Claude 3 的道德标准太高了?!

还有一位企业家 Rishabh Srivastava,在 SQL-Eval 上对 Claude-3 进行了评估:https://github.com/defog-ai/sql-eval/tree/rishabh/claude-3,他得出的结论依然是 GPT-4 更好。


“比 Claude 2 好得多,但距离 GPT-4 还有一段路要走 对于 SQL 生成,Opus 具有 GPT-4 Turbo 级别的性能。Sonnet 具有与 3.5-turbo 类似的性能,但速度也慢大约 4 倍。GPT-4 仍然明显更好。”

这些测试结果,也许正如爱丁堡大学博士生符尧的分析:被评估的几个模型在 MMLU / GSM8K / HumanEval 等几项指标上基本没有区分度,真正能够把模型区分开的是 MATH 和 GPQA,“这些超级棘手的问题是 AI 模型下一步应该瞄准的目标”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“三哥,你尾款我不要了!”中国外贸人反杀印度老赖,招招绝了!

“三哥,你尾款我不要了!”中国外贸人反杀印度老赖,招招绝了!

墨印斋
2026-06-02 23:18:53
长安启源再回应“司机激活智驾40秒后撞上货车致3人身亡”

长安启源再回应“司机激活智驾40秒后撞上货车致3人身亡”

闪电新闻
2026-06-02 19:48:23
国乒完成新老交替!王皓宣布王楚钦任男队队长,马龙结束12年任期

国乒完成新老交替!王皓宣布王楚钦任男队队长,马龙结束12年任期

乒谈
2026-06-02 20:49:37
陈妍希申请强制执行后,陈晓在人民日报发文,卓伟曝俩人离婚原因

陈妍希申请强制执行后,陈晓在人民日报发文,卓伟曝俩人离婚原因

流云随风去远方
2026-06-03 02:21:10
皇马赚大了!穆里尼奥回归神签!2500 万白菜价捡漏世界级后卫

皇马赚大了!穆里尼奥回归神签!2500 万白菜价捡漏世界级后卫

奶盖熊本熊
2026-06-03 04:26:04
打虎!黎晓宏被查

打虎!黎晓宏被查

新京报
2026-06-02 18:17:57
学历大放水!清华一年毕业3000多博士,比哈佛耶鲁等五所世界名校加起来多出30%

学历大放水!清华一年毕业3000多博士,比哈佛耶鲁等五所世界名校加起来多出30%

爆角追踪
2026-06-02 22:12:58
郑钦文东京站夺冠创历史纪录,世界排名重返Top20

郑钦文东京站夺冠创历史纪录,世界排名重返Top20

体育硬核说
2026-06-03 02:01:31
上海女选手裸照被围观这件事,扯下了“体育赛事照片直播”遮羞布

上海女选手裸照被围观这件事,扯下了“体育赛事照片直播”遮羞布

马拉松跑步健身
2026-06-02 20:24:16
形势到底有多严峻?国人心心念念的特斯拉竟会裁员,评论区炸锅…

形势到底有多严峻?国人心心念念的特斯拉竟会裁员,评论区炸锅…

慧翔百科
2026-06-02 08:27:57
没想到!19岁国乒小将4-0零封张本美和,日乒天才被打到心态崩盘

没想到!19岁国乒小将4-0零封张本美和,日乒天才被打到心态崩盘

十点体坛
2026-06-02 21:21:14
“办案人员篡改伪造证人笔录,没被追责还升职了”,云南镇雄公安局原副局长刑满出狱后公开举报

“办案人员篡改伪造证人笔录,没被追责还升职了”,云南镇雄公安局原副局长刑满出狱后公开举报

大风新闻
2026-06-02 19:35:11
谌旭彬:百姓躺平摆烂,食税群体怎么办?

谌旭彬:百姓躺平摆烂,食税群体怎么办?

老郭在学习
2026-06-01 17:12:48
Here we go!罗马诺:邓弗里斯将加盟皇马,皇马触发2000万欧解约金

Here we go!罗马诺:邓弗里斯将加盟皇马,皇马触发2000万欧解约金

懂球帝
2026-06-03 05:05:07
不听大陆忠告执意访美?郑丽文这行程才刚开始,三记闷棍已经砸下

不听大陆忠告执意访美?郑丽文这行程才刚开始,三记闷棍已经砸下

闫树军论评
2026-06-02 20:13:27
中国国民党主席郑丽文正访问美国,外交部回应

中国国民党主席郑丽文正访问美国,外交部回应

澎湃新闻
2026-06-02 15:26:26
2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

红色少女主播
2026-05-31 15:18:01
夏补钾,不疲惫,建议大家:夏天多吃这3种“补钾高手”,精神好

夏补钾,不疲惫,建议大家:夏天多吃这3种“补钾高手”,精神好

阿龙美食记
2026-05-31 20:23:07
离谱!16岁少年遭53岁男子诱导发生性关系,长达4年!最终感染HIV

离谱!16岁少年遭53岁男子诱导发生性关系,长达4年!最终感染HIV

乌娱子酱
2026-06-02 16:34:35
开启智驾40秒后撞上半挂!一家三口当场殒命。长安承认没激光雷达

开启智驾40秒后撞上半挂!一家三口当场殒命。长安承认没激光雷达

听心堂
2026-06-02 10:48:19
2026-06-03 06:59:00
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12468文章数 51917关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

健康
手机
家居
数码
艺术

违规干细胞应用,暗藏致命隐患!

手机要闻

华为凌霄子母路由Q7电线版星闪电竞专链功能首批支持机型公布

家居要闻

流线型轮廓 包容多元身形

数码要闻

HPB散热加持!三星HBM5预计2028年实现量产

艺术要闻

二十年前割麦的场景

无障碍浏览 进入关怀版