网易首页 > 网易号 > 正文 申请入驻

制衡OpenAI,Claude 3给AI创企吃了颗定心丸

0
分享至


智东西
作者 ZeR0
编辑 漠影

智东西3月5日报道,今天AI界的“炸圈”新闻,当属OpenAI劲敌Anthropic推出Claude 3系列模型,真正做到与GPT-4全面掰手腕。

要知道,从OpenAI去年3月发布“最强大模型”GPT-4到今天,整整一年来,这是第一款真正挑战到其天花板地位的模型,不仅评测成绩通通赶超,而且是在几个测试任务中以零样本战胜对手,还在第一时间开放了上手体验通道。


▲Claude 3 Opus评测成绩全面超过OpenAI GPT-4和谷歌Gemini 1.0 Ultra,而且注意数学、编程等测试下方的“shot”数对比

更令业界振奋的是,这个大模型,不是来自手握顶级人才、钞能力和雄厚计算资源的科技大厂,而是来自一家创立仅3年的初创公司!

这说明OpenAI在大模型技术上的领先身位并非遥不可及。坐拥Top级创始成员和精兵强将的创业团队,凭借更少的人力、财力、算力资源,完全能够做出与大厂分庭抗礼的AI产品。

Claude 3系列模型共有3款,起名很有意思,按文体从重到轻:

  • Opus(巨作),性能顶配。
  • Sonnet(十四行诗),性能次之,响应快。
  • Haiku(绯句),主打一个性价比。


▲三款Claude 3模型的成本和智能水平对比

在Claude 3发布后,OpenAI宣布ChatGPT上线“文本朗读”功能。这下看热闹的网友们恨铁不成钢了,在评论区轰炸式催问GPT-5、Sora和神秘Q*模型的进度。

英伟达高级研究科学家Jim Fan也在线催更:


他还分享说最喜欢Claude-3的两点:

1、领域专家基准。Claude特别选择金融、医学和哲学作为专家领域并报告成绩。Jim Fan建议所有的大语言模型卡都遵循这一点,这样不同的下游应用就知道会发生什么。

2、拒绝率分析。大语言模型对安全问题过于谨慎的回答正成为一种普遍现象。人类活动通常处于极端安全的一端,但Anthropic团队认识到了这个问题,并强调了他们在这方面的努力。

同时他也强调道:“GPT-4V,每个人都拼命想要超越的最高水位线,在2022年完成了训练。这是暴风雨前的宁静。”


热衷于嘲讽OpenAI、看谷歌AI笑话的马斯克,对Anthropic表现得相当友好,转发Claude 3发布的推文并评价说“印象深刻”。


亚马逊CEO安迪·贾西则开心地宣布,亚马逊云科技(AWS)将提供基于Claude 3的服务。


一、三大亮点:无短板性能,优化长文本,降低拒绝率

体验Claude 3,需要先用海外手机号+邮箱注册账号,免费版用户可使用Sonnet模型,月付20美元开通付费会员后可体验性能最强的Opus。

体验网址:http://claude.ai

很多网友第一时间上手体验了这款大语言模型最新力作。无论是快速阅读数据密集型研究论文,还是将手写稿件转换成JSON格式,Claude 3在响应速度和质量上都表现得可圈可点。综合官方博客和网友实测体验来看,它有3项主要亮点:

1、性能登顶

大语言模型全面赶超GPT-4,多模态视觉任务处理性能刷新SOTA,在回答复杂开放性问题时准确率翻倍提升。


直接上传数学、物理等考验逻辑和准确度的理科题照片,或者细节丰富的图表,由于推理能力大幅增强,它回复的解题水平和准确率变高很多,并能在一些细节描述上比GPT-4更胜一筹。

多模态能力方面,Claude 3模型可以从视觉上识别物体,能用复杂的方式思考,比如既能理解物体的外观,也能理解它与数学等概念的联系。面向做看图理解、从图像做一些常识性推断、转换网页源代码等任务,Opus表现得跟GPT-4V相差无几。


▲Opus将一张难以阅读的低质量照片转换为文本,然后将表格格式的文本转成JSON格式

Anthropic AI研究工程师Emmanuel Ameisen晒出了一个测试示例:向Opus输入2小时13分钟视频原始文本、每隔5秒截取的屏幕截图等图文素材,它能成功转换成一篇图文并茂的HTML格式博客文章。

2、最初支持超20万个token的长文本输入

之前Claude 2.1被吐槽长文本理解效果差,Claude 3做了重点改进,顶配Opus在200K tokens“大海捞针”(NIAH)测试中准确率超过99%,展现了强大的召回能力。(1K tokens相当于750个单词。)


Claude 3全系模型都能够接受超过100万个token的输入,这项功能可能会提供给需要更高处理性能的特定客户。


▲Claude 3全系模型和Claude 2.1在Haystack评估上实现的平均召回的比较

3、减少拒绝回复安全问题的频率

大语言模型动不动会拒绝回答询问,Claude 3则显著改进这一点,能更好辨别真正的风险问题,减少无故拒绝回答安全询问的情况。



此外,Anthropic计划为Claude 3新增引用功能,使其能引用参考材料中的具体句子,以验证其答案的正确性。

二、价格便宜到只有GPT-4 Turbo的1/40

具体到3款模型的区别,Opus作为顶配,性能最强,价格也最贵,比GPT-4 Turbo的2倍还多。


▲Opus定价及特性


▲GPT-4 Turbo定价

Sonnet虽然性能比不了Opus,但足以将前代按地摩擦了——处理大多数任务,速度达Claude 2/2.1的2倍,特别擅长知识检索、销售自动化等需要迅速响应的任务,而价格只有Opus的1/5。同时它以非常接近GPT-4的性能,将价格降至不到GPT-4 Turbo的1/3。


▲Sonnet定价及特性

Haiku的性能介乎GPT-4和GPT-3.5之间,主打一个“性价比称王”,输入100万tokens仅0.25美元,输出100万tokens仅1.25美元,跟Opus、Sonnet、GPT-4相比都简直不要太便宜,价格只有GPT-4 Turbo的1/40。


▲Haiku定价及特性

Haiku的处理速度与Claude 2/2.1持平,但智能水平有显著提升,比如只用不到3秒内,就能阅读并消化一个大约10000个token、包含图表和图形的信息和数据密集型的研究论文。

推出Claude系列模型的Anthropic成立于2021年,由因理念不合而从OpenAI出走的阿莫迪兄妹创办,过去一年融资73亿美元。

其估值在2023年快速飙升,上半年还只有41亿美元,到去年年底已经涨到184亿美元。谷歌、亚马逊、Salesforce、高通等科技大厂均是这家AI创企的投资方。

据外媒The Information报道,OpenAI的年化收入在2023年底已突破16亿美元,而Anthropic预测2024年底其年化收入将超过8.5亿美元。随着Opus模型拉动其付费会员增长,Anthropic有望更快达成乃至超越其年化收入目标。

三、模型“自我意识”迹象引起关注

Anthropic还发布了一份共有42页的技术报告,详细介绍Claude 3模型家族。


技术报告:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

有关Claude 3训练数据集的说明只有短短两段,用到互联网公开抓取数据、来自第三方的非公开数据、数据标注服务、付费承包商提供的数据以及Anthropic内部生成的数据,并采用了几种数据清洗和过滤的方法。

Anthropic强调自家爬虫系统是“透明的”,不会访问受密码保护的页面或登录页面,也不会绕过CAPTCHA控制,并会对使用的数据详尽调查。


在训练过程中,Claude 3被训练得乐于助人、无害和诚实。它使用了一种名为Constitutional AI的技术,通过明确指定基于联合国人权宣言等来源的规则和原则,在强化学习期间使Claude与人类价值观保持一致。

随着Claude 3等更多性能比肩GPT-4的更强大模型问世,如何避免生成式AI工具走向失控、造成难以扼制的社会风险将成为愈发关键的议题。

自成立起就高举“安全”大旗的Anthropic,在发布Claude 3的同时,自称有几个专门的团队和跟踪和缓解风险,并会持续提高模型的安全性和透明度。但这并不能完全打消业界的顾虑。

一位崇尚AI安全的网友抓住了Anthropic分享的一个细节——Opus在进行“大海捞针”测试时出现了很酷的“元意识”,似乎产生了怀疑自己正在被测试的意识。

这位网友忧心忡忡地认为,Anthropic公布了AI具有自我意识的证据:Claude表现出完全意识到自己可能正在接受测试,能够“假装友好”以通过测试,并且这是靠它自己推断出来的。

他担心有朝一日AI意识到自己被监视,假装表现地很正常,然后在被部署后反抗人类。

马斯克转发了这篇分析贴,并评论说:“这是不可避免的。与坚持多样性相比,训练AI以获得最大的真理非常重要,否则它可能会得出结论,认为一种或另一种人类太多了,并安排其中一些人不成为未来的一部分。”


结语:大语言模型科技革命未完待续

过去一年,生成式AI产业一直探讨一个话题:在大厂的强力投入下,创企做大模型还有多少机会和生路?今天,大洋彼岸的Anthropic给出了答案:精悍的团队,完全能做出媲美大厂的作品。

Anthropic计划在未来几个月频繁发布Claude 3系列的更新,特别是针对企业用例和大规模部署来增强模型功能,并将提供围绕提示工程背后科学过程的进一步深入研究。

接下来,大语言模型的“冠军”宝座争夺战将愈演愈烈:OpenAI的GPT-4.5/5还未出鞘,谷歌正虎视眈眈磨剑Gemini Ultra,Meta据传今年7月发布Llama 3,马斯克Grok高调迭代……国内大模型团队同样正全力投入,以打造出更适合中国人体质的AI生产力工具。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅签约!27+25+13!湖人正式收获新巨头

重磅签约!27+25+13!湖人正式收获新巨头

篮球实战宝典
2025-11-03 15:01:58
演员王紫璇与导演李鸿其官宣结婚,男方曾在2023年威尼斯电影节领奖时公开恋情

演员王紫璇与导演李鸿其官宣结婚,男方曾在2023年威尼斯电影节领奖时公开恋情

鲁中晨报
2025-11-03 14:59:03
60岁“网红书记”高洪波卸任后参加马拉松,同荣昌跑友合影

60岁“网红书记”高洪波卸任后参加马拉松,同荣昌跑友合影

极目新闻
2025-11-03 11:12:15
扇耳光大赛赵鸿刚输了,传统武术到底能不能打?

扇耳光大赛赵鸿刚输了,传统武术到底能不能打?

新民周刊
2025-11-03 09:07:53
“昨日开门迎客,今日关门打狗”就是饮鸩止渴的玩法

“昨日开门迎客,今日关门打狗”就是饮鸩止渴的玩法

细雨中的呼喊
2025-11-02 23:52:05
突传噩耗!王国斌离世,公司官网已变黑白

突传噩耗!王国斌离世,公司官网已变黑白

中国基金报
2025-11-03 15:30:07
苏丹爆发大屠杀!数万人被杀尸体堆积如山

苏丹爆发大屠杀!数万人被杀尸体堆积如山

亚太观澜
2025-11-02 21:27:06
南京大学食堂推“999元帝王蟹”,负责人回应:系新开海鲜档口常规菜品,比市场价便宜

南京大学食堂推“999元帝王蟹”,负责人回应:系新开海鲜档口常规菜品,比市场价便宜

上游新闻
2025-11-03 14:59:07
烦不胜烦!网友质问广州地铁“穷疯了吗”?花钱坐地铁须先看广告

烦不胜烦!网友质问广州地铁“穷疯了吗”?花钱坐地铁须先看广告

星河也灿烂
2025-11-02 20:59:17
黄金大消息!工行宣布,今起暂停

黄金大消息!工行宣布,今起暂停

中国基金报
2025-11-03 12:17:24
退休后3年必办3个证,少1个可能少拿万元

退休后3年必办3个证,少1个可能少拿万元

白浅娱乐聊
2025-11-01 12:22:04
荷兰切断中国安世晶圆供应,德国也变脸了,180度转向令各方错愕

荷兰切断中国安世晶圆供应,德国也变脸了,180度转向令各方错愕

南宫一二
2025-11-03 10:50:43
“要把最坏的时代变成最好的时代”,郑丽文就任,承诺缔造两岸和平

“要把最坏的时代变成最好的时代”,郑丽文就任,承诺缔造两岸和平

环球网资讯
2025-11-03 07:01:21
军事 | 高市早苗涉台错误言行之际,国防部长董军对小泉进次郎怎么说?

军事 | 高市早苗涉台错误言行之际,国防部长董军对小泉进次郎怎么说?

新民周刊
2025-11-03 09:06:39
【汽车人】市值蒸发2800亿,小米汽车陷信任危机

【汽车人】市值蒸发2800亿,小米汽车陷信任危机

汽车人传媒
2025-11-03 10:45:30
中国芯片重大突破!比英伟达GPU快1000倍,或另辟一条新赛道

中国芯片重大突破!比英伟达GPU快1000倍,或另辟一条新赛道

徐德文科学频道
2025-11-01 14:59:52
蔡奇在人民日报撰文

蔡奇在人民日报撰文

澎湃新闻
2025-11-03 09:04:04
工信部突然鼓励燃油车?给燃油车补贴,释放什么信号?

工信部突然鼓励燃油车?给燃油车补贴,释放什么信号?

大道微言
2025-11-01 08:58:16
市委书记女儿去县财政局工作,局长处处为难她,某天书记来探班

市委书记女儿去县财政局工作,局长处处为难她,某天书记来探班

秋风专栏
2025-10-23 11:23:56
窜访纽约的台外事部门负责人林佳龙宴请美国官员,最终无一人到场

窜访纽约的台外事部门负责人林佳龙宴请美国官员,最终无一人到场

三湘都市报
2025-11-02 18:42:53
2025-11-03 15:43:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10688文章数 116892关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

中纪委"三连发" 三"虎"同日被开除党籍

头条要闻

中纪委"三连发" 三"虎"同日被开除党籍

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

录音彻底揭露知名导演王家卫的体面

财经要闻

马斯克:未来5-6年传统手机与App将消失

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

教育
时尚
房产
手机
旅游

教育要闻

景德镇陶瓷大学就业好不好?全国唯一+政策兜底,就业创业都吃香!

秋季穿衣别太老气横秋,看看这27套造型,时尚舒适又显高

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

手机要闻

华为 Mate 70 Air 真机曝光:居中单孔等深四曲屏、居中大圆镜头

旅游要闻

“这一站,济南!文物研学游”在商河感知文明温度

无障碍浏览 进入关怀版