网易首页 > 网易号 > 正文 申请入驻

新V观海外:国产Kimi与海外GPT-4和Claude-3的体验差异

0
分享至

陈沛/文 在日常办公和生活中,我有经常使用Kimi、GPT-4、Claude-3等多个AI助手的习惯。久而久之,就逐步摸出了各个AI助手的特性以及对应的适用场景。

Kimi对长文档中的数字细节抓的更准

在日常办公中,使用AI助手快速总结长报告的核心结论和关键数字是高频使用场景。特别是一些机器学习领域的专业论文,关键研究成果通常是AI系统在某项测试基准上达成的得分或性能提升的百分比。

这时,能否从长达几十页的研究论文中准确、快速找到结论以及对应的具体数字,对于AI助手的使用体验有着至关重要的作用。

在这方面,GPT-4在总结的结果中,往往会包括原文结论中最明显的一项数字,再加上其它几条相对宽泛的描述。这种做法虽然能最大程度上避免生成错误内容,但实际的用户使用体验相对一般。

Claude-3虽然宣称输入上下文窗口的长度很长,但在实际使用中会受制于相对有限的文档上传处理能力。即便是人工转成长文本输入,但它总结的关键数字的准确性并不理想。

而Kimi不仅能直接给出长文档中的多条核心结论以及准确数字,还能在用户追问解释某一项数字的上下文背景时,继续给出准确的文档位置和内容解释。除了这种准确抓住数字细节的能力,Kimi的文档上传处理能力也能很好满足日常使用需求,还能进一步给出基于中文网页的追问建议。

因此,如果主要使用场景是处理总结各类专业长文档并输出中文内容,那么Kimi在绝大多数情况下都将是最佳选择。

Claude-3的强化推理能力超出预期

Claude-3一经面世,便由于出色的测试结果而广受关注。但是由于实际产品不支持互联网搜索功能,且实际使用中的文档处理情况并不出色,因此我一开始并没有持续频繁使用。

然而,直到最近,我尝试用海外流行的思维推理题“两根电线杆之间悬挂80米长电缆”对Claude-3、GPT-4、Kimi进行测试。这个问题需要跳出思维限制,就算普通人类用户也很难在第一时间就给出正确答案。

在这三个AI助手的测试结果中,只有Claude-3在第一次就直接给出了完全正确的推理结果。

而GPT-4和Kimi都没能得出正确结果。就算我继续给出一次提示和一次正确结果建议后,Kimi调整了结果但依然不正确,GPT-4则陷入了错误推理方向,调用专业数学插件Wolfram也没能给出结果。

GPT-4的产品化程度仍处于领先

如今,大语言模型之间的差距在缩小,模型在单一指标和单一测试基准方面的优势很难带来决定性的优势,而产品化程度和商业化方向正成为实现长久发展的关键因素,这种趋势也能从最近Inflection AI、Stability AI等热门AI公司出现的动荡中得到验证。

在产品化程度方面,GPT-4相对具有先发优势。GPT-4中的GPTs商店正式上线至今已经初具规模,形成了绘图、写作、办公、研究、编程、教育、生活等众多类别的定制化应用。

特别是在最近,GPT-4在生成内容中大量增加了需要用户二选一的比例,通过数据标记加速构建数据飞轮。

相比之下,尽管Kimi和Claude-3分别在追问建议、安全体验等方面优化了产品体验,但总体体验上仍处于起步阶段。

总结以上使用体验,我会选择继续付费使用GPT-4,而Claude-3则不会。目前免费使用的Kimi如果后续推出付费版本,我也会进行选择。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
快讯!伊朗军方消息来了!

快讯!伊朗军方消息来了!

达文西看世界
2026-03-31 12:52:54
“张雪机车”带火关联个股

“张雪机车”带火关联个股

第一财经资讯
2026-03-31 21:41:23
意大利媳妇被中国企业裁员,心灰意冷带着山东丈夫回到意大利

意大利媳妇被中国企业裁员,心灰意冷带着山东丈夫回到意大利

荣亭小吏
2026-03-30 19:29:46
消失的彭加木:一场精心策划的逃亡?隐藏在罗布泊的离奇秘密!

消失的彭加木:一场精心策划的逃亡?隐藏在罗布泊的离奇秘密!

观史搜寻着
2026-03-31 05:47:17
随着国足0-2不敌喀麦隆,赛后主帅邵佳一怒斥战术提前泄露!

随着国足0-2不敌喀麦隆,赛后主帅邵佳一怒斥战术提前泄露!

田先生篮球
2026-03-31 17:57:29
0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

深析古今
2026-03-25 01:10:47
1896年,德国人造出一把重心失衡的失败品,随手扔进仓库角落,二十八年后,竟被中国军人用成“近身屠夫”:洋人垃圾如何变身华夏神兵?

1896年,德国人造出一把重心失衡的失败品,随手扔进仓库角落,二十八年后,竟被中国军人用成“近身屠夫”:洋人垃圾如何变身华夏神兵?

起飞做故事
2026-03-30 18:07:14
美以袭击伊朗核设施 外交部表态

美以袭击伊朗核设施 外交部表态

财联社
2026-03-31 15:26:07
梁咏琪和双胞胎弟弟一起过50岁生日,晒两人童年和50岁对比照,网友:这么好看的脸,他家居然有俩

梁咏琪和双胞胎弟弟一起过50岁生日,晒两人童年和50岁对比照,网友:这么好看的脸,他家居然有俩

台州交通广播
2026-03-29 10:07:08
茅台时隔8年再提价!一个信号告诉所有人:消费不行论可以歇菜了

茅台时隔8年再提价!一个信号告诉所有人:消费不行论可以歇菜了

清流财记
2026-03-31 08:51:49
京圈“顶级富二代”被判两年半,自称童谣继子,实则全是诈骗!

京圈“顶级富二代”被判两年半,自称童谣继子,实则全是诈骗!

BenSir本色说
2026-03-30 22:08:30
文班亚马狂砍41+16也无缘今日最佳!对不起,詹姆斯爆发创神迹!

文班亚马狂砍41+16也无缘今日最佳!对不起,詹姆斯爆发创神迹!

八斗小先生
2026-03-31 14:40:54
最长连休8天!多地陆续宣布

最长连休8天!多地陆续宣布

澎湃新闻
2026-03-31 13:54:14
一定要大量读书:经常读书的人,一眼就能看出来

一定要大量读书:经常读书的人,一眼就能看出来

欣辰读书
2026-03-29 22:35:04
策略:明天4月1日的预判出来了,全面减仓之前,我要说两句!

策略:明天4月1日的预判出来了,全面减仓之前,我要说两句!

一担金
2026-03-31 13:52:58
全球首艘能装一万多辆汽车的运输船今天试航

全球首艘能装一万多辆汽车的运输船今天试航

财联社
2026-03-31 17:52:19
我去儿科偷听到的秘密:长得高的孩子,餐桌上永远少不了3道蒸菜

我去儿科偷听到的秘密:长得高的孩子,餐桌上永远少不了3道蒸菜

一窥究竟
2026-03-30 20:31:50
44岁人艺演员于明加,红T恤穿出S曲线,这身材谁敢信是两娃妈?

44岁人艺演员于明加,红T恤穿出S曲线,这身材谁敢信是两娃妈?

娱乐领航家
2026-03-29 23:30:03
郑丽文强援已到!美方派团窜台施压,孤立无援之际,大陆来撑腰了

郑丽文强援已到!美方派团窜台施压,孤立无援之际,大陆来撑腰了

未来展望
2026-03-31 23:21:21
住宅新规,让全上海有房人,家家损失至少上百万!!!

住宅新规,让全上海有房人,家家损失至少上百万!!!

新浪财经
2026-03-31 11:54:32
2026-04-01 00:52:49
经济观察报 incentive-icons
经济观察报
经济观察报是专注于财经新闻与经济分析的全国性综合财经类媒体。聚焦商道、商技和商机。
113880文章数 1606640关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

男子玩具店买枪被羁押279天获国赔16万:打官司花40万

头条要闻

男子玩具店买枪被羁押279天获国赔16万:打官司花40万

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

教育
手机
本地
健康
公开课

教育要闻

微专题:高考地理中的地理实验

手机要闻

OPPO新机突然官宣:4月21日带来全家桶!友商:或同一天!

本地新闻

用Color Walk的方式解锁城市春日

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版