网易首页 > 网易号 > 正文 申请入驻

横评DeepSeek、Claude、GPT、Kimi,结果大跌眼镜…

0
分享至

来源:市场资讯

(来源:沃垠AI)

最近,模型圈又卷起来了,A厂、O厂和鲸鱼都陆续发布了新模型。特别是DeepSeek V4,一发布就冲上了各种热搜。

好多人都在问DeepSeek V4到底在开源模型中是什么地位,又和闭源模型差多少呢?

于是,我花了400元,实测对比了几款热门大模型,分别是:公认的顶级闭源模型 Claude Opus 4.6、GPT-5.4和顶级开源模型Kimi K2.6、DeepSeek V4 Pro。


下面,我们基于实测结果,全面评估一下Kimi K2.6、DeepSeek-V4-Pro、Claude Opus 4.6以及GPT-5.4,看看如今的AI顶流之战,谁才是真正的版本答案。


一手实测

1)前端:信息图

先测一个我们最常用到的信息图,主要看模型的信息提炼能力、视觉排版能力和内容完整度。

提示词:提炼下面文字内容的核心关键点,创建一个HTML网页。文字内容:这里是一段文字内容网页的设计要求如下:1.视觉设计:采用{Magazine Layout}风格布局,{深色}主题色,营造现代高端氛围。2.字体与排版:·使用超大字体或数字突出核心要点,中文采用大号粗体,强调视觉冲击力。·英文使用小号字体作为点缀,与中文形成比例反差,提升设计层次感。3视觉元素:·融入超大视觉元素(如标题、背景图或装饰)以突出重点,与小型元素形成强烈对比。·使用简洁的勾线风格图形作为数据可视化或配图元素,保持现代感和清晰度。4.色彩与效果:运用高亮色(单色透明度渐变)营造科技感,每种高亮色独立使用,避免不同高亮色之间的渐变混杂。5.技术要求:引入专业图标库(如Font Awesome或Material Icons,通过CDN加载),避免使用emoji作为主要图标。6.内容要求:提炼内容关键要点,不忽略重要细节。

Claude Opus 4.6:


GPT-5.4:


DeepSeek-V4-Pro:


Kimi K2.6:


整体来看,Kimi K2.6和DeepSeek-V4-Pro在这个case中表现最好,内容提炼得到位,视觉效果也更具冲击力,布局、配色和字体搭配有层次感。

Claude Opus 4.6内容总结得不错,关键信息都没有遗漏,但是视觉效果一般。GPT-5.4 也是同样的问题。

2)前端:旅游网站

接下来,我们试试让大模型看图做设计,测测模型的图片理解和审美迁移能力。

提示词:你是一个有顶级审美的网页设计专家,请根据"xxxx.jpg"这张图的元素和风格,设计一个旅游网站。

Claude Opus 4.6:


GPT-5.4:


DeepSeek-V4-Pro:


Kimi K2.6:


这个项目完成最好的是Claude Opus 4.6和Kimi K2.6,对于我给出的图片风格都有自己的理解,并且按照这个理解来设计视觉效果。

而DeepSeek-V4-Pro和GPT-5.4做的网页,图片都没加载出来,前者是因为不支持多模态,但是后者应该不至于。

3)3D任务

3D任务主要看模型的前端能力,考验模型对三维空间理解、Three.js组织能力和生成结果的稳定性。

提示词:制作一个3D的雪山场景html,雪山中间有一个中式的寺庙,整体风格参考塞尔达旷野之息。

Claude Opus 4.6:


GPT-5.4:


DeepSeek-V4-Pro:


Kimi K2.6:

在这个任务中,GPT-5.4的表现不及格,一直卡在雪山页面根本动不了;DeepSeek-V4-Pro倒是完成了任务,但是建模肉眼可见的粗糙。

Claude Opus 4.6和Kimi K2.6的建模就很不错,3D场景创建的挺好,旋转、缩放展示也都非常流畅,做到了提示词要求的“雪山+日式寺庙+塞尔达风格”。

特别是Kimi K2.6,雪山、建筑、雪花粒子这些细节上的表现,真的太强了。

4)网站开发

需求是,让模型基于我给到的模特照片,做一个摄影师作品集网站。

提示词:我是拍模特广告的摄影师,我的工作室叫「小逸摄影」,文件夹 xxx 放了一些模特图片,给我生成一个高级审美、大师级别水准的摄影师作品集网站,用文件夹里的图配上精美的讲解。

Claude Opus 4.6:

GPT-5.4:


DeepSeek-V4-Pro:


Kimi K2.6:

Kimi K2.6生成的网页实在是太棒了,在logo、文字配色、交互动画这些UI细节上的表现非常强,说明是真的读懂了图像,完全是基于图片内容和风格来生成的。

Claude Opus 4.6生成的页面风格也非常有特点,但图片的展示比较简单。

至于DeepSeek-V4-Pro和GPT-5.4我只想说,为啥别人都有图,你俩却加载不出来。很明显是遇到bug了,需要人工来修。

5)Skills任务

前两天,我用DeepSeek-V4-Pro跑了一个PPT,效果非常满意。这次也让所有模型都来对比一下。

提示词:根据"xxxx.txt"的内容,用guizang-ppt-skill做一份10页的PPT。

Claude Opus 4.6:


GPT-5.4:


DeepSeek-V4-Pro:


Kimi K2.6:


这个调用skill的任务,四个模型都调用成功了。做出来的效果也大差不差,没啥大的区别,可能skill已经把路径限制的很死,没留太多模型自我发挥的余地。

6)Agent长程任务

任务,还是我们的老case,让Claude Code做一个联网搜索+word生成+skill调用+网站开发的复杂长程任务。

提示词:联网搜索、调研张雪机车的发展轨迹,尽量从权威信源获取信息。首先,给我创建一份5000字的word调研报告。然后,调用qiaomu-knowledge-site-creator skill给这份报告创建一个知识学习网页,页面高级审美。

Claude Opus 4.6:



GPT-5.4:



DeepSeek-V4-Pro:



Kimi K2.6:



因为是长程任务,需要模型先后调用WebSearch、python生成word、skills和网站开发等工具能力,还包括网站上线前测试的chrome-devtools-mcp,所以这个长程任务,大家都消耗了很长的时间。

所幸结果,大家都完成了。

从生成的调研报告来看,Kimi K2.6是最好的(他们家的WebSearch能力一直就很强),其次是Claude Opus 4.6和DeepSeek-V4-Pro,最差的是 GPT-5.4,你好歹给我排版一下啊


从生成的网站来看,GPT-5.4嘴上说调用skill成功,但是最后生成的东西完全跟 skill不符,其他三个都生成的中规中矩,Kimi K2.6在页面美化上稍强一点。

7)费用情况

最后,我们来算一下Coding成本。

本期测评花费如下:

  • Claude Opus 4.6,16.4美刀;

  • GPT-5.4,22.8美刀;

  • Kimi K2.6,我用的是Coding Plan套餐,大概消耗里月额度的1/10,换算下来是4块钱;

  • DeepSeek-V4-Pro,接的昨天降价后的API,约2.4元。


第三方平台对Claude和GPT的费用统计

说实话,对于这个成本来说,Claude和GPT是非常不划算的,Claude生成的效果与Kimi差不多,但价格竟然差了近30倍!GPT更是效果也不好,但却是花得最多的,十分不推荐。

降价后的DeepSeek,算是物美价廉。


综合测评下来,如果要论成本,API降价后的DeepSeek V4无疑是最划算的。但是它没有多模态,很多coding场景受限。

如果要论性价比,Kimi K2.6则是最合适的,能力比肩甚至超越全球顶尖模型,而成本却不到他们的几十分之一。

另外,kimi也有多模态,Agent能力在线,综合能力确实不错。

而Claude和GPT,至少在本次任务测试中并未表现出有代差的能力,大家旗鼓相当。甚至部分场景,GPT还比较拉胯。

我是冷逸,你们的AI测评手替。如果你有想测的场景,欢迎在评论区甩出来,咱们互相抄作业。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拜仁VS巴黎前瞻:英超通关之旅是假象,卫冕冠军遇到硬茬了!

拜仁VS巴黎前瞻:英超通关之旅是假象,卫冕冠军遇到硬茬了!

兰亭墨未干
2026-04-28 11:44:43
赖清德向大陆喊话,林佳龙返台:机场大言不惭!解放军打独大动作

赖清德向大陆喊话,林佳龙返台:机场大言不惭!解放军打独大动作

史料布籍
2026-04-28 11:19:47
一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

川渝视觉
2026-04-25 20:19:24
如今定居广东的朱芳雨,大儿走篮球路,二儿优秀低调,三儿最潇洒

如今定居广东的朱芳雨,大儿走篮球路,二儿优秀低调,三儿最潇洒

翰飞观事
2026-04-22 14:42:17
每体:必要时巴萨不排除让亚马尔缺席世界杯小组赛初期的可能

每体:必要时巴萨不排除让亚马尔缺席世界杯小组赛初期的可能

懂球帝
2026-04-28 09:43:32
尼日尔撕毁4亿美元合同,并驱逐中方高管,我方暗藏后手漂亮反击

尼日尔撕毁4亿美元合同,并驱逐中方高管,我方暗藏后手漂亮反击

诡谲怪谈
2025-04-30 22:17:42
球员+ 4000 万互换!曼联狠心甩卖高价水货,瞄准英超全能巨星

球员+ 4000 万互换!曼联狠心甩卖高价水货,瞄准英超全能巨星

澜归序
2026-04-28 06:36:45
接到陌生电话先问这3个字!骗子听到马上挂断,记得转告身边人

接到陌生电话先问这3个字!骗子听到马上挂断,记得转告身边人

小谈食刻美食
2026-04-25 09:47:09
刚刚!官方点名张家界天门山、丽江古城、玉龙雪山、黄河壶口瀑布、桂林漓江、嵩山少林寺等景区,严肃批评、集中整治!

刚刚!官方点名张家界天门山、丽江古城、玉龙雪山、黄河壶口瀑布、桂林漓江、嵩山少林寺等景区,严肃批评、集中整治!

扬子晚报
2026-04-27 16:31:23
石破茂:我当过首相所以我最清楚,没有中国,日本根本不可能存在

石破茂:我当过首相所以我最清楚,没有中国,日本根本不可能存在

黑翼天使
2026-04-27 00:25:04
东风-27疑似量产,令美军如芒在背!

东风-27疑似量产,令美军如芒在背!

杨风
2026-04-26 23:04:04
始末细节曝出,女大学生被骗泰国狂欢,疑被转卖缅甸,父亲遭威胁

始末细节曝出,女大学生被骗泰国狂欢,疑被转卖缅甸,父亲遭威胁

皮皮电影
2026-04-27 11:22:48
20岁云南小伙迪拜打工遇俄罗斯单亲妈妈,跨国求婚却遭战火阻隔

20岁云南小伙迪拜打工遇俄罗斯单亲妈妈,跨国求婚却遭战火阻隔

爱写作的洋洋
2026-04-18 09:14:07
塞尔比:吴宜泽长台和安全球不错,我有太多愚蠢失误确实不配赢

塞尔比:吴宜泽长台和安全球不错,我有太多愚蠢失误确实不配赢

懂球帝
2026-04-28 00:51:06
微信紧急公告:立即挂断,不要回答!

微信紧急公告:立即挂断,不要回答!

第一财经资讯
2026-04-28 10:33:04
蓝白今确定谁选新北市长,国民党一人胜率高,郑丽文又祸从口出?

蓝白今确定谁选新北市长,国民党一人胜率高,郑丽文又祸从口出?

史料布籍
2026-04-28 11:14:26
赢球挨喷!曼联王牌全场灾难性表现,球迷怒了:赶紧甩卖!

赢球挨喷!曼联王牌全场灾难性表现,球迷怒了:赶紧甩卖!

奶盖熊本熊
2026-04-28 05:13:59
暴跌200亿的“两轮特斯拉”,再次站在悬崖边上

暴跌200亿的“两轮特斯拉”,再次站在悬崖边上

金错刀
2026-04-27 10:05:40
上海地铁32岁女子与66岁老太互殴后续:央媒发声,拘留只是开始!

上海地铁32岁女子与66岁老太互殴后续:央媒发声,拘留只是开始!

阅微札记
2026-04-27 17:06:42
曝张凌赫低血糖摔倒,同组演员林允和工作人员合力搀扶,本人连发7条语音回应

曝张凌赫低血糖摔倒,同组演员林允和工作人员合力搀扶,本人连发7条语音回应

都市快报橙柿互动
2026-04-28 11:47:57
2026-04-28 12:24:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3033299文章数 6969关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

美军事资产被指"损失惨重" 修复费用可能高达50亿美元

头条要闻

美军事资产被指"损失惨重" 修复费用可能高达50亿美元

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

杨幂险遭蒸汽眼罩毁容!伤照曝光…

财经要闻

俞敏洪再遭重击

汽车要闻

上汽大众“攻山头” ID.ERA 9X剑指细分前三

态度原创

本地
艺术
数码
时尚
亲子

本地新闻

用青花瓷的方式,打开西溪湿地

艺术要闻

静·观--第二届全国静物油画作品展 作品选刊

数码要闻

首款华为MatePad Pro Max平板曝光,将于5月面向全球发布

T恤+阔腿裤、衬衫+阔腿裤,今年夏天最火的搭配,谁穿谁时髦!

亲子要闻

你是爹的快递护卫兼人肉配重啊!

无障碍浏览 进入关怀版