网易首页 > 网易号 > 正文 申请入驻

国产大模型“集体”更新后能力有多强?记者实测

0
分享至


近期,国产大模型迎来密集更新。从模型性能、应用场景到落地能力全面提升,同时在海外开发者平台,Token调用量超过美国。

国产大模型集体更新有哪些亮点?

为什么能够吸引全球开发者来体验使用?

记者近期对几款大模型进行了实测

一起了解

能力究竟有多强?记者实测来了

近期,国产大模型迎来井喷式更新,且Token调用量排名持续在海外开发者平台OpenRouter上名列前茅。数据显示,截至5月4日至5月10日当周,中国主要大模型周调用量达到7.94万亿Token,对比美国模型3.76万亿Token,调用量超美国两倍。

国产大模型都有哪些能力迭代呢?记者做了一个实测。



当前,腾讯混元大模型在海外开发者平台排名第一。依托该模型赋能,只要输入一句话的指令,没有任何技术背景的人也可以按需生成一个微信小程序的应用。

另一个大模型Kimi K2.6则主打智能体能力。它一次最多可以调动300个子智能体,并行完成4000个协作步骤,持续代码开发时间长达5天,将复杂任务执行时间缩短3倍以上。


记者给Kimi提出任务进行实测:参考一个旅游推荐集锦,制作一个包含34个旅行目的地的网站。只用了一个小时,一个名为“探索中国”的网站就建好了,部分热门景点还可以跳转至购票和预约页面。这个效率对比传统工程师敲代码已经快到难以想象。

月之暗面Kimi研究员 杜羽伦:它具有非常强的长程代码能力。它在我们内部、外部的很多任务上可以单独跑十几个小时,并且写4000多行代码,不需要人为干预。


而在这轮模型迭代中,最大的亮点是以国产开源大模型DeepSeek为代表的大模型,进入了百万token上下文时代。百万token上下文可以简单理解为大模型一次能“记住”或者“看完”的信息量,大约相当于75万个汉字,能力比之前的国产开源模型翻了4至8倍。

记者将约80万字的《西游记》全书投喂给了最新的DeepSeek大模型。

孙悟空被唐僧驱逐出去几次,原因是什么?

它9秒钟给出了答案:三次,并告诉了对应的章节和情节。由于这个情节跨越全文,所以答案是它基于全文理解基础之上给出的。

记者还考验了DeepSeek的代码能力。


请将所有的妖怪罗列出来,并根据出现的顺序作出妖怪图谱,并以动态html网页形式展示。

DeepSeek开启了思考,仅仅数分钟操作,一个西游记妖怪图谱的搜索引擎就做好了,里面包含不同门类、不同特点的归纳。它还细心地为搜索引擎设计了一个logo。记者尝试搜索,真的找到了相关妖怪的介绍。


DeepSeek的迭代真正令人赞叹的,不仅仅是它能解决的问题,还有它的成本:目前,DeepSeek-V4-Flash百万token的输出价格仅为0.28美元,这个价格是美国顶尖大模型GPT-5.5的约百分之一。正是因为极致的性价比和综合能力,DeepSeek-V4成了国际开发者OpenClaw上智能体“龙虾”的默认大模型。在百万上下文极长推理的背后,DeepSeek的推理计算量却降至上一代模型的27%。也就是说,它并不是靠算力硬扛,而是通过架构创新将成本实打实地打了下来。

如何实现性能和性价比“双重”升级?

国产大模型集体能力升级的背后,是我国大模型技术在开源生态上的紧密合作。从模型的技术迭代到芯片的系统适配,我国大模型技术如何实现性能和性价比的双重升级?

无论是DeepSeek最新升级的V4模型,还是Kimi K2.6,它们都是开源模型。开源就是将软件或者技术的源代码公开,允许任何人自由查看、使用、修改和分发。开源主要的目的是希望通过社区协作的方式推动技术的共同改进。

开源合作 国产大模型生态协作加深

记者翻看了DeepSeek迭代后发布的技术报告,从中发现了国产大模型之间的紧密合作。比如,DeepSeek-V4中关键的一个优化器,其有效性率先由另一个国产大模型团队Kimi验证,DeepSeek在技术报告中公开致谢。在开源生态中,大家不需要重复“造轮子”,这也是模型迭代效率和整体水平加速提升的一个重要原因。


月之暗面Kimi研究员 杜羽伦:我们的优化器加速了DeepSeek模型的训练,它可以增加一倍的训练效率。我认为技术的开源鼓励了各家公司做更快AI的迭代。

不仅仅是开源生态下大模型能力之间的互相借鉴,本次DeepSeek的更新在成本和效率上做到了更底层的优化。DeepSeek的技术报告中指出,它已经在系统层面完成了跨平台适配,可以同时运行在英伟达和华为昇腾两套硬件架构之上。通过底层代码的深度迁移以及芯片和模型的协同优化,DeepSeek-V4在华为昇腾芯片上的推理效率实现了低延迟、高吞吐,证明了国产芯片能“跑得好”顶级模型。


同时,由北京智源研究院自主研发的AI大模型操作系统FlagOS,也在DeepSeek-V4发布当天完成了10个国产芯片厂商对新模型的开源适配,让大模型能在更多架构和国产芯片上运行,提高效率,降低成本。记者来到国家超算中心,基于智源研究院研发的FlagOS,工作人员将算力中心不同品牌的芯片进行了第一时间适配。


国家超算互联网应用发展主任 安磊:超算互联网目前已经汇聚了超过340家线上的合作伙伴,提供了超过7300款的软件和应用。FlagOS也是我们整个生态里比较重要的一个伙伴。超算互联网秉持了开放开源、合作共赢的心态,为国产芯片和国产算力对接,尤其是国产模型的对接,提供普惠式的技术服务和支撑底座。

北京智源研究院副院长兼总工程师 林咏华:过去这三年不断坚持,首先是能够让不同的芯片厂商都接入我们的技术栈,让我们的技术栈能够跑到不同的芯片上,这要克服很多芯片架构的差异、芯片指令集的差异,这些事还是很有挑战性的。今天我们已经支持了10多家芯片企业,超过30款芯片。

大模型深度赋能

到底能为我们做什么?

开源生态和产业链上下游协作推动国产大模型加速优化。同时,随着大模型能力的提升,它也更加深度赋能各类场景应用。戳视频,看大模型升级如何助力人工智能技术的应用走入我们的工作和生活。

皮肤的纹理、眼部细节、鹦鹉的羽毛层次……刚刚升级的可灵视频大模型全新迭代了全球首个原生4K直出功能,可以帮助影视制作者省去复杂的后期处理,直接达到电影院线的画面质感。


一位专业的动画片导演,正在利用大模型的新能力进行一部动画电影的创作。从美术师设计的手稿到生成出单帧图片,再到用视频大模型生成出动态效果,电影画面的细节和清晰度都得到了保障。


AI长片电影执行导演 曹汉:之前也会有一些提升分辨率的工具,比如说1080P提升到4K,因为它不是原生的,可能分辨率提升后人物面部会有一些很微妙的变化,有一点不像那个人了。可灵大模型因为是原生4K,生成的视频可以更还原角色,这可能是后期提升分辨率没办法达到的。


大模型能力的提升可以帮助导演团队打造出清晨阳光下细微的灰尘变化,看到人物脸上的雀斑,展示出不同层次的物品和光影的透视效果,甚至连老木头桌子上的陈年油污都清晰可见,从而让动画电影的制作效率和效果双双提升。

在大模型技术赋能下,同样实现了效率提升的还有我们的日常生活。近期,千问大模型完成迭代,与淘宝全面打通,网友们只要提出自己的购买需求,不管是具体的还是模糊的,甚至可以配合图片等多模态信息,大模型就可以完成推荐。


千问AI购物项目负责人 黎煜章:淘宝20年积累的40亿的商品数据库,包括背后的一些订单交易能力、物流履约能力,翻译给千问大模型,让千问大模型能够理解用户一些隐性的需求。举个例子,用户说想买一个扫地机器人,家里有猫。大模型通过我们的训练后,可以关联到像防毛发缠绕、需要高温消毒等商品属性标签,能够快速搜索到符合用户需求的商品。

从上网购物到网络打车,再到航空公司订票,人工智能正在打通越来越多的网络生态,帮助用户更加直接地完成各类干活的任务。深度走入工作和生活场景,也将成为下一步大模型技术发展的趋势。

国产大模型靠什么赢下一程?

如今,大模型技术已经从单纯的拼参数走向拼性价比、拼应用落地、拼“干活”能力。在这个过程中,中国大模型产业发展又将迎来哪些机遇?

近期,斯坦福大学发布了《2026年AI指数报告》,报告的目的是通过数据与实证分析呈现AI发展现状与趋势。在这份400多页的报告中,可以看到,随着AI能力的持续进化,全球超90%的顶尖大模型在博士级科学问题、多模态推理、竞赛数学等任务上已追平或超越人类水平。中美AI大模型性能差距已大幅缩小至2.7%。而在近期中国大模型频频迭代的背后,也折射出技术发展的新趋势。


清华大学技术创新研究中心主任 陈劲:大模型已经走出单纯模仿的发展道路,正在通过和国产芯片的整合,包括精巧的算力,包括我国丰富的数据资源相结合,以独特的高性价比和强大的工程化能力,已经构成了强大的全球竞争力。

大模型技术落地 走向好用和高性价比

正如这份报告所指出的,未来大模型能力的关键并不在于谁的评分更高,而在于与落地场景结合后,谁的使用更加稳定、更加便宜、更加合规。产品和落地能力已成为目前大模型技术竞争的一个重要方向。


数据显示,截至2025年底,我国累计有748款生成式AI服务完成备案,全年新增446款。2026年《政府工作报告》首次将“打造智能经济新形态”写入顶层设计,同时强调“完善人工智能治理”,表明大模型的发展与安全已同步进入国家战略规划。专家同时指出,大模型安全治理能力与技术进步速度之间还存在治理滞后的“剪刀差”。

清华大学技术创新研究中心主任 陈劲:进一步加强安全防范体系的建设,建立以伦理刹车的机制,建立起人工智能行业的安全评估模型,从被动响应到主动防御。安全为准绳,促进人工智能健康和谐发展。

(总台央视记者 张春玲 张喆)

原标题:《国产大模型“集体”更新后能力有多强?记者实测》

栏目主编:张武 文字编辑:卢晓川

来源:作者:央视新闻客户端

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪招待“馆长”排面拉满,师父牙哥却悄悄走人:这体面,值得学

张雪招待“馆长”排面拉满,师父牙哥却悄悄走人:这体面,值得学

科学发掘
2026-05-28 01:10:13
1982年,北京老人随手捡两把破椅子,搁置29年后竟卖出2300万

1982年,北京老人随手捡两把破椅子,搁置29年后竟卖出2300万

从零到一研究所
2026-05-27 17:18:04
河南大妈晒8个漂亮女儿,6个还没嫁人,网友排队喊妈:我不挑

河南大妈晒8个漂亮女儿,6个还没嫁人,网友排队喊妈:我不挑

小邵说剧
2026-05-27 07:46:56
上海服务业数智化转型加速出海路

上海服务业数智化转型加速出海路

看看新闻Knews
2026-05-27 09:04:14
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
DO:阿森纳给热苏斯标价1800万至2000万镑,有多家俱乐部问价

DO:阿森纳给热苏斯标价1800万至2000万镑,有多家俱乐部问价

懂球帝
2026-05-28 03:57:05
体感超43℃!孙俪在厦门片场背后汗湿,仍淡定织毛衣,幽默喊话:不要提醒我的汗,它要狂喷了

体感超43℃!孙俪在厦门片场背后汗湿,仍淡定织毛衣,幽默喊话:不要提醒我的汗,它要狂喷了

台州交通广播
2026-05-27 15:39:56
2026世界杯F组总览:真正的死亡之组,四强各有底牌

2026世界杯F组总览:真正的死亡之组,四强各有底牌

体育世界
2026-05-25 16:46:45
巴铁塞铁奔赴北京,七国集团访华,日本除外,李在明敲打高市早苗

巴铁塞铁奔赴北京,七国集团访华,日本除外,李在明敲打高市早苗

兵说
2026-05-27 08:49:01
她是赖昌星“色贿”的牺牲品,给杨前线做情妇生儿子,现状如何?

她是赖昌星“色贿”的牺牲品,给杨前线做情妇生儿子,现状如何?

小蒋爱唠嗑
2026-05-23 01:17:54
美国不装了,华盛顿号航母逼近辽宁号,F35起飞要和歼35一决雌雄

美国不装了,华盛顿号航母逼近辽宁号,F35起飞要和歼35一决雌雄

趣文说娱
2026-05-27 21:29:35
90岁钟南山公开6个长寿秘诀:第一条就很多人做不到,看完就明白

90岁钟南山公开6个长寿秘诀:第一条就很多人做不到,看完就明白

医学科普汇
2026-05-14 17:41:18
学术大佬们慌了!集体连夜删减简历、隐藏论文,评论区一针见血

学术大佬们慌了!集体连夜删减简历、隐藏论文,评论区一针见血

谭谈社会
2026-05-27 13:08:19
俄外长与美国务卿通话,要求美方撤离驻基辅大使馆人员

俄外长与美国务卿通话,要求美方撤离驻基辅大使馆人员

界面新闻
2026-05-26 21:44:51
至今,还有13个国家和中国没有建交,他们都是谁?

至今,还有13个国家和中国没有建交,他们都是谁?

深度报
2026-04-22 22:30:57
风波不断!毒杨梅只是开始,记者再曝行业内幕,又一水果塌房

风波不断!毒杨梅只是开始,记者再曝行业内幕,又一水果塌房

青梅侃史啊
2026-05-28 08:01:08
家业:直到田荣华沦为清鹤仙人的通房丫头,才懂李景东自尽多蠢

家业:直到田荣华沦为清鹤仙人的通房丫头,才懂李景东自尽多蠢

慢半拍sir
2026-05-27 21:29:17
福建三钢招标被指人为操控:弄虚作假企业中标10亿工程

福建三钢招标被指人为操控:弄虚作假企业中标10亿工程

真相解密
2026-05-26 18:27:52
稻城亚丁景区:违规放行员工已被处理,禁止社会车辆进入景区

稻城亚丁景区:违规放行员工已被处理,禁止社会车辆进入景区

映射生活的身影
2026-05-25 16:55:04
难怪西方集体对中国黑脸:全球蛋糕分完,发现桌上只有7亿人的碗

难怪西方集体对中国黑脸:全球蛋糕分完,发现桌上只有7亿人的碗

热点一网打尽
2026-05-18 11:25:54
2026-05-28 09:35:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
490006文章数 761770关注度
往期回顾 全部

科技要闻

拼多多股价跌10%:管理层称业绩难免波动

头条要闻

台媒:特朗普就台湾问题表态后 没人敢提“台独”了

头条要闻

台媒:特朗普就台湾问题表态后 没人敢提“台独”了

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

一线调查丨燃油车“甩卖”也难卖

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

旅游
健康
亲子
教育
时尚

旅游要闻

在山东,一趟旅程可以处处皆是风景

打外泌体会比干细胞更安全吗

亲子要闻

专家:别在小事上消耗孩子!网友:瞎扯!硬控自己情绪,满身结节

教育要闻

下周天就高考了,刷到的一定考的全会蒙的全对!

丑到离谱的牛马鞋,新中产抢疯了

无障碍浏览 进入关怀版