网易首页 > 新闻中心 > 新闻 > 正文

商汤新模型12项评测成绩超GPT-4

0
分享至

8月28日,商汤科技公布截至2023年6月30日止六个月中期业绩。财报显示,公司营业收入14.3亿元(人民币),同比增幅1.3%,整体收入表现稳健。据财报显示,大语言模型InternLM-123B在12项权威评测中超越GPT-4位列第一,综合性能全面超越GPT-3.5-turbo。

2023年上半年,商汤发布了“日日新”大模型体系,并发布国内第一个综合性能全面超越GPT-3.5-turbo的基模型书生·浦语(InternLM)。InternLM是商汤联合上海AI实验室等多家国内顶尖科研机构发布的预训练大语言模型,共投入约10,000张GPU在大语言模型的研发上,使其能力实现飞跃式发展。

InternLM-123B表现亮眼12项权威评测成绩位列第一

2023年8月,新模型InternLM-123B完成训练,参数量提升至1,230亿。新模型的语言、知识、理解、推理和学科五大能力均显著提高,在全球51个知名评测集(包括MMLU, AGIEVAL, ARC, CEval, Race, GSM8K等)共计30万道问题集合上测试成绩整体排名全球第二,超过GPT-3.5-turbo以及Meta新发布的LLaMA2-70B等模型。

InternLM-123在主要评测中12项成绩排名第一。其中,在评测集综合考试中AGIEval分数57.8超越GPT-4位列第一;知识问答CommonSenseQA评测分数88.5排名第一,NaturalQuestions排名第二;InternLM-123B在阅读理解C3、CMRC、RACE (Middle)、RACE (High)、LAMBADA五项评测中成绩全部居榜首;此外,InternLM-123B在推理WinoGrande、StoryCloze、HellaSwag、StrategyQA、SIQA几项评测中成绩排名第一。

商汤大语言模型能力实现飞跃式发展

商汤于2023年4月推出商量 SenseChat1.0,是国内最早推出基于千亿参数大语言模型的聊天机器人产品之一。6月发布的首个综合能力超越GPT-3.5-turbo的基模型InternLM,参数量1,040亿,使用1.6万亿token的多语言语料训练,支持语言达20多种,并在此基础上于7月初发布了商量SenseChat2.0。

8月,商汤发布的InternLM-123B不仅生成的内容更加准确、可靠,可在复杂场景中进行多步推理和计算,还具备了自主反思及修正错误的能力。InternLM-123B也重点升级了代码解释器及插件调用能力(function calling),可使用python解释器、API调用和搜索三类常用工具来解决复杂任务、灵活搭建AI智能体应用。在此基础上,商量SenseChat将在9月升级到3.0版本。

商汤与多家科研机构合作支持和推进AI开源平台建设,InternLM-7B(70亿参数)的部分训练数据、训练代码及基模型权重已经向学术界及工业界免费开源,并支持商用。此外,InternLM-7B在多个模型测试榜单高踞榜首,成为性能最好的轻量级基模型。商汤表示,期待看到AI社区对InternLM的改进和更多AI应用的共建。

事实上,大语言模型的突破带来了新机遇。商汤基于InternLM的轻量级模型,结合自研推理加速算法,与头部手机芯片厂商建立研发合作,成功实现了大语言模型的手机端实时计算能力。商汤表示正在积极与多家手机厂商客户合作,研发大语言模型与手机操作系统结合的新功能。

商汤集团董事会执行主席兼首席执行官徐立博士表示:“在这个半年度,大模型和生成式AI可以说是全球最受瞩目的科技突破。商汤迎来了极其关键的发展时期。我们希望给行业带来更强的大模型能力,助力我们的用户在生成式AI的时代做出颠覆性的产品,来获得成功。”

相关推荐
热点推荐
54岁姥姥的自述:给女儿带外孙4年,外孙一句话,我果断回老家

54岁姥姥的自述:给女儿带外孙4年,外孙一句话,我果断回老家

清水家庭故事
2026-06-02 14:57:17
印度最高种姓“婆罗门”到底有多牛?永享一项特权,出生就是贵族

印度最高种姓“婆罗门”到底有多牛?永享一项特权,出生就是贵族

网络易不易
2026-06-02 06:00:35
涉嫌严重违纪违法,蒋志刚,被查!

涉嫌严重违纪违法,蒋志刚,被查!

中国基金报
2026-06-02 17:23:04
你无意中发现了不得的事?网友:大保健里遇见嫂子

你无意中发现了不得的事?网友:大保健里遇见嫂子

夜深爱杂谈
2026-05-28 07:59:33
王楚钦被任命队长后,第一个心态崩掉的国家出现:这还怎么打

王楚钦被任命队长后,第一个心态崩掉的国家出现:这还怎么打

寒士之言本尊
2026-06-03 14:51:16
普京亮剑,下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

普京亮剑,下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

李健政观察
2026-06-02 19:05:48
波兰政府专机紧急抵达北京,转运危重留学生

波兰政府专机紧急抵达北京,转运危重留学生

新浪财经
2026-06-03 05:13:02
黄仁勋台北炸场:PC变天了,80% 应用将消失,这 3 个行业最先被颠覆

黄仁勋台北炸场:PC变天了,80% 应用将消失,这 3 个行业最先被颠覆

互联网思想
2026-06-01 23:26:53
出发美国,杨鸣正式签约,亮相新岗位,薪酬曝光,球迷期待

出发美国,杨鸣正式签约,亮相新岗位,薪酬曝光,球迷期待

懂球社
2026-06-02 10:27:53
大家不要再羡慕奚梦瑶了,因为我们永远成为不了她,这些点学不来

大家不要再羡慕奚梦瑶了,因为我们永远成为不了她,这些点学不来

科学发掘
2026-06-03 08:02:02
超级骗子刘特佐,如何掏空一个国家?肥头大耳却能泡遍女明星?

超级骗子刘特佐,如何掏空一个国家?肥头大耳却能泡遍女明星?

午夜故事会
2024-07-08 10:57:49
朴有天日本近照认不出:发际线后移老态明显,吸毒逃税后远走异国

朴有天日本近照认不出:发际线后移老态明显,吸毒逃税后远走异国

情感大头说说
2026-06-02 17:28:38
长征中,林彪拒绝否认张国焘,聂荣臻当场动怒,一拳打翻桌上盘子

长征中,林彪拒绝否认张国焘,聂荣臻当场动怒,一拳打翻桌上盘子

谈古论今历史有道
2026-06-03 15:10:06
男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

心理观察局
2026-05-04 08:20:08
上海新天地环宇荟完成调改升级,在城市中心添一座“精神飞地”

上海新天地环宇荟完成调改升级,在城市中心添一座“精神飞地”

上观新闻
2026-06-03 13:42:48
她是王洪文亲信,曾任上海市委书记,1982年被判了17年

她是王洪文亲信,曾任上海市委书记,1982年被判了17年

鉴史录
2026-06-02 15:15:51
得材料者得天下:MLCC上游核心标的

得材料者得天下:MLCC上游核心标的

户外钓鱼哥阿旱
2026-06-02 09:33:55
真正的演员,走了

真正的演员,走了

中国新闻周刊
2026-06-03 11:53:08
一生拼命的中国80后:再不玩,就老了

一生拼命的中国80后:再不玩,就老了

视觉志
2026-06-02 14:18:48
镜报:阿森纳预计出售8人筹引援资金,本-怀特、特罗萨德在列

镜报:阿森纳预计出售8人筹引援资金,本-怀特、特罗萨德在列

懂球帝
2026-06-03 13:51:35
2026-06-03 15:52:49

头条要闻

被出轨丈夫家暴10年 女子起诉离婚发现1400万已被转走

头条要闻

被出轨丈夫家暴10年 女子起诉离婚发现1400万已被转走

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

家居
房产
健康
手机
数码

家居要闻

江畔轻奢 观云大宅

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

违规干细胞抗衰美容,为何肆无忌惮

手机要闻

行业首个:荣耀Magic8/500/X70全系列已支持微信A2A助手能力

数码要闻

单塔身材实现双塔性能!酷冷至尊V8 ACE 3DHP散热器图赏

无障碍浏览 进入关怀版
×