网易首页 > 新闻中心 > 新闻 > 正文

商汤新模型12项评测成绩超GPT-4

0
分享至

8月28日,商汤科技公布截至2023年6月30日止六个月中期业绩。财报显示,公司营业收入14.3亿元(人民币),同比增幅1.3%,整体收入表现稳健。据财报显示,大语言模型InternLM-123B在12项权威评测中超越GPT-4位列第一,综合性能全面超越GPT-3.5-turbo。

2023年上半年,商汤发布了“日日新”大模型体系,并发布国内第一个综合性能全面超越GPT-3.5-turbo的基模型书生·浦语(InternLM)。InternLM是商汤联合上海AI实验室等多家国内顶尖科研机构发布的预训练大语言模型,共投入约10,000张GPU在大语言模型的研发上,使其能力实现飞跃式发展。

InternLM-123B表现亮眼12项权威评测成绩位列第一

2023年8月,新模型InternLM-123B完成训练,参数量提升至1,230亿。新模型的语言、知识、理解、推理和学科五大能力均显著提高,在全球51个知名评测集(包括MMLU, AGIEVAL, ARC, CEval, Race, GSM8K等)共计30万道问题集合上测试成绩整体排名全球第二,超过GPT-3.5-turbo以及Meta新发布的LLaMA2-70B等模型。

InternLM-123在主要评测中12项成绩排名第一。其中,在评测集综合考试中AGIEval分数57.8超越GPT-4位列第一;知识问答CommonSenseQA评测分数88.5排名第一,NaturalQuestions排名第二;InternLM-123B在阅读理解C3、CMRC、RACE (Middle)、RACE (High)、LAMBADA五项评测中成绩全部居榜首;此外,InternLM-123B在推理WinoGrande、StoryCloze、HellaSwag、StrategyQA、SIQA几项评测中成绩排名第一。

商汤大语言模型能力实现飞跃式发展

商汤于2023年4月推出商量 SenseChat1.0,是国内最早推出基于千亿参数大语言模型的聊天机器人产品之一。6月发布的首个综合能力超越GPT-3.5-turbo的基模型InternLM,参数量1,040亿,使用1.6万亿token的多语言语料训练,支持语言达20多种,并在此基础上于7月初发布了商量SenseChat2.0。

8月,商汤发布的InternLM-123B不仅生成的内容更加准确、可靠,可在复杂场景中进行多步推理和计算,还具备了自主反思及修正错误的能力。InternLM-123B也重点升级了代码解释器及插件调用能力(function calling),可使用python解释器、API调用和搜索三类常用工具来解决复杂任务、灵活搭建AI智能体应用。在此基础上,商量SenseChat将在9月升级到3.0版本。

商汤与多家科研机构合作支持和推进AI开源平台建设,InternLM-7B(70亿参数)的部分训练数据、训练代码及基模型权重已经向学术界及工业界免费开源,并支持商用。此外,InternLM-7B在多个模型测试榜单高踞榜首,成为性能最好的轻量级基模型。商汤表示,期待看到AI社区对InternLM的改进和更多AI应用的共建。

事实上,大语言模型的突破带来了新机遇。商汤基于InternLM的轻量级模型,结合自研推理加速算法,与头部手机芯片厂商建立研发合作,成功实现了大语言模型的手机端实时计算能力。商汤表示正在积极与多家手机厂商客户合作,研发大语言模型与手机操作系统结合的新功能。

商汤集团董事会执行主席兼首席执行官徐立博士表示:“在这个半年度,大模型和生成式AI可以说是全球最受瞩目的科技突破。商汤迎来了极其关键的发展时期。我们希望给行业带来更强的大模型能力,助力我们的用户在生成式AI的时代做出颠覆性的产品,来获得成功。”

相关推荐
热点推荐
中餐正在征服全世界?骗你的

中餐正在征服全世界?骗你的

食味艺文志
2026-03-22 16:55:17
天津女博主发布“征婚贴”,宣称想结婚!网友:估计是债务要暴雷

天津女博主发布“征婚贴”,宣称想结婚!网友:估计是债务要暴雷

火山詩话
2026-03-21 06:58:08
外媒:美国一男子五天内在纽约费尽心思抢劫六家银行,最终仅得手605美元

外媒:美国一男子五天内在纽约费尽心思抢劫六家银行,最终仅得手605美元

环球网资讯
2026-03-21 15:58:49
3月22日,财政部发布重要消息,强调4个字,养老金调整敲定了吗?

3月22日,财政部发布重要消息,强调4个字,养老金调整敲定了吗?

有范又有料
2026-03-22 15:51:20
4月1日后去医院,只带医保卡可能吃大亏,这两样缺一不可

4月1日后去医院,只带医保卡可能吃大亏,这两样缺一不可

猫叔东山再起
2026-03-22 08:25:07
触碰民族红线!李祥波侮辱性言论引众怒,阿不都沙拉木强硬表态

触碰民族红线!李祥波侮辱性言论引众怒,阿不都沙拉木强硬表态

体育见习官
2026-03-22 18:33:23
伊朗已无官员愿意与美国谈判

伊朗已无官员愿意与美国谈判

财联社
2026-03-20 23:57:04
塞尔维亚若买下这60架歼-10C和5架空警500,整个欧洲都要多看一眼

塞尔维亚若买下这60架歼-10C和5架空警500,整个欧洲都要多看一眼

达文西看世界
2026-03-22 12:21:40
巴拿马港口无人接盘20亿索赔难承受!3月21日,巴拿马政坛传来新消息

巴拿马港口无人接盘20亿索赔难承受!3月21日,巴拿马政坛传来新消息

天气观察站
2026-03-22 13:13:55
黑长直老公为外围女家暴了

黑长直老公为外围女家暴了

毒舌扒姨太
2026-03-22 22:22:32
中国足球的骄傲!多位外援亲口确认:中超氛围已不输德甲英超

中国足球的骄傲!多位外援亲口确认:中超氛围已不输德甲英超

邱泽云
2026-03-22 16:29:20
干饭人的“天”真的塌了,顾客吃牛蛙天花板掉出一条人腿,店家:楼上装修导致,掉下来的员工没事

干饭人的“天”真的塌了,顾客吃牛蛙天花板掉出一条人腿,店家:楼上装修导致,掉下来的员工没事

环球网资讯
2026-03-22 14:10:21
国际油价才到半山腰,国内油价为何已创新高?

国际油价才到半山腰,国内油价为何已创新高?

深水财经社
2026-03-22 21:23:12
离那些张口闭口不离宏大叙事的人远点

离那些张口闭口不离宏大叙事的人远点

廖保平
2026-03-20 10:14:56
中国再抛美债,不再救美元,美财长:中美绝不能脱钩断链

中国再抛美债,不再救美元,美财长:中美绝不能脱钩断链

潋滟晴方DAY
2026-03-22 12:00:31
以色列承认伤亡惨重,难怪特朗普打算要停火,美国真正的麻烦来了

以色列承认伤亡惨重,难怪特朗普打算要停火,美国真正的麻烦来了

史行途
2026-03-23 01:03:55
美国华裔部长骆家辉:在任时经常打压华为,退休后回到中国捞金…

美国华裔部长骆家辉:在任时经常打压华为,退休后回到中国捞金…

福建平子
2026-03-22 08:14:35
“带母上学”研究生杨元元,在宿舍自缢:没人愿意被脐带拴一辈子

“带母上学”研究生杨元元,在宿舍自缢:没人愿意被脐带拴一辈子

南书房
2026-03-19 16:30:03
六安饭店打小孩续:女子踢到钢板,申请伤情鉴定,家长坚决不和解

六安饭店打小孩续:女子踢到钢板,申请伤情鉴定,家长坚决不和解

奇思妙想草叶君
2026-03-22 00:39:23
郑钦文2-0太霸气:连赢8局横扫大满贯冠军,下一轮对手+时间敲定

郑钦文2-0太霸气:连赢8局横扫大满贯冠军,下一轮对手+时间敲定

侃球熊弟
2026-03-22 07:49:44
2026-03-23 02:20:49

头条要闻

媒体:特朗普48小时通牒砸向伊朗 不排除美国铤而走险

头条要闻

媒体:特朗普48小时通牒砸向伊朗 不排除美国铤而走险

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

47岁“国际章”身材走样?让嘲笑她的人闭嘴

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

科技要闻

嫌台积电太慢 马斯克要把芯片产能飙升50倍

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

游戏
家居
数码
公开课
军事航空

《龙之信条2》发售两周年 Steam版还有D加密

家居要闻

时空交织 空间绮梦

数码要闻

古尔曼:苹果Apple TV、HomePod和HomePod mini库存告急

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊导弹击中以核设施附近 爆炸视频公布

无障碍浏览 进入关怀版
×