网易首页 > 网易号 > 正文 申请入驻

匿名模型“大象”搅局OpenRouter:100B参数冲到热榜第一,实测结果如何

0
分享至


智东西
作者 陈骏达
编辑 漠影

智东西4月16日报道,这两天,一款名为Elephant(大象)的匿名模型,在OpenRouter上悄然亮相。上线不到48小时,这一模型已经冲到OpenRouter热榜(Trending)第一,目前调用量超过1850亿个token。


在调用量日榜上,Elephant排名全球第八。


根据OpenRouter对其介绍,Elephant是一个100B参数量的纯文本模型,主打高token效率,支持256k上下文和32k输出,适合的任务包括代码补全、调试、快速文档处理和轻量级Agent交互等等。


目前,Elephant在网友反复的“拷打”下,暂时还没供出自己是哪家的模型。有网友猜测这可能是国产最新模型的Flash版本,或海外全新实验室捣鼓出来的新品。

有不少开发者已经晒出他们对Elephant的使用体验,Hermes Agent的作者拿它跑了个基准测试,发现这一模型在大部分工具调用任务中表现还行,不过偶尔会出现幻觉和对环境的错误理解,这对一个100B的模型来说其实也正常。


输出速度是这一模型的一大亮点,其在OpenRouter上的平均速度就达到了67 token/s,首token延迟为0.89秒,在即时交互场景展现出了潜力。有网友感叹,虽然质量还不确定,但这是他用过最快的模型,让他想起了Grok Fast 1的体验。


不过,光看别人的评价终究隔了一层。接下来,我们将亲自上手,从编程、文档处理到Agent交互,逐个任务实测一遍。

一、编程、长文本、Agent实测:前端编程响应快,支持多轮工具调用

在OpenRouter上,Elephant的编程能力排名在同尺寸模型中靠前,于是我们先尝试了几个编程的小项目,看看它能否快速完成。

首先是一个网站,这主要考察模型的前端能力。拿到开发任务后,Elephant对网站的几个核心组件进行了规划,并主动为这一网站加入了明暗模式切换、移动端响应式设计等我们并未要求的功能,最终耗时1分钟左右完成开发。


当我们要求它将网站的主色调改成绿色后,Elephant用不到10秒钟就完成了修改。相信使用过其他模型的用户都知道,大部分模型在处理修改任务时往往需要通读上下文,逐一修改,一些细枝末节的修改可能要花上几分钟。

而Elephant基本做到了指哪儿打哪儿,这对于一些快速、高频的网站调试需求是很实用的。


我们也试了试Elephant有没有打造项目级任务的能力,让它根据自己的内部知识,复刻一个支付软件。我们是在Kilo Code插件中体验的模型编程,由Elephant驱动的多个子Agent并行工作,进一步放大了它的输出速度优势,但是其最终打造的结果仅能算是一个原型。这种表现可能与其较小的参数量有关。


再来看看Elephant在长文本场景的表现。我们向模型发送了一份几百页的招股书,并给出十分详细的IPO解读要求,让Elephant输出对这家公司基本面的总结。这种复杂的提示词,对模型的指令遵循能力是一种挑战。


在执行过程中,Elephant可以快速调用多个文件读取工具,以极快的速度输出解读。它用12万token完成了对这份复杂文件的梳理,耗时却仅有几十秒。

细读它的解读可以发现,模型完全按照我们的要求梳理出了核心信息,没有遗漏,数据、结论都基本准确。


我们还尝试了让Elephant完成Agent类型的任务:将其接入一个OpenClaw类的产品,并要求它规划一次去泰国的7日游,搜索景点注意事项、定位等关键信息,最终打造一个攻略网站。

Elephant可以充分利用Agent框架为其提供的工具,调用搜索等工具,获取和泰国旅行相关的信息。


最终,Elephant在这种开放式Agent任务上做得不错,旅程规划合理,覆盖了重要的景点。它还在高德上为我们查找了对应地点的定位,点击后即可跳转到相应界面。


几个任务跑下来,我们发现Elephant在执行任务中展现了优秀的速度与指令响应能力,前端原型开发和长文件处理效率不错,但在打造完整项目级应用时仍然有些力不从心。其Agent规划与工具调用能力可圈可点,能自主完成旅行攻略到网站落地。总体而言,这是一款在轻量级、高频任务中具有优势的高效模型。

二、第三方评估:指令遵循满分,token效率比肩GPT-5.4 Mini

Elephant在更全面的第三方基准测试上的表现如何?AI Benchy上对这一模型的评估值得参考。

AI Benchy是一个“挤水分”的民间AI测谎仪。如果你是一名开发者,或者你需要用 AI 来做自动化工作流,相比于各家大厂的官方跑分,AI Benchy提供的“指令遵循度”和“真实性价比”数据往往具有更高的参考价值。

从绝对实力来看,Elephant在AI Benchy上并未进入第一梯队,但这可能本来就不是它的目标。在同参数量级的模型中,Elephant真正主打的是高效率与高性价比。

在token消耗维度,同样的逻辑推理或代码审计任务交给Elephant,其token用量要远少于其他厂商的模型,基本和GPT-5.4 Mini处在同一水平线上。这种高token效率,尤其适合大规模的to-C场景或是重复性的日常任务。


这种高效率在Agent场景尤为重要。因为Agent工作流本质上是多轮串行或并行的循环过程,模型需要反复规划、调用工具、观察结果、再规划,每一轮都会消耗token并引入延迟。高token效率意味着模型在有限的上下文窗口和预算内可以执行更多轮操作,能用更少的计算资源跑完更长的Agent链路。

而在响应时间方面,Elephant能做到基本在1秒左右给出回答,提供几乎无延迟感的交互体验,这一定程度上缓解了用户在等待生成结果时的焦躁感,提升用户体验。


这种低时延效果是不少厂商追逐的重点。前段时间,谷歌CEO Sundar Pichai就分享了一个观点:“延迟是优秀产品的核心特征之一,低延迟往往意味着产品的底层技术架构足够优秀,…,这也是我们打造Gemini的核心思路,即在前沿性能与速度之间找到平衡。

换句话说,低延迟不只是“快”这么简单,它背后往往代表着一套更扎实、更成熟的技术体系和更好的用户体验,最终会转化为真实的商业价值。

最后,在指令遵循方面,Elephant拿到了一致性的满分成绩和100%的通过率,也就是说这个模型比较“听话”。这能够降低任务执行过程中与模型反复交互、理清需求带来的时间和算力浪费。


结语:不拿大炮打蚊子,轻量模型也有价值

其实,在最初测试Elephant模型时,我们并未被它的基础能力惊艳,甚至一度有所怀疑。但随着深入真实任务场景,它的实用价值才真正显现出来。

当前,前沿模型的规模正不断扩大,生成的答案也越来越长。然而在真实的业务流水线中,用万亿参数模型去处理基础文本分类或信息抽取,无异于“大炮打蚊子”:既浪费算力,又导致token无意义消耗和时延飙升。

正因如此,剥离对庞大体量的迷信,根据任务复杂度精准匹配模型尺寸,让每一个token都用在刀刃上,已经成为大模型规模化落地过程中,开发者和企业的共识。

在能反映真实调用量的OpenRouter平台上,曾由超大规模模型垄断的榜单,正被一批讲究“token效率”的精锐小模型打破。这并非是对旗舰模型能力的否定,而是工程理性回归的信号。相较于那些参数量最大、最“智能”的模型,那些能以最低成本、最快响应速度完成任务的模型,正展现出成为Agent操作系统的成长潜力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗披露击落美C-130细节:情报部门周密部署 军民协同作战

伊朗披露击落美C-130细节:情报部门周密部署 军民协同作战

财联社
2026-04-16 22:08:06
喜讯!北约宣布向乌提供600亿美元援助,乌军2026年军费达1700亿

喜讯!北约宣布向乌提供600亿美元援助,乌军2026年军费达1700亿

史政先锋
2026-04-16 16:09:37
普京敲定访华,特朗普紧急下命令,中国通告全球,无惧美国威胁

普京敲定访华,特朗普紧急下命令,中国通告全球,无惧美国威胁

书纪文谭
2026-04-16 18:08:02
恭喜!官方确认东契奇坎宁安申诉成功获评奖资格 华子申诉被驳回

恭喜!官方确认东契奇坎宁安申诉成功获评奖资格 华子申诉被驳回

醉卧浮生
2026-04-17 00:00:52
当执法者将国家法律摔在地上,请先别讨论摩托能否上高速和张雪了

当执法者将国家法律摔在地上,请先别讨论摩托能否上高速和张雪了

阿陆
2026-04-16 14:52:08
广交会封神!张雪机车820被老外围堵,当场要签单带回巴西

广交会封神!张雪机车820被老外围堵,当场要签单带回巴西

趣味萌宠的日常
2026-04-16 09:54:37
女子利用天气预报频繁购买飞机延误险,5年买中900多次,获赔近300万,被抓时:我符合保险理赔要求

女子利用天气预报频繁购买飞机延误险,5年买中900多次,获赔近300万,被抓时:我符合保险理赔要求

谭老师地理大课堂
2026-04-15 20:11:42
“牛散”操作曝光,葛卫东、章建平等最新持仓来了

“牛散”操作曝光,葛卫东、章建平等最新持仓来了

新浪财经
2026-04-16 16:04:22
一个30吨钢卷,滚出了2026最“重量级”的地狱笑话

一个30吨钢卷,滚出了2026最“重量级”的地狱笑话

果壳
2026-04-16 12:17:28
只喝烧开的自来水,不碰桶装水,不买矿泉水,最后结果如何?

只喝烧开的自来水,不碰桶装水,不买矿泉水,最后结果如何?

芹姐说生活
2026-04-16 19:35:17
海关总署企业管理和稽查司原司长王胜被查

海关总署企业管理和稽查司原司长王胜被查

新京报
2026-04-16 17:00:11
任正非小女儿代言华为炸场!网友:代言人都自研,你们拿什么和我争...

任正非小女儿代言华为炸场!网友:代言人都自研,你们拿什么和我争...

品牌新
2026-04-16 12:10:00
“灵隐寺僧人是日本人、间谍”?抖音通报

“灵隐寺僧人是日本人、间谍”?抖音通报

观察者网
2026-04-16 17:58:07
广西靖西一地多名男子持手电筒拦车,当地镇政府:他们想当路霸,警方已到场处理

广西靖西一地多名男子持手电筒拦车,当地镇政府:他们想当路霸,警方已到场处理

潇湘晨报
2026-04-16 15:55:11
男子因噪音过敏住5年隔音舱:自己设计,已接上百个订单,帮噪音受困者找回睡眠

男子因噪音过敏住5年隔音舱:自己设计,已接上百个订单,帮噪音受困者找回睡眠

半岛官网
2026-04-16 11:20:50
投诉公交提前发车,竟丢了工作?松原男子称个人信息遭泄露,单位被施压后将其解雇

投诉公交提前发车,竟丢了工作?松原男子称个人信息遭泄露,单位被施压后将其解雇

大风新闻
2026-04-16 16:07:03
两名外籍乘客在网约车上对着部队大门连续拍照,接下来又要去训练场方向,司机觉得可疑,直接开车把他们交给了部队

两名外籍乘客在网约车上对着部队大门连续拍照,接下来又要去训练场方向,司机觉得可疑,直接开车把他们交给了部队

极目新闻
2026-04-16 08:59:25
特朗普宣布,100%关税封杀中国汽车,话音刚落,中国减持77亿美债

特朗普宣布,100%关税封杀中国汽车,话音刚落,中国减持77亿美债

史料布籍
2026-04-16 16:54:52
女教师群聊“八卦”被拘,起诉公安局再被驳回

女教师群聊“八卦”被拘,起诉公安局再被驳回

中国新闻周刊
2026-04-16 09:02:37
男子办婚礼未领证,后发现女方疑与他人暧昧,起诉退彩礼购房款才知她有婚史,法院调解退39万元,当事人:将追责女方骗婚

男子办婚礼未领证,后发现女方疑与他人暧昧,起诉退彩礼购房款才知她有婚史,法院调解退39万元,当事人:将追责女方骗婚

极目新闻
2026-04-16 21:58:30
2026-04-17 00:52:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11611文章数 117031关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

东北男子投诉公交提前发车丢工作 单位被施压将其解雇

头条要闻

东北男子投诉公交提前发车丢工作 单位被施压将其解雇

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰谁的生意?

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

教育
游戏
亲子
健康
公开课

教育要闻

985学院官宣!学硕,停招

《荒野大镖客3》最全新情报!前传还是新故事?

亲子要闻

孩子被伤害,不要去责备妈妈!

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版