网易首页 > 网易号 > 正文 申请入驻

AI芯片里程碑,每秒1000个token

0
分享至

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容由半导体行业观察(ID:icbank)编译自venturebeat,谢谢。

没有一个简单的速度计可以测量生成式 AI 模型的速度,但主要方法之一是测量模型每秒处理多少个 token 。

今天,SambaNova Systems宣布,它在新一代人工智能性能方面取得了新的里程碑,使用Llama 3 8B 参数指令模型实现了每秒 1,000 个token的惊人速度。到目前为止,Groq 宣称Llama 3 的最快基准为每秒 800 个令牌。每秒 1,000 个token的里程碑由测试公司Artificial Analysis独立验证。更快的速度对企业具有诸多影响,可能带来重大的业务效益,例如更快的响应时间、更好的硬件利用率和更低的成本。

“我们看到人工智能芯片竞赛以比大多数人预期更快的速度加速,我们很高兴在我们独立进行的基准测试中验证了 SambaNova 的说法,这些基准测试侧重于对现实世界性能进行基准测试,”Artificial Analysis 联合创始人 George Cameron 告诉 VentureBeat。“人工智能开发人员现在有更多硬件选项可供选择,对于那些依赖速度的用例(包括人工智能代理、需要低响应时间和大量文档解释的消费者人工智能应用程序)来说,这尤其令人兴奋。”

在硬件方面,该公司开发了一种称为可重构数据流单元 (RDU) 的 AI 芯片。RDU 与 Nvidia AI 加速器非常相似,既可用于训练,也可用于推理。SambaNova 特别注重使其 RDU 适用于企业工作负载和模型微调。该公司的最新芯片是 SN40L,于2023 年 9 月发布。

在硅片之上,SambaNova 构建了自己的软件堆栈,其中包括2 月 28 日首次发布的Samba-1 模型。Samba -1 是一个 1 万亿参数模型,也称为 Samba-CoE(专家组合)。CoE 方法使企业能够组合使用多个模型,也可以单独使用,并根据公司数据对模型进行微调和训练。

对于 1000t/s 的速度,SambaNova 实际上使用了其 Samba-1 Turbo 模型,这只是已提供用于测试的 API 版本。该公司计划在未来几周内将速度更新纳入其企业主线模型。Cameron 提醒说,Groq 测量的 800 t/s 是其公共 API 共享端点,而 SambaNova 是专用私有端点。因此,他指出他的公司不建议直接比较它们,因为它们并不完全是同类产品。

“话虽如此,这比我们所基准测试的 API 提供商的平均输出令牌/秒速度快 8 倍以上,比 Nvidia H100s 上可实现的典型输出令牌/秒速度快数倍,”Cameron 说。

SambaNova 性能的关键在于其可重构数据流架构,这是该公司 RDU 硅技术的核心。

可重构数据流架构使 SambaNova 能够通过编译器映射优化各个神经网络层和内核的资源分配。

SambaNova 首席执行官兼创始人 Rodrigo Liang 告诉 VentureBeat:“借助数据流,你可以不断改进这些模型的映射,因为它是完全可重新配置的。因此,随着软件的改进,你获得的收益不是增量的,而是相当可观的,无论是在效率方面还是在性能方面。”

当 Llama 3 首次推出时,Liang 的团队就运行了它,最初在 Samba-1 上的性能为每秒 330 个令牌。Liang 表示,通过过去几个月的一系列优化,这一速度已提高两倍,达到目前每秒 1000 个令牌的最高水平。Liang 解释说,优化是一个平衡内核之间资源分配的过程,以避免瓶颈并最大限度地提高整个神经网络管道的吞吐量。SambaNova 在其软件堆栈中采用的基本方法与此相同,可帮助企业优化自己的微调工作。

Liang强调,SambaNova 采用 16 位精度来实现其速度里程碑,从而提供企业所需的更高质量水平。

他指出,对于企业用户来说,降低到 8 位精度不是一个选择。

“对于我们的客户群,我们一直在提供 16 位产品,因为他们非常关心质量,并且我们希望确保最大限度地减少幻觉。”

出于多种原因,速度对企业用户来说尤其重要。随着组织越来越多地转向基于 AI 代理的工作流程(一个模型流入下一个模型),速度比以往任何时候都更加重要。加快速度也具有经济动机。

“我们生产的速度越快,就能腾出更多的机器供其他人使用,”他说。“所以这实际上最终就是通过压缩基础设施来降低成本。”

SambaNova 的 Samba-1 Turbo 在 LLM 速度测试中胜过 NVIDIA

生成式 AI 解决方案公司SambaNova Systems是 Artificial Analysis 最新大型语言模型 (LLM) 基准的明显赢家。Samba-1 Turbo 以每秒超过 1000 个 token 的速度位居Leaderboad榜首,创下了 Llama 3 8B 性能的新纪录。

SambaNova 首席执行官兼创始人 Rodrigo Liang 表示:“我们的使命是为每家企业提供成本更低的定制 AI 系统。开发人员需要快速且不影响准确性的推理速度,以便将个性化 LLM 的强大功能交到组织手中,从而简化工作流程并加快创新速度。”

人工智能分析联合创始人兼首席执行官 Micah Hill-Smith 表示:“SambaNova 的 Samba-1 Turbo 在人工智能分析最近的基准测试中创下了大型语言模型推理性能的新纪录。”

Artificial Analysis 已独立对 Samba-1 Turbo 在 Meta 的 Llama 3 Instruct (8B) 上的性能进行了基准测试,其输出速度为每秒 1,084 个token,比我们基准测试的供应商的平均输出速度快 8 倍以上。Artificial Analysis 已验证 Samba-1 Turbo 上的 Llama 3 Instruct (8B) 可实现与 16 位精度一致的质量分数。

语言模型推理速度的新前沿开启了构建 AI 应用程序的新方式。新兴用例包括代理采取多步骤操作,同时保持无缝对话、实时语音体验和大量文档解释。”

与在数百块芯片上运行相同模型的竞争对手不同,Samba-1 Turbo仅在 16 块芯片上以每秒 1000 个token (t/s) 的速度运行 Llama 3 8B,并且可以在单个 16 插槽 SN40L 节点上同时托管多达 1000 个 Llama3 检查点。这是服务 Llama 3 的最快速度,同时保持完全精度,成本远低于竞争对手。由于内存容量限制,最接近的竞争对手需要数百块芯片来运行每个模型的单个实例,而 GPU 提供的总吞吐量和内存容量较低。SambaNova 可以在单个节点上运行数百个模型,同时保持这一创纪录的速度,总拥有成本比竞争对手低 10 倍。

“Samba-1 Turbo 的速度展现了 Dataflow 的魅力,它简化了 SN40L 芯片上的数据移动,最大限度地减少了延迟,并最大限度地提高了处理吞吐量。它比 GPU 更胜一筹——结果是即时 AI,”SambaNova Systems 联合创始人、斯坦福大学知名计算机科学家 Kunle Olukotun 表示。

https://venturebeat.com/ai/sambanova-breaks-llama-3-speed-record-with-1000-tokens-per-second/

点这里加关注,锁定更多原创内容

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3781期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美涉台表述巨变,美上将曾大胆预言:统一之战,会以这个名义打响

美涉台表述巨变,美上将曾大胆预言:统一之战,会以这个名义打响

boss外传
2026-01-07 21:00:03
广东外援萨姆纳:NBA合同实际到手吓你一跳 很多人说运动员退役了就会破产

广东外援萨姆纳:NBA合同实际到手吓你一跳 很多人说运动员退役了就会破产

篮球大图
2026-01-08 11:53:44
高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

趣文说娱
2026-01-04 16:34:24
TVB颁奖晚宴星光黯淡,寒酸像农村办酒席,女明星一个比一个敢穿

TVB颁奖晚宴星光黯淡,寒酸像农村办酒席,女明星一个比一个敢穿

八卦南风
2026-01-05 11:03:49
梁静茹突然关闭社交媒体账号!近日因身材变化引发热议

梁静茹突然关闭社交媒体账号!近日因身材变化引发热议

鲁中晨报
2026-01-08 18:29:08
不到48小时,特朗普或下台,印度多500%关税,美国又抢千万石油

不到48小时,特朗普或下台,印度多500%关税,美国又抢千万石油

蓝色海边
2026-01-08 07:10:37
中国民众呼声高涨:既然美国能活捉马杜罗,大陆为何不抓赖清德?

中国民众呼声高涨:既然美国能活捉马杜罗,大陆为何不抓赖清德?

博览历史
2026-01-04 18:50:59
杨瀚森半场连打10分钟!防守+体能蜕变,组织亮眼,对史密斯不虚

杨瀚森半场连打10分钟!防守+体能蜕变,组织亮眼,对史密斯不虚

篮球资讯达人
2026-01-08 12:13:41
闫学晶这次恐怕真要哭了,被资本“抛弃”,或将面临巨额赔款

闫学晶这次恐怕真要哭了,被资本“抛弃”,或将面临巨额赔款

社会日日鲜
2026-01-07 08:09:34
中国财政供养人员达6846万?结构失衡才是财政压力的核心

中国财政供养人员达6846万?结构失衡才是财政压力的核心

流苏晚晴
2025-12-04 19:27:08
又轰下38+10+10!抱歉威少:你从历史第二变成了历史第三

又轰下38+10+10!抱歉威少:你从历史第二变成了历史第三

篮球大视野
2026-01-08 17:43:43
合口味深圳地铁广告引争议!企业致歉:涉事广告已调整更换

合口味深圳地铁广告引争议!企业致歉:涉事广告已调整更换

南方都市报
2026-01-07 16:34:20
张纪中狂吃补品应付X需求!向涵之无缝衔接!

张纪中狂吃补品应付X需求!向涵之无缝衔接!

八卦疯叔
2026-01-08 12:00:11
马杜罗拘留单间内部情景曝光:洗手池和厕所一体,有多道铁门隔离

马杜罗拘留单间内部情景曝光:洗手池和厕所一体,有多道铁门隔离

游者走天下
2026-01-08 14:34:42
闫学晶报应来了!代言品牌或要解约,评论区沦陷,春晚节目疑落空

闫学晶报应来了!代言品牌或要解约,评论区沦陷,春晚节目疑落空

小徐讲八卦
2026-01-06 08:32:20
田朴珺回应和王石离婚!王思聪罕见发声,翻出12年前微博讽刺!

田朴珺回应和王石离婚!王思聪罕见发声,翻出12年前微博讽刺!

生性洒脱
2026-01-06 15:12:34
中到大雪局部暴雪!山东迎强冷空气,最低温-10℃,9级大风+降温组团来袭

中到大雪局部暴雪!山东迎强冷空气,最低温-10℃,9级大风+降温组团来袭

齐鲁壹点
2026-01-08 16:23:17
中国车企在新西兰爆卖,销量大涨91.8%

中国车企在新西兰爆卖,销量大涨91.8%

后视镜里de未来
2026-01-07 16:16:20
1955年,一名身体强壮的日本女人赤裸上身背着黑色编织袋站在海边

1955年,一名身体强壮的日本女人赤裸上身背着黑色编织袋站在海边

忠于法纪
2026-01-07 17:46:09
新疆生产建设兵团党委常委、副司令员李旭被查

新疆生产建设兵团党委常委、副司令员李旭被查

澎湃新闻
2026-01-08 18:32:26
2026-01-08 23:39:00
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
12650文章数 34758关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

19岁小伙在柬疑被16万转卖 与母亲视频时按"酒窝"求救

头条要闻

19岁小伙在柬疑被16万转卖 与母亲视频时按"酒窝"求救

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

教育
时尚
旅游
数码
健康

教育要闻

浙江首考地理:牛拉屎放屁,我该怎么办(减排)?!

珍珠专场|| 无论18岁还是80岁,总是会为它再一次心动

旅游要闻

特写:在台湾基隆“穿越”刘铭传隧道

数码要闻

华硕2026款超大屏核显本Vivobook 18面世,至高锐龙AI 9 465

这些新疗法,让化疗不再那么痛苦

无障碍浏览 进入关怀版