继 DeepSeek V4 之后,又被蚂蚁集团的新模型 Ling-2.6-1T 刷屏了
开源地址:huggingface.co/inclusionAI/Ling-2.6-1T
线上直接使用:ling.tbox.cn![]()
官方画像:Engineering-Task-Friendly
蚂蚁这次给 Ling-2.6-1T 的定位很明确——为 "Agentic" 时代而生,在执行类基准上全面占位:
![]()
Elite Reasoning :在 AIME26 上领跑非思考类模型,难题求解极致克制
First-Tier Agent Execution :SWE-bench Verified、TAU2-Bench、BFCL-V4 拿到 SOTA 段位,写代码、调工具、跑多步工作流都顶得住
Precision at Scale :指令遵循(IFBench)和长上下文理解(256K MRCR)双双拿满,复杂环境下逻辑一致性稳得住
![]()
Artificial Analysis 上的 Intelligence Index 拿到 34,输出 token 大概 16M——同等智能水平下,它确实"话少"
跑分上和那些会展开长 CoT 的同段位选手打平,但 token 省得多,工程化场景下这个差距会被放大
因为:Ling-2.6 是把 token 效率作为VIP来设计,靠"快思考"机制直接给答案
官方给了一个词叫 Contextual Process Redundancy Suppression(上下文冗余抑制),后训练阶段专门针对"模型一上来就长篇 CoT"这种行为做了压制
为什么要这么做?因为现在很多模型病了——
一句"今天周几"它先 OOOO 思考 3000 token
一个改 bug 的指令它能给你写一篇议论文
你工程线上跑,Token 烧了不少,结果还是不出彩
老章觉得:对 Agentic 工作流来说,会克制比会思考更值钱
vLLM 本地部署
vLLM 一条命令跑起来:
pip install uv
uv venv ~/my_ling_env
source ~/my_ling_env/bin/activate
git clone https://github.com/vllm-project/vllm.git
cd vllm
VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=autovllm serve $MODEL_PATH \
--port $PORT \
--served-model-name my_model \
--trust-remote-code --tensor-parallel-size 8 \
--gpu-memory-utilization 0.85
蚂蚁官方更推荐 SGLang,且对 MTP(多 token 预测)做了专门的 patch:git clone -b ling_2_6 git@github.com:antgroup/sglang.git
量化版也很能打pip install "sglang[all]>=0.5.10.post1" --prerelease=allowsglang serve \
--model-path inclusionAI/Ling-2.6-1T \
--tp-size 8 \
--max-running-requests 32 \
--mem-fraction-static 0.92 \
--chunked-prefill-size 8192 \
--context-length 262144 \
--trust-remote-code \
--tool-call-parser qwen25
inferencerlabs 直接出了 Ling-2.6-MLX-3.6bit-INF:
huggingface.co/inferencerlabs/Ling-2.6-MLX-3.6bit-INF
实测数据(M3 Ultra 512 GiB):
文本推理 ~11.3 tokens/s @ 1000 tokens ,占用 431 GiB
Q3.6-INF 用 data-agnostic INF 量化方法,在 512 GiB 内存预算内追求最大通用准确率
Token Accuracy 接近 95%,且对比同体量模型(Kimi K2.6)丝毫不虚
API调用每日有 50 万 token 的额度
![]()
ling.tbox.cn/open
API 可以很方便地接入到 Claude Code
方法:
将以下内容添加至 ~/.bashrc 或 ~/.zshrc:
export ANTHROPIC_BASE_URL=https://api.ant-ling.com/anthropic
export ANTHROPIC_AUTH_TOKEN=
更新环境变量:
source ~/.zshrc # 或 source ~/.bashrc
通过 --model 参数指定要使用的百灵模型,例如:
# 使用 Ling-2.6-flash(通用对话,速度快)
claude --model Ling-2.6-flash
# 使用 Ling-2.6-1T(大型代码库理解、长上下文分析)
claude --model Ling-2.6-1T# 使用 Ring-1T(复杂推理、代码调试)
claude --model Ring-1T
光看跑分太干,蚂蚁官方放了几个 Demo,节选2个我觉得最能讲清楚定位的:
Demo 1:开源即 Agent-Ready
它对自己的核心承诺是 token efficiency:
Lower token overhead :要 intelligence,不要长链条 CoT
Reliable multi-step execution :指令、工具、上下文、工作流四条线都能稳住
Production-ready deployment :从代码生成到 bug 修复,主流 Agent 框架兼容到位
官方放了一段在 @opencode 上的 Agentic 能力演示:
我看完最大的感受,它接进 Agent 框架后,没有那种"先思考五分钟再动手"的慢热感,工具调用、文件读写、任务拆解之间衔接很丝滑
Demo 2:Agent + 知识库的硬实力
这个 Demo 主打信息蒸馏 + 复杂内容检索:
官方拿《百年孤独》前两章做了一次知识库实体抽取测试,演示连接长期记忆工具后,它如何作为一个高精度记忆层为 Agent 工作流服务
实际意义对应到工作里就是:会议纪要、群聊记录、PRD 文档,丢一堆杂乱材料进去,它能直接给你出结论 + 待办 + 周报草稿 + Wiki——而不是"一段总结然后让你自己梳理"
实测
我在Ling Studio官网和接入到Claude Code都实际体验了一下
第一感觉就是输出速度太快了
每秒 160 Tokens 起步,快如闪电⚡
![]()
实测1:
> 请用 HTML5、CSS3 和纯 JavaScript(Canvas)编写一个单文件动态网页,实现一场绚丽多彩的烟花盛况。要求如下:
> 1. **视觉效果**:烟花爆炸要有多种形态(如经典球形、流星雨拖尾、心形等),每一颗烟花的颜色使用 HSL 随机生成,保证色彩极其炫丽鲜艳,并且有发光/荧光效果。背景设置为带有稀疏星星的深色夜空。
> 2. **物理逻辑**:每一颗粒子都要受重力和空气阻力影响,呈现真实的抛物线轨迹,并且在消散前有亮度衰减和闪烁效果。
> 3. **交互设计**:系统需要自动、随机地在屏幕下方发射烟花。同时,当用户在屏幕上任何位置点击(或触摸)时,能立刻响应该坐标并在该位置燃放一朵指定烟花。
> 4. **性能和代码格式**:使用 `requestAnimationFrame` 保证动画流畅运行。请将所有的 HTML、CSS 和 JS 代码整合在一个独立且完整的 `index.html` 文件中,方便我直接运行。
效果如下:
✅ 8种烟花爆炸形态
✅ HSL随机鲜艳色彩 + 辉光效果
✅ 重力 + 空气阻力物理模拟
✅ 自动随机发射 + 点击发射
✅ requestAnimationFrame 流畅动画
✅ 背景闪烁星星
实测2:生成一套数据分析经典数据集,或使用已知知名数据集,进行详细的数据分析全流程操作,生成一份图文并茂的可本地预览的 HTML 数据分析网站
![]()
它写了1400多行代码,技术栈:Dash + Plotly + Pandas + Bootstrap
![]()
完成的功能模块
1. 数据概览页面
- 数据集基本信息(150样本,4特征,3类别)
- 统计信息卡片(样本数、特征数、类别数、平均相关性)
- 原始数据表格(带分页)
- 描述性统计表格
- 类别分布柱状图
2. 单变量分析
- 特征分布直方图(4个特征,按类别分组)
- 箱线图展示
- 密度分布图
- 小提琴图(按类别分组)
3. 双变量分析
- ️ 交互式散点图(可切换X/Y轴特征)
- ️ 特征相关性热力图
- 散点图矩阵(展示所有特征两两关系)
4. 多变量分析
- 平行坐标图
- 雷达图(各类别特征均值对比)
- 3D散点图(可切换三个轴特征)
- Andrews曲线(高维数据模式识别)
5. 统计分析
- 按类别分组的箱线图
- 特征分布小提琴图
- 详细统计摘要表(包含均值、标准差、方差等)
6. 机器学习预览
- K-Means聚类分析(k=3)
- PCA降维可视化(解释95%方差)
- 聚类结果与实际类别对比表
最后再贴个网友@Adam实测: 生成一个关于 Ling-2.6-1T 模型的介绍页面,有高级感和科技感
视频里那种版式语言、留白比例、字号节奏,看着像设计师交付的成品稿
这背后印证了官方那句话——它擅长在"明确风格 + 明确受众 + 明确工作流"的指令下产出惊艳结果
模糊指令丢进去会得到平凡结果,但只要你愿意把 prompt 写成给同事下 brief 的样子,它的上限非常高
用法心法:3 个必须知道的高手玩法
跟着官方 README 和 Demo 摸了一圈,我把心法浓缩成 3 条:
心法一:温度调到 0.8 左右
通用任务推荐 0.8(比常见模型略低),代码生成任务建议更低
心法二:把工作流写进 prompt
别只说"写个方案",要写:
先理解目标
列出三种可能的框架
选择最优框架
填充内容
最后写一句话总结
心法三:先 Plan 再 Execute
抽象任务(如"帮我做个竞品分析")的黄金姿势是两轮对话——
第一轮:「请列出你完成这个任务的具体步骤和计划」
第二轮:(确认/修改后)「请严格按照这个计划开始执行」
因为 Ling-2.6-1T 是非思考模型,让你来定义思考的路径,反而能让它的执行精度比那些"自己想很多"的模型更稳
总结
适合谁用:跑 Agent 工作流的开发者、被杂乱材料淹没的知识工作者、对 token 成本敏感的工程团队、喜欢"先 Plan 后 Execute"受控玩法的高级用户
慎用场景:期待模型自动深度思考、期望生成复杂具象 SVG 多模态、不愿写清楚 prompt 的用户——它默认是「快思考」,对模糊指令不友好
蚂蚁这次走的路线很清楚:让模型听话、让模型干活、让模型省 token
Agent 时代的工程模型,就该长这样
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.