DeepSeek V4 之后又被刷屏，蚂蚁集团 Ling-2.6-1T 来了：1T 参数 + 快思考 + Agent 工程级实力|代码|工作流|上下文|自然语言|agent

DeepSeek V4 之后又被刷屏，蚂蚁集团 Ling-2.6-1T 来了：1T 参数 + 快思考 + Agent 工程级实力

2026-05-11 14:38:35　来源: Ai学习的老章

北京举报

分享至

继 DeepSeek V4 之后，又被蚂蚁集团的新模型 Ling-2.6-1T 刷屏了

开源地址：huggingface.co/inclusionAI/Ling-2.6-1T

线上直接使用：ling.tbox.cn

官方画像：Engineering-Task-Friendly

蚂蚁这次给 Ling-2.6-1T 的定位很明确——为 "Agentic" 时代而生，在执行类基准上全面占位：

Elite Reasoning ：在 AIME26 上领跑非思考类模型，难题求解极致克制
First-Tier Agent Execution ：SWE-bench Verified、TAU2-Bench、BFCL-V4 拿到 SOTA 段位，写代码、调工具、跑多步工作流都顶得住
Precision at Scale ：指令遵循（IFBench）和长上下文理解（256K MRCR）双双拿满，复杂环境下逻辑一致性稳得住

Artificial Analysis 上的 Intelligence Index 拿到 34，输出 token 大概 16M——同等智能水平下，它确实"话少"

跑分上和那些会展开长 CoT 的同段位选手打平，但 token 省得多，工程化场景下这个差距会被放大

因为：Ling-2.6 是把 token 效率作为VIP来设计，靠"快思考"机制直接给答案

官方给了一个词叫 Contextual Process Redundancy Suppression（上下文冗余抑制），后训练阶段专门针对"模型一上来就长篇 CoT"这种行为做了压制

为什么要这么做？因为现在很多模型病了——

一句"今天周几"它先 OOOO 思考 3000 token
一个改 bug 的指令它能给你写一篇议论文
你工程线上跑，Token 烧了不少，结果还是不出彩

老章觉得：对 Agentic 工作流来说，会克制比会思考更值钱

vLLM 本地部署

vLLM 一条命令跑起来：

pip install uv
uv venv ~/my_ling_env
source ~/my_ling_env/bin/activate

 git clone https://github.com/vllm-project/vllm.git
cd vllm
VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=auto

 vllm serve $MODEL_PATH \
    --port $PORT \
    --served-model-name my_model \
    --trust-remote-code --tensor-parallel-size 8 \
    --gpu-memory-utilization 0.85

蚂蚁官方更推荐 SGLang，且对 MTP（多 token 预测）做了专门的 patch：git clone -b ling_2_6 git@github.com:antgroup/sglang.git

pip install "sglang[all]>=0.5.10.post1" --prerelease=allow


 sglang serve \
  --model-path inclusionAI/Ling-2.6-1T \
  --tp-size 8 \
  --max-running-requests 32 \
  --mem-fraction-static 0.92 \
  --chunked-prefill-size 8192 \
  --context-length 262144 \
  --trust-remote-code \
  --tool-call-parser qwen25

量化版也很能打

inferencerlabs 直接出了 Ling-2.6-MLX-3.6bit-INF：

huggingface.co/inferencerlabs/Ling-2.6-MLX-3.6bit-INF

实测数据（M3 Ultra 512 GiB）：

文本推理 ~11.3 tokens/s @ 1000 tokens ，占用 431 GiB
Q3.6-INF 用 data-agnostic INF 量化方法，在 512 GiB 内存预算内追求最大通用准确率
Token Accuracy 接近 95%，且对比同体量模型（Kimi K2.6）丝毫不虚

API 使用并接入Claude Code

API调用每日有 50 万 token 的额度

ling.tbox.cn/open

API 可以很方便地接入到 Claude Code

方法：

将以下内容添加至 ~/.bashrc 或 ~/.zshrc：

export ANTHROPIC_BASE_URL=https://api.ant-ling.com/anthropic
export ANTHROPIC_AUTH_TOKEN=

更新环境变量：

source ~/.zshrc # 或 source ~/.bashrc

通过 --model 参数指定要使用的百灵模型，例如：

# 使用 Ling-2.6-flash（通用对话，速度快）
claude --model Ling-2.6-flash 

 # 使用 Ling-2.6-1T（大型代码库理解、长上下文分析）
claude --model Ling-2.6-1T 

 # 使用 Ring-1T（复杂推理、代码调试）
claude --model Ring-1T

官方 Demo

光看跑分太干，蚂蚁官方放了几个 Demo，节选2个我觉得最能讲清楚定位的：

Demo 1：开源即 Agent-Ready

它对自己的核心承诺是 token efficiency：

Lower token overhead ：要 intelligence，不要长链条 CoT
Reliable multi-step execution ：指令、工具、上下文、工作流四条线都能稳住
Production-ready deployment ：从代码生成到 bug 修复，主流 Agent 框架兼容到位

官方放了一段在 @opencode 上的 Agentic 能力演示：

我看完最大的感受，它接进 Agent 框架后，没有那种"先思考五分钟再动手"的慢热感，工具调用、文件读写、任务拆解之间衔接很丝滑

Demo 2：Agent + 知识库的硬实力

这个 Demo 主打信息蒸馏 + 复杂内容检索：

官方拿《百年孤独》前两章做了一次知识库实体抽取测试，演示连接长期记忆工具后，它如何作为一个高精度记忆层为 Agent 工作流服务

实际意义对应到工作里就是：会议纪要、群聊记录、PRD 文档，丢一堆杂乱材料进去，它能直接给你出结论 + 待办 + 周报草稿 + Wiki——而不是"一段总结然后让你自己梳理"

实测

我在Ling Studio官网和接入到Claude Code都实际体验了一下

第一感觉就是输出速度太快了

每秒 160 Tokens 起步，快如闪电⚡

实测1：

> 请用 HTML5、CSS3 和纯 JavaScript（Canvas）编写一个单文件动态网页，实现一场绚丽多彩的烟花盛况。要求如下： 
> 1. **视觉效果**：烟花爆炸要有多种形态（如经典球形、流星雨拖尾、心形等），每一颗烟花的颜色使用 HSL 随机生成，保证色彩极其炫丽鲜艳，并且有发光/荧光效果。背景设置为带有稀疏星星的深色夜空。 
> 2. **物理逻辑**：每一颗粒子都要受重力和空气阻力影响，呈现真实的抛物线轨迹，并且在消散前有亮度衰减和闪烁效果。 
> 3. **交互设计**：系统需要自动、随机地在屏幕下方发射烟花。同时，当用户在屏幕上任何位置点击（或触摸）时，能立刻响应该坐标并在该位置燃放一朵指定烟花。 
> 4. **性能和代码格式**：使用 `requestAnimationFrame` 保证动画流畅运行。请将所有的 HTML、CSS 和 JS 代码整合在一个独立且完整的 `index.html` 文件中，方便我直接运行。

效果如下：

✅ 8种烟花爆炸形态
✅ HSL随机鲜艳色彩 + 辉光效果
✅ 重力 + 空气阻力物理模拟
✅ 自动随机发射 + 点击发射
✅ requestAnimationFrame 流畅动画
✅ 背景闪烁星星

实测2：生成一套数据分析经典数据集，或使用已知知名数据集，进行详细的数据分析全流程操作，生成一份图文并茂的可本地预览的 HTML 数据分析网站

它写了1400多行代码，技术栈：Dash + Plotly + Pandas + Bootstrap

 完成的功能模块

 1. 数据概览页面

 -  数据集基本信息（150样本，4特征，3类别）
-  统计信息卡片（样本数、特征数、类别数、平均相关性）
-  原始数据表格（带分页）
-  描述性统计表格
-  类别分布柱状图

 2. 单变量分析

 -  特征分布直方图（4个特征，按类别分组）
-  箱线图展示
-  密度分布图
-  小提琴图（按类别分组）

 3. 双变量分析

 - ️ 交互式散点图（可切换X/Y轴特征）
- ️ 特征相关性热力图
-  散点图矩阵（展示所有特征两两关系）

 4. 多变量分析

 -  平行坐标图
-  雷达图（各类别特征均值对比）
-  3D散点图（可切换三个轴特征）
-  Andrews曲线（高维数据模式识别）

 5. 统计分析

 -  按类别分组的箱线图
-  特征分布小提琴图
-  详细统计摘要表（包含均值、标准差、方差等）

 6. 机器学习预览

 -  K-Means聚类分析（k=3）
-  PCA降维可视化（解释95%方差）
-  聚类结果与实际类别对比表

最后再贴个网友@Adam实测：生成一个关于 Ling-2.6-1T 模型的介绍页面，有高级感和科技感

视频里那种版式语言、留白比例、字号节奏，看着像设计师交付的成品稿

这背后印证了官方那句话——它擅长在"明确风格 + 明确受众 + 明确工作流"的指令下产出惊艳结果

模糊指令丢进去会得到平凡结果，但只要你愿意把 prompt 写成给同事下 brief 的样子，它的上限非常高

用法心法：3 个必须知道的高手玩法

跟着官方 README 和 Demo 摸了一圈，我把心法浓缩成 3 条：

心法一：温度调到 0.8 左右

通用任务推荐 0.8（比常见模型略低），代码生成任务建议更低

心法二：把工作流写进 prompt

别只说"写个方案"，要写：

先理解目标
列出三种可能的框架
选择最优框架
填充内容
最后写一句话总结

心法三：先 Plan 再 Execute

抽象任务（如"帮我做个竞品分析"）的黄金姿势是两轮对话——

第一轮：「请列出你完成这个任务的具体步骤和计划」
第二轮：（确认/修改后）「请严格按照这个计划开始执行」

因为 Ling-2.6-1T 是非思考模型，让你来定义思考的路径，反而能让它的执行精度比那些"自己想很多"的模型更稳

总结

适合谁用：跑 Agent 工作流的开发者、被杂乱材料淹没的知识工作者、对 token 成本敏感的工程团队、喜欢"先 Plan 后 Execute"受控玩法的高级用户

慎用场景：期待模型自动深度思考、期望生成复杂具象 SVG 多模态、不愿写清楚 prompt 的用户——它默认是「快思考」，对模糊指令不友好

蚂蚁这次走的路线很清楚：让模型听话、让模型干活、让模型省 token

Agent 时代的工程模型，就该长这样

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.