今天起，无限期免费！全球首个全模态API开放，Top 10 AI Lab出手|调用|工作流|显式标识|image|api开放

今天起，无限期免费！全球首个全模态API开放，Top 10 AI Lab出手

2026-06-01 15:47:08　来源: 量子位

北京举报

分享至

金磊发自凹非寺
量子位 | 公众号 QbitAI

好好好，终于有人把文本、图片、视频全模态的API，统统给免费开放出来了！

这次动手的，是Agnes AI——

从今天起，正式面向全球开发者与创作者，无限期免费开放旗下核心模型API！

都有啥？

文本模型：Agnes-2.0-Flash
图片模型：Agnes-Image-2.0-Flash
视频模型：Agnes-Video-2.0

可以说是非常之全乎儿~

来，咱们先看一个视频模型的效果。

视频地址：
https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA

可以看到，即便是免费的API，视频模型依旧能稳稳生成上世纪的电影风格。

但也正如我们刚才说的，这次Agnes不是单独把某一个能力免费，而是把文本、图片、视频三类API一起开放。

所以说，以后一个开发者想做Agent、一个设计师想改图、一个短视频团队想批量试分镜，都能从同一个模型体系里调用能力。

那么其它模型的效果如何？

一波实测，走起~

免费的API，效果咋样？

先来看下文本模型Agnes-2.0-Flash。

我们先让它直接来做一个应用，Prompt是这样的：

帮助我构建高德地图类型的地图App，以北京市东城区总部胡同明阳国际中心为起点。地图要可以放大缩小，输入目的地起始点，移动端垂直屏APP界面，地图应用UI设计，简洁界面，分层UI布局，圆角布局，中部，高坐标度图标，手机屏幕画幅，8K，UI界面设计，细节。1.写实实地图景观（高德/百度风格）卫星实景地图底图，城市道路路网，建筑标记，绿色植被区块，蓝色水系湖泊，道路分级，地点文字标签，缩放比例尺控件，定位点图标，室外光影写实

这个任务考验的是模型能不能把产品需求、UI结构、交互逻辑和视觉风格揉到一起。

从效果来看，Agnes-2.0-Flash明显把Prompt里的需求都一一做到位了。

对开发者来说，这种能力的价值在于，早期原型可以从白纸画框架变成直接让模型生成可参考的交互稿。

第一个场景，是让它做一个手势控制电影级3D AI网站。

Prompt如下：

Createa cinematic3D AI websitewithbreathtaking visuals.

可以看到，生成的HTML里面的各种3D效果直接夯爆了。

Agnes-2.0-Flash已经把视觉、交互和体验等都塞进一个需求里。

接下来，我们再做一个更复杂的3D粒子系统。

用 Three.js + MediaPipe Hands 做一个手势控制的3D 粒子系统，单文件 HTML，要炫酷一点：粒子（约2.5万个）用自定义 ShaderMaterial：顶点着色器做闪烁（twinkle，按时间+位置正弦波动 + 距离衰减点大小），片元着色器做圆形柔光辉光（exp(-d*4) 径向 glow + AdditiveBlending），让粒子像发光星点。

嗯，效果可以说是相当炸裂了。

这类案例能说明一点，Agnes-2.0-Flash在复杂结构化任务里，目标不是只给答案，而是把一个可运行的项目拆出来。

看完文本模型，我们再来看图片模型Agnes-Image-2.0-Flash。

第一个场景，我们看下它是否能完全理解Prompt的意思：

赛博朋克动画场景，雨夜的未来东京人行天桥，潮湿反光的地面，金属框架的通道结构，头顶有荧光灯管照明，行人撑伞在雨雾中穿行，背景是被雨雾模糊的摩天大楼与霓虹招牌，冷色调为主，粉紫与青蓝的霓虹光晕在雾气中散开，朦胧的雨夜氛围感，镜头向通道深处延伸，景深效果，动漫渲染，细腻的光影与水汽效果。

可以看到，Agnes-Image-2.0-Flash生成的图片确实get到了Prompt的诸多细节。

第二个场景，是电商主图。

我们先给Agnes-Image-2.0-Flash这样的Prompt：

少女已经完全跨出了屏幕，双脚稳站在地面上，一只手用力拨开残余的屏幕碎片向外推展，另一只手则伸向镜头前，仿佛邀你走进这个奇幻空间

第三个场景，是信息图和社交媒体配图。

一张手机社交APP的竖屏图文教程截图，采用从上到下的瀑布流排版。整体背景为温馨的浅米色，呈现出日系清新的美食排版风格。画面最顶部有手机系统的状态栏，清晰显示时间 ‘14:30’、5G信号图标、Wi-Fi图标和满格电池图标。\n\n状态栏下方，是居中排版的大字号主标题，深棕色粗体文字 ‘巧克力拿铁零失败教程’，标题下方有一行较小的浅棕色英文副标题 ‘Chocolate Latte Recipe’。\n\n标题下方占据画面约三分之一比例的是一张高清的成品展示主图：放置在浅色木托盘上的一杯高透明度的玻璃杯装巧克力拿铁。杯内呈现出漂亮的分层：底部是深棕色的巧克力酱，中间是浓郁的浓缩咖啡与牛奶的融合层，顶部是绵密的奶泡，奶泡上撒着些许巧克力碎，并淋着深褐色的巧克力酱拉花。杯口装饰有一根肉桂棒和一小枝薄荷。

这种任务考的是图文排版和指令遵循。因为信息图不是单纯画一张插画，它要处理标题、层级、留白、图标、说明文字之间的关系。对公众号、短视频封面、课程海报、企业内训材料来说，这类能力非常刚需。

最后，我们再来看视频模型Agnes-Video-2.0。

我们围绕《龙族苏醒》这个主题来做个视频，Prompt是这样的：

16:9横屏，15秒，奇幻史诗，龙之火焰。0-3秒：俯拍古老山洞，洞内岩浆缓慢流动如河流般发出橙红色光芒，洞壁布满钟乳石，环境闷热湿润，每一块石头上都覆盖着晶莹的水珠。3-7秒：中景，巨龙缓缓睁开眼睛，它的眼睛如灯笼般大小，瞳孔是金色的竖瞳，鳞片在岩浆光芒下闪烁如红宝石，每一片鳞片都清晰可见。7-11秒：特写龙眼，瞳孔收缩视线聚焦，压迫感扑面而来，巨头移动带动周围空气流动形成风，岩浆开始沸腾冒泡气泡翻滚。11-15秒：全景拉远，巨龙完全苏醒抬起头颅发出震耳欲聋的咆哮，声音穿透山洞，石块开始坠落，龙翼展开刮起狂风。【强化词】巨龙特效，火焰物理，鳞片细节，电影级，4K 高清，奇幻史诗。

视频地址：
https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA

短短15秒，效果已经有迪士尼动画的味道了。

第二个场景，是音画同出：

[VISUAL]:EXT. CORNFIELD – SUMMER – BRIGHT SUN. A teenager runs through the corn, arms brushing against leaves, then stops at a clearing. He sits on the ground, breathing hard, and looks up at the sky. [SPEECH]: None [SOUNDS]: Corn rustle, breathing, insects. [TEXT]: None

视频地址：
https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA

音画同出的难点，是中间过程不能违和。从效果来看，整个视频音画同步性可谓是一气呵成。

如此一来，对广告分镜、产品短片等场景来说，试错门槛会低很多。

第三个场景，我们结合图片生成的案例，来考验一下运镜的效果：

大师级运镜，由远及近拉近，镜头推至天桥下，行人撑着伞匆匆忙忙

视频地址：
https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA

Agnes-Video-2.0依旧是稳稳拿捏住了。

这些案例能看出视频模型更接近真实创作流程的地方，创作者并不只需要动起来，还需要情绪、镜头、景别、光影和氛围一起服务于内容。短剧、广告、剧情分镜、音乐MV、社媒视频都不是单帧审美，而是连续叙事。

所以，Agnes这次免费开放的重点，不只是多了一个免费模型。更准确地说，它是在把文本、图像、视频三类能力，打包成一套可调用的创作与开发基础设施。

几分钟就能上手的那种

除了效果，操作方式也是极易上手。

最直接的入口，是Agnes官方API平台：
https://platform.agnes-ai.com/。开发者登录后创建API Key，就可以按文档调用对应模型。

如果使用Workbuddy，可以把Agnes的图片或视频模型打包成一个Skill。比如配置Agnes Image 2.0或Agnes Video V2.0后，在对话里就能像调用工具一样调用生图、生视频能力。

如果使用Hermes这类本地Agent，也可以把Agnes-2.0-Flash配置成默认模型。关键配置主要是API Key、自定义模型提供商、接口地址
https://apihub.agnes-ai.com/v1，以及模型名称agnes-2.0-flash。

对开发者来说，免费API意味着可以放心做高频测试；对Agent应用来说，意味着多轮规划、工具调用、失败重试不再每一步都要计算成本；对内容创作者来说，意味着图像和视频可以更大胆地试镜头、试风格、试版本。

背后是Top 10 AI Lab

Agnes AI是全球Top 10的AI Lab。

根据Agnes披露的信息，Agnes-2.0-Flash进入Claw-Eval榜单，图像模型Agnes-Image-2.0-Flash进入Artificial Analysis的Image Editing Leaderboard，视频模型Agnes-Video-V2.0也进入Artificial Analysis的Image to Video Leaderboard（With Audio）。

这些榜单成绩至少说明一件事，Agnes已经进入全球多模态模型竞争的可见区。

但这件事更值得讨论的地方，不只是排名。

过去两年，大模型竞争最容易被看见的主线，是谁参数更大、谁跑分更高、谁发布会更炸。这个方向当然重要，因为模型能力决定了上限。

但到了应用落地阶段，另一个问题会变得越来越现实：

谁能让更多人真正用得起？

尤其是在Agent时代，调用成本会被进一步放大。一个普通聊天请求可能只消耗一次Token，但一个Agent工作流可能要反复规划、搜索、调用工具、写代码、检查结果、失败重试。看起来只是用户发出一句话，背后可能已经跑了几十轮模型调用。

免费API，真正影响的还有开发者的实验空间。

很多AI应用并不是没有需求，而是卡在早期试错阶段：还没验证PMF，调用成本先上来了；还没形成收入，模型账单先跑起来了；还没招到完整团队，一个人想做Agent、做多模态应用、做自动化流程，却发现每一步都在烧钱。

Agnes的打法，某种程度上把这个压力往后推了一步。

先让更多人用起来，先让开发者把Demo跑通，先让创作者把工作流搭起来，先让中小团队敢做实验。只有当使用门槛降下来，模型能力才有机会从榜单走向真实应用。

当然，免费并不自动等于成功。

真正决定一个模型能不能长期留下来的，还是稳定性、调用体验、生态工具、文档完整度、并发能力和开发者社区。尤其是全模态API，后续要面对的不是单点能力竞争，而是端到端工作流竞争：文本怎么规划任务，图像怎么生成素材，视频怎么完成动态表达，工具怎么串起来，失败怎么自动修复。

但至少这一次，Agnes给行业抛出了一个很直接的问题：

当高质量AI能力越来越像水、电、云服务器一样成为基础设施，它到底应该有多贵？

如果说过去两年，大模型竞争的关键词是更强；那么接下来，更可用、更便宜、更容易接入，会变得同样关键。

因为真正改变行业的，往往不是少数人用得起的尖端能力，而是足够多人能反复调用、持续试错、最终长进工作流里的基础能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.