金磊 发自 凹非寺
量子位 | 公众号 QbitAI
好好好,终于有人把文本、图片、视频全模态的API,统统给免费开放出来了!
这次动手的,是Agnes AI——
从今天起,正式面向全球开发者与创作者,无限期免费开放旗下核心模型API!
![]()
都有啥?
- 文本模型:Agnes-2.0-Flash
- 图片模型:Agnes-Image-2.0-Flash
- 视频模型:Agnes-Video-2.0
可以说是非常之全乎儿~
来,咱们先看一个视频模型的效果。
![]()
视频地址:
https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA
可以看到,即便是免费的API,视频模型依旧能稳稳生成上世纪的电影风格。
但也正如我们刚才说的,这次Agnes不是单独把某一个能力免费,而是把文本、图片、视频三类API一起开放。
所以说,以后一个开发者想做Agent、一个设计师想改图、一个短视频团队想批量试分镜,都能从同一个模型体系里调用能力。
那么其它模型的效果如何?
一波实测,走起~
免费的API,效果咋样?
先来看下文本模型Agnes-2.0-Flash。
我们先让它直接来做一个应用,Prompt是这样的:
帮助我构建高德地图类型的地图App,以北京市东城区总部胡同明阳国际中心为起点。地图要可以放大缩小,输入目的地起始点,移动端垂直屏APP界面,地图应用UI设计,简洁界面,分层UI布局,圆角布局,中部,高坐标度图标,手机屏幕画幅,8K,UI界面设计,细节。1.写实实地图景观(高德/百度风格)卫星实景地图底图,城市道路路网,建筑标记,绿色植被区块,蓝色水系湖泊,道路分级,地点文字标签,缩放比例尺控件,定位点图标,室外光影写实
![]()
这个任务考验的是模型能不能把产品需求、UI结构、交互逻辑和视觉风格揉到一起。
从效果来看,Agnes-2.0-Flash明显把Prompt里的需求都一一做到位了。
对开发者来说,这种能力的价值在于,早期原型可以从白纸画框架变成直接让模型生成可参考的交互稿。
第一个场景,是让它做一个手势控制电影级3D AI网站。
Prompt如下:
Createa cinematic3D AI websitewithbreathtaking visuals.
![]()
可以看到,生成的HTML里面的各种3D效果直接夯爆了。
Agnes-2.0-Flash已经把视觉、交互和体验等都塞进一个需求里。
接下来,我们再做一个更复杂的3D粒子系统。
用 Three.js + MediaPipe Hands 做一个手势控制的3D 粒子系统,单文件 HTML,要炫酷一点: 粒子(约2.5万个) 用自定义 ShaderMaterial:顶点着色器做闪烁(twinkle,按时间+位置正弦波动 + 距离衰减点大小),片元着色器做圆形柔光辉光(exp(-d*4) 径向 glow + AdditiveBlending),让粒子像发光星点。
![]()
嗯,效果可以说是相当炸裂了。
这类案例能说明一点,Agnes-2.0-Flash在复杂结构化任务里,目标不是只给答案,而是把一个可运行的项目拆出来。
看完文本模型,我们再来看图片模型Agnes-Image-2.0-Flash。
第一个场景,我们看下它是否能完全理解Prompt的意思:
赛博朋克动画场景,雨夜的未来东京人行天桥,潮湿反光的地面,金属框架的通道结构,头顶有荧光灯管照明,行人撑伞在雨雾中穿行,背景是被雨雾模糊的摩天大楼与霓虹招牌,冷色调为主,粉紫与青蓝的霓虹光晕在雾气中散开,朦胧的雨夜氛围感,镜头向通道深处延伸,景深效果,动漫渲染,细腻的光影与水汽效果。
![]()
可以看到,Agnes-Image-2.0-Flash生成的图片确实get到了Prompt的诸多细节。
第二个场景,是电商主图。
我们先给Agnes-Image-2.0-Flash这样的Prompt:
少女已经完全跨出了屏幕,双脚稳站在地面上,一只手用力拨开残余的屏幕碎片向外推展,另一只手则伸向镜头前,仿佛邀你走进这个奇幻空间
![]()
第三个场景,是信息图和社交媒体配图。
一张手机社交APP的竖屏图文教程截图,采用从上到下的瀑布流排版。整体背景为温馨的浅米色,呈现出日系清新的美食排版风格。画面最顶部有手机系统的状态栏,清晰显示时间 ‘14:30’、5G信号图标、Wi-Fi图标和满格电池图标。\n\n状态栏下方,是居中排版的大字号主标题,深棕色粗体文字 ‘巧克力拿铁 零失败教程’,标题下方有一行较小的浅棕色英文副标题 ‘Chocolate Latte Recipe’。\n\n标题下方占据画面约三分之一比例的是一张高清的成品展示主图:放置在浅色木托盘上的一杯高透明度的玻璃杯装巧克力拿铁。杯内呈现出漂亮的分层:底部是深棕色的巧克力酱,中间是浓郁的浓缩咖啡与牛奶的融合层,顶部是绵密的奶泡,奶泡上撒着些许巧克力碎,并淋着深褐色的巧克力酱拉花。杯口装饰有一根肉桂棒和一小枝薄荷。
![]()
这种任务考的是图文排版和指令遵循。因为信息图不是单纯画一张插画,它要处理标题、层级、留白、图标、说明文字之间的关系。对公众号、短视频封面、课程海报、企业内训材料来说,这类能力非常刚需。
最后,我们再来看视频模型Agnes-Video-2.0。
我们围绕《龙族苏醒》这个主题来做个视频,Prompt是这样的:
16:9横屏,15秒,奇幻史诗,龙之火焰。0-3秒:俯拍古老山洞,洞内岩浆缓慢流动如河流般发出橙红色光芒,洞壁布满钟乳石,环境闷热湿润,每一块石头上都覆盖着晶莹的水珠。3-7秒:中景,巨龙缓缓睁开眼睛,它的眼睛如灯笼般大小,瞳孔是金色的竖瞳,鳞片在岩浆光芒下闪烁如红宝石,每一片鳞片都清晰可见。7-11秒:特写龙眼,瞳孔收缩视线聚焦,压迫感扑面而来,巨头移动带动周围空气流动形成风,岩浆开始沸腾冒泡气泡翻滚。11-15秒:全景拉远,巨龙完全苏醒抬起头颅发出震耳欲聋的咆哮,声音穿透山洞,石块开始坠落,龙翼展开刮起狂风。【强化词】巨龙特效,火焰物理,鳞片细节,电影级,4K 高清,奇幻史诗。
![]()
视频地址:
https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA
短短15秒,效果已经有迪士尼动画的味道了。
第二个场景,是音画同出:
[VISUAL]:EXT. CORNFIELD – SUMMER – BRIGHT SUN. A teenager runs through the corn, arms brushing against leaves, then stops at a clearing. He sits on the ground, breathing hard, and looks up at the sky. [SPEECH]: None [SOUNDS]: Corn rustle, breathing, insects. [TEXT]: None
![]()
视频地址:
https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA
音画同出的难点,是中间过程不能违和。从效果来看,整个视频音画同步性可谓是一气呵成。
如此一来,对广告分镜、产品短片等场景来说,试错门槛会低很多。
第三个场景,我们结合图片生成的案例,来考验一下运镜的效果:
大师级运镜,由远及近拉近,镜头推至天桥下,行人撑着伞匆匆忙忙
![]()
视频地址:
https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA
Agnes-Video-2.0依旧是稳稳拿捏住了。
这些案例能看出视频模型更接近真实创作流程的地方,创作者并不只需要动起来,还需要情绪、镜头、景别、光影和氛围一起服务于内容。短剧、广告、剧情分镜、音乐MV、社媒视频都不是单帧审美,而是连续叙事。
所以,Agnes这次免费开放的重点,不只是多了一个免费模型。更准确地说,它是在把文本、图像、视频三类能力,打包成一套可调用的创作与开发基础设施。
几分钟就能上手的那种
除了效果,操作方式也是极易上手。
最直接的入口,是Agnes官方API平台:
https://platform.agnes-ai.com/。开发者登录后创建API Key,就可以按文档调用对应模型。
![]()
如果使用Workbuddy,可以把Agnes的图片或视频模型打包成一个Skill。比如配置Agnes Image 2.0或Agnes Video V2.0后,在对话里就能像调用工具一样调用生图、生视频能力。
![]()
如果使用Hermes这类本地Agent,也可以把Agnes-2.0-Flash配置成默认模型。关键配置主要是API Key、自定义模型提供商、接口地址
https://apihub.agnes-ai.com/v1,以及模型名称agnes-2.0-flash。
对开发者来说,免费API意味着可以放心做高频测试;对Agent应用来说,意味着多轮规划、工具调用、失败重试不再每一步都要计算成本;对内容创作者来说,意味着图像和视频可以更大胆地试镜头、试风格、试版本。
背后是Top 10 AI Lab
Agnes AI是全球Top 10的AI Lab。
根据Agnes披露的信息,Agnes-2.0-Flash进入Claw-Eval榜单,图像模型Agnes-Image-2.0-Flash进入Artificial Analysis的Image Editing Leaderboard,视频模型Agnes-Video-V2.0也进入Artificial Analysis的Image to Video Leaderboard(With Audio)。
![]()
这些榜单成绩至少说明一件事,Agnes已经进入全球多模态模型竞争的可见区。
但这件事更值得讨论的地方,不只是排名。
过去两年,大模型竞争最容易被看见的主线,是谁参数更大、谁跑分更高、谁发布会更炸。这个方向当然重要,因为模型能力决定了上限。
但到了应用落地阶段,另一个问题会变得越来越现实:
谁能让更多人真正用得起?
尤其是在Agent时代,调用成本会被进一步放大。一个普通聊天请求可能只消耗一次Token,但一个Agent工作流可能要反复规划、搜索、调用工具、写代码、检查结果、失败重试。看起来只是用户发出一句话,背后可能已经跑了几十轮模型调用。
免费API,真正影响的还有开发者的实验空间。
很多AI应用并不是没有需求,而是卡在早期试错阶段:还没验证PMF,调用成本先上来了;还没形成收入,模型账单先跑起来了;还没招到完整团队,一个人想做Agent、做多模态应用、做自动化流程,却发现每一步都在烧钱。
Agnes的打法,某种程度上把这个压力往后推了一步。
先让更多人用起来,先让开发者把Demo跑通,先让创作者把工作流搭起来,先让中小团队敢做实验。只有当使用门槛降下来,模型能力才有机会从榜单走向真实应用。
当然,免费并不自动等于成功。
真正决定一个模型能不能长期留下来的,还是稳定性、调用体验、生态工具、文档完整度、并发能力和开发者社区。尤其是全模态API,后续要面对的不是单点能力竞争,而是端到端工作流竞争:文本怎么规划任务,图像怎么生成素材,视频怎么完成动态表达,工具怎么串起来,失败怎么自动修复。
但至少这一次,Agnes给行业抛出了一个很直接的问题:
当高质量AI能力越来越像水、电、云服务器一样成为基础设施,它到底应该有多贵?
如果说过去两年,大模型竞争的关键词是更强;那么接下来,更可用、更便宜、更容易接入,会变得同样关键。
因为真正改变行业的,往往不是少数人用得起的尖端能力,而是足够多人能反复调用、持续试错、最终长进工作流里的基础能力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.