网易首页 > 网易号 > 正文 申请入驻

一个自我进化的开源代码模型突然火了,单张显卡实测效果真不错

0
分享至


作者 | Don

来源 | 至顶AI实验室

最近两周,一个开源代码模型 Ornith-1.0 在本地AI圈里莫名其妙地火了,至少六七个YouTube博主已经做了实测。陌生模型能爆火,我相信一定是有原因的。看了下,YouTube博主Bijan Bowen做的测试算是比较扎实的:浏览器OS测试、地铁场景模拟等测试逐项通过。我觉得有两点最值得分享:一是模型的训练思路有创新,二是作者用两张不同定位的显卡分别跑了9B和35B,正好能看出"能不能在本地跑起来"和"跑起来效果怎么样"是两回事。Ornith-1.0 是什么来头

Ornith-1.0 是AI研究团队 DeepReinforce 在2026年6月25日发布的开源代码模型家族,面向"agentic coding",也就是能自主规划、执行、修复代码的编程智能体场景。家族一共四个尺寸:9B稠密、31B稠密、35B混合专家(MoE)、397B MoE旗舰。9B、35B、397B基于阿里的Qwen 3.5后训练,31B则基于Google的Gemma 4。视频拍摄时31B还没在Hugging Face上公开,397B又太大,视频作者手头没有合适的机器跑,实际测试的只有9B稠密版和35B的MoE版本。

自我进化的模型训练思路

这个模型家族最特别的地方,是训练时用的"自我进化脚手架"思路。以往的编程智能体,通常由研究者手工设计一套固定"脚手架":工具调用、错误处理、任务拆解的整套流程,模型只负责往里面填答案。Ornith-1.0反过来,把脚手架也变成模型在强化学习中自己迭代的对象:先读任务和上一轮脚手架,提出改进版脚手架,再用它生成解决方案,两步反馈都会回流训练。用到的算法是GRPO(分组相对策略优化),最早由DeepSeek在2024年DeepSeekMath论文里提出:让模型针对同一任务一次生成一组答案,组内互相比较打分,省掉训练独立"评判模型"的开销,是近来国产开源模型圈常用的训练手段。

视频里还提到一个背景,多少能解释大家为何对开源模型格外上心:录制前不久,OpenAI发布新一代旗舰模型GPT-5.6,但受美国网络安全审查流程影响,目前只对约20家经审批的合作伙伴开放,普通用户完全无法通过ChatGPT或API访问。作者感慨前沿闭源模型的门槛正变得越来越高,这也让开源权重模型显得更有存在感。

本地测试设备

回到实测。作者用两台机器分别跑9B和35B。9B在一台笔记本上跑,显卡是移动版RTX 5090(24GB显存),Q8量化,通过LM Studio加载。这里值得提一句:笔记本版RTX 5090和桌面版并非同一块芯片,桌面版用完整的Blackwell GB202核心、32GB显存,笔记本版是阉割过的GB203核心、24GB显存,性能更接近桌面版RTX 5080,购买前容易踩坑。35B的MoE版本跑在一台配备RTX 6000 Pro(Blackwell架构专业卡)的机器上,通过vLLM以未量化全精度运行。这块工作站旗舰卡有96GB GDDR7显存,是RTX 5090的三倍,官方定价约8500美元。

多个实测开始

测试项目是作者频道的常规菜单:生成一个可交互的"浏览器桌面操作系统"、一个地铁3D场景并改造成带丧尸敌人的FPS游戏、一个带3D手表模型和电影感首屏的手表电商网站、按图复刻3D模型,以及一些即兴追加测试。作者还用了开源编程智能体Open Code(一个能在终端里调用本地模型自主写代码、跑命令、修错误的工具),把两个模型生成的半成品接进去,看它们能不能自己发现并修复bug。


结果上,35B的MoE版本明显更让作者惊喜:生成的"浏览器桌面系统"里带了一个会互动的桌宠,能拖动、有待机动画,离开屏幕再回来还会有反应。


GTA风格小游戏虽非真3D,走路动画、车辆细节、打斗手感却比预期完整。


地铁FPS被指出无法造成伤害后,也顺利修复。


9B版本整体偏弱:浏览器系统初版卡在功能性问题上,交给Open Code修复时,作者盯着思维链发现反复出现犹豫措辞,怀疑进入了思维循环,最终没修好;手表网站的3D模型也一直没修成,倒是35B版本的手表官网首屏效果不错。


不过9B在按图建模测试里,初版失败后经Open Code重新处理,好歹找补回了颜色、摇杆等元素,说明它的视觉理解基础还在。


作者强调这只是"第一印象"式的轻量测试,而非严格基准评测:35B用的是全精度,本身比Q8量化的9B多一层硬件优势,也没有和各自的Qwen 3.5基座模型做逐项对比,谈不上"微调后一定更强"。

视频最后,作者最期待两件事:一是基于Gemma 4的31B版本公开后的表现;二是希望出一个基于Qwen 27B稠密模型的版本。在他看来,这个27B基座眼下仍是本地代码模型里最能打的选手之一。随着前沿闭源模型的门槛越来越高,这类开放权重、能在自己显卡上跑起来的模型,恐怕会有越来越多人开始认真对待。

END本文来自至顶AI实验室,一个专注于对AI计算机、工作站及各类AI相关硬件设备,开展基于真实使用场景评测的研究机构。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
态度强硬 !三星宣布:DRAM再涨价20%!

态度强硬 !三星宣布:DRAM再涨价20%!

中国半导体论坛
2026-07-04 01:22:07
宝马回应新一代 X5 为何砍掉“天地门”:用户使用起来可能会吃力

宝马回应新一代 X5 为何砍掉“天地门”:用户使用起来可能会吃力

中国能源网
2026-07-03 11:57:05
跟梅西心有灵犀的绿茵天才,却只是C罗的普通队友,还被穆帅清洗

跟梅西心有灵犀的绿茵天才,却只是C罗的普通队友,还被穆帅清洗

足篮大世界
2026-07-03 23:28:01
出大事了!美国飞行员在亚洲被枪杀,英法德俄沉默,特朗普或出兵

出大事了!美国飞行员在亚洲被枪杀,英法德俄沉默,特朗普或出兵

柏拉图的诉说1
2026-07-04 09:08:51
84年妻子离世,丈母娘让我娶了妻姐,新婚当天我才知道妻姐身份

84年妻子离世,丈母娘让我娶了妻姐,新婚当天我才知道妻姐身份

兰姐说故事
2025-01-31 13:05:03
离谱!阿森纳王牌世界杯摆烂!半场心态崩盘直接放弃比赛

离谱!阿森纳王牌世界杯摆烂!半场心态崩盘直接放弃比赛

澜归序
2026-07-03 16:45:04
苹果官方确认:iPhone关掉这3个设置,电池续航翻倍!老机型必关

苹果官方确认:iPhone关掉这3个设置,电池续航翻倍!老机型必关

小柱解说游戏
2026-07-01 11:19:07
哈梅内伊葬礼举行,穆杰塔巴却没出场,伊朗给中国代表一个保证

哈梅内伊葬礼举行,穆杰塔巴却没出场,伊朗给中国代表一个保证

老涺学科普
2026-07-04 09:17:39
土耳其外长:中国是不可阻挡的超级力量

土耳其外长:中国是不可阻挡的超级力量

俄罗斯卫星通讯社
2026-07-03 15:44:50
省上亿转会费!曼联锁定世界杯低调战神!2500 万平替卡塞米罗

省上亿转会费!曼联锁定世界杯低调战神!2500 万平替卡塞米罗

澜归序
2026-07-04 06:48:42
阿塞拜疆独立后,为何没有回归祖国呢?原因主要是三点

阿塞拜疆独立后,为何没有回归祖国呢?原因主要是三点

斜烟风起雨未
2026-07-03 05:11:16
蹦迪式穿搭,星晨在身体上闪耀!

蹦迪式穿搭,星晨在身体上闪耀!

梅梅聊点实尚嗑
2026-06-27 08:27:34
毁掉一个民族最快的方法,就是毁掉它的年轻人

毁掉一个民族最快的方法,就是毁掉它的年轻人

枫冷慕诗
2026-07-03 12:10:12
外蒙宣布独立时,只有一个部落支持留在中国,如今情况怎么样了?

外蒙宣布独立时,只有一个部落支持留在中国,如今情况怎么样了?

抽象派大师
2026-06-29 16:55:46
老板娘问我她屁股翘不翘?我该怎么回答?

老板娘问我她屁股翘不翘?我该怎么回答?

太急张三疯
2026-07-04 11:10:47
这才是军阀马步芳的真实样貌!满脸骄横,眼神凶狠,72岁命丧沙特

这才是军阀马步芳的真实样貌!满脸骄横,眼神凶狠,72岁命丧沙特

心言诉陌尘
2026-06-18 19:26:55
7名高级军士,21名军官,集体晋升军衔,这到底意味着什么?

7名高级军士,21名军官,集体晋升军衔,这到底意味着什么?

李昕言温度空间
2026-05-25 20:26:52
7月4日,2026年退休人员养老金调整通知公布了吗?哪些人群能涨3%

7月4日,2026年退休人员养老金调整通知公布了吗?哪些人群能涨3%

社保小达人
2026-07-04 10:35:43
大连周水子机场海关在进境旅检渠道查获“三无”药片1139包,共计9920粒

大连周水子机场海关在进境旅检渠道查获“三无”药片1139包,共计9920粒

极目新闻
2026-07-04 10:41:29
巨亏交易变合理交易!布朗交易舆论大反转,换来乔治竟是最佳报价

巨亏交易变合理交易!布朗交易舆论大反转,换来乔治竟是最佳报价

你的篮球频道
2026-07-04 08:30:21
2026-07-04 11:48:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
3487文章数 171关注度
往期回顾 全部

科技要闻

iPhone 18 Pro泄密影响恶劣,印度调查塔塔

头条要闻

上海男子竞选楼组长被当众宣读犯罪记录 气得当场报警

头条要闻

上海男子竞选楼组长被当众宣读犯罪记录 气得当场报警

体育要闻

今夏最动人告别!世界从此记住佛得角

娱乐要闻

最富女歌手霉霉完婚 在纽约设宴庆贺

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

数码
家居
亲子
旅游
教育

数码要闻

史上第一次!苹果Apple Watch S12表带将内置传感器

家居要闻

传奇筑 日常诗

亲子要闻

穆祉丞永远是我们心中的完美小孩

旅游要闻

丰都这座1400年的悬崖古寺,建在300米高的石笋顶上仅有50平米

教育要闻

必看!Excel版2025山东本科录取线+投档表 高考志愿填报

无障碍浏览 进入关怀版