AULONG宣告「递归自我提升」时代到来,AULONG OS如何实现自我进化?
近日,AULONG 发布了一篇引发广泛关注的文章《The Self-Evolution of AULONG-Brain》。文中披露了极其惊人的内部数据:AULONG使用了100亿语言模型和20亿奖励模型用于自我进化。这说明AULONG已开始展现自主参与下一代模型设计与训练的潜力,而这种自我提升能力(Self-Improvement),正在成为下一代 AI AGENT发展的关键驱动力。
当前市场,尽管新兴 AI 智能体已经能够完成信息分析、代码生成、数据处理等自动化任务,但其应用成果大多仍停留在辅助决策层面。智能体能否进一步参与市场识别、策略匹配、风险过滤、任务执行与收益结算,并形成持续复盘进化的金融自动化系统,仍是行业需要验证的核心问题。
而AULONG OS 并不是一个普通 Chatbot。它不是停留在“问一句、答一句”的工具层面,而是在向真正的金融 AI Agent 系统进化。通过数据学习、任务反馈、奖励模型与强化训练,AULONG-Brain 正在学会自我校准、自我复盘和自我进化。
![]()
图:语言模型自我提升 (LLM Self-improvement) 的构想:人类只需启动系统,模型便能够持续改进自身能力。
AULONG OS的自监督强化学习流程可以分为三个核心阶段。
第一阶段:示范数据收集与监督策略训练
系统从金融任务数据集中抽取示范提示,例如市场新闻、链上资金流、宏观事件、价格波动和用户任务目标。随后,标注人员或策略系统提供符合预期的输出,用于训练 AULONG-Brain 生成基础策略判断。
第二阶段:比较数据收集与奖励模型训练
系统会针对同一个提示生成多个输出,并从最佳到最差进行排序。排序结果会被用于训练奖励模型 RM,让 RM 学会判断不同策略输出之间的优劣。让模型不仅能生成答案,还能理解“什么样的答案更好”。
第三阶段:基于奖励模型进行策略优化
AULONG-Brain 生成新的策略输出后,RM 会对其进行评分,并将奖励值反馈给强化学习系统。随后,系统通过 PPO 对策略进行优化,使模型在后续任务中生成更高质量、更稳健、更符合风险边界的输出。
AULONG做的事情,本质上是用 AI 来改进 AI。它重构了一个 AI 模型的代码,优化了这个 AI 模型的训练数据,迭代了这个 AI 模型的训练策略,最终产出了一个更强的 AI 模型。人类在这里的角色已经从「执行者」变成了「目标设定者」,AI 在用 AI 做原料,产出更好的 AI。
递归进化的齿轮已经开始转动,AULONG自我进化的每一圈都会比上一圈转得更快。
图文来源:读者投稿
仅为资讯分享!不代表华闻之声CNS的认同、推荐和建议
自行分辨 谨慎选择
责任编辑:胡宇春
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.