递归齿轮开始转动 AULONG自我进化的每一圈都比上一圈转得更快|代码|aulong

递归齿轮开始转动 AULONG自我进化的每一圈都比上一圈转得更快

2026-06-25 16:58:24　来源: 华闻

湖南举报

分享至

AULONG宣告「递归自我提升」时代到来，AULONG OS如何实现自我进化？

近日，AULONG 发布了一篇引发广泛关注的文章《The Self-Evolution of AULONG-Brain》。文中披露了极其惊人的内部数据：AULONG使用了100亿语言模型和20亿奖励模型用于自我进化。这说明AULONG已开始展现自主参与下一代模型设计与训练的潜力，而这种自我提升能力（Self-Improvement），正在成为下一代 AI AGENT发展的关键驱动力。

当前市场，尽管新兴 AI 智能体已经能够完成信息分析、代码生成、数据处理等自动化任务，但其应用成果大多仍停留在辅助决策层面。智能体能否进一步参与市场识别、策略匹配、风险过滤、任务执行与收益结算，并形成持续复盘进化的金融自动化系统，仍是行业需要验证的核心问题。

而AULONG OS 并不是一个普通 Chatbot。它不是停留在“问一句、答一句”的工具层面，而是在向真正的金融 AI Agent 系统进化。通过数据学习、任务反馈、奖励模型与强化训练，AULONG-Brain 正在学会自我校准、自我复盘和自我进化。

图：语言模型自我提升 (LLM Self-improvement) 的构想：人类只需启动系统，模型便能够持续改进自身能力。

AULONG OS的自监督强化学习流程可以分为三个核心阶段。

第一阶段：示范数据收集与监督策略训练

系统从金融任务数据集中抽取示范提示，例如市场新闻、链上资金流、宏观事件、价格波动和用户任务目标。随后，标注人员或策略系统提供符合预期的输出，用于训练 AULONG-Brain 生成基础策略判断。

第二阶段：比较数据收集与奖励模型训练

系统会针对同一个提示生成多个输出，并从最佳到最差进行排序。排序结果会被用于训练奖励模型 RM，让 RM 学会判断不同策略输出之间的优劣。让模型不仅能生成答案，还能理解“什么样的答案更好”。

第三阶段：基于奖励模型进行策略优化

AULONG-Brain 生成新的策略输出后，RM 会对其进行评分，并将奖励值反馈给强化学习系统。随后，系统通过 PPO 对策略进行优化，使模型在后续任务中生成更高质量、更稳健、更符合风险边界的输出。

AULONG做的事情，本质上是用 AI 来改进 AI。它重构了一个 AI 模型的代码，优化了这个 AI 模型的训练数据，迭代了这个 AI 模型的训练策略，最终产出了一个更强的 AI 模型。人类在这里的角色已经从「执行者」变成了「目标设定者」，AI 在用 AI 做原料，产出更好的 AI。

递归进化的齿轮已经开始转动，AULONG自我进化的每一圈都会比上一圈转得更快。

图文来源：读者投稿

仅为资讯分享！不代表华闻之声CNS的认同、推荐和建议

自行分辨谨慎选择

责任编辑：胡宇春

声明：取材网络，谨慎辨别

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.