【1月1日DeepSeek发布新论文提出mHC架构,有望助力基座模型演进】1月1日,DeepSeek发布新论文,提出流形约束超连接新架构。该架构旨在解决超连接网络(HC)技术因破坏恒等映射特性,导致训练不稳定和可扩展性受限等问题。mHC架构将HC残差连接空间映射至特定流形恢复恒等映射特性,结合基础设施优化确保效率。实现了显著性能改进和优越可扩展性。DeepSeek预计,mHC作为HC的灵活实用拓展,将助力深入理解拓扑架构设计,为基座模型演进指明前景方向。论文由Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao共同担任第一作者,梁文锋也在作者名单中。
本文由 AI 算法生成,仅作参考,不涉投资建议,使用风险自担
本文来自和讯财经,更多精彩资讯请下载“和讯财经”APP
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.