金融界2月21日消息,有投资者在互动平台向久其软件提问:您好,近日DeepSeek创始人亲自率队,提出了革命性注意力机制NSA,具体来说,它是一种面向硬件且支持原生训练的稀疏注意力机制(Sparse Attention),专为超快长上下文训练与推理设计。贵司于今年2月10日在互动平台表示在大模型蒸馏方面,公司技术团队主要掌握采用软标签、注意力等蒸馏技术。请问贵司掌握的注意力蒸馏技术和DeepSeek提出的稀疏注意力机制有何异同之处?谢谢。
公司回答表示:关于DeepSeek提出的稀疏注意力机制,公司尚在研究中。
本文源自:金融界
作者:公告君
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.