该报告由浙江大学朱强主讲,深入探讨了语言模型从基础理论到前沿应用的发展历程,重点剖析了Transformer、ChatGPT、DeepSeek等关键技术,展望了新一代智能体的发展方向。
1. 语言模型基础:语言模型旨在计算词序列成句的概率,其基本任务是编码,使计算机理解人类语言。从One - hot Encoding到Word Embedding,提升了表示效率和语义理解。技术演化历经基于统计的N - gram、神经网络的LSTM/GRU,到Transformer时代,Transformer的自注意力机制、多头注意力等创新,解决了传统模型的诸多局限,成为大模型的技术基座。
2. 大型语言模型发展脉络:预训练时代,BERT、GPT等模型借助自监督算法解决数据标注问题,推动语言模型发展。GPT - 3具有1750亿参数,展现出涌现能力,是语言模型的转折点。ChatGPT基于GPT - 3.5,通过基于人类反馈的强化学习(RLHF)进行指令微调,实现了从技术到产品的跨越,具备翔实回应、拒绝不当问题等能力,开启了人工智能的新时代。多模态模型进一步拓展了语言模型的能力边界,如GPT - 4v、GPT - 4o实现了跨模态交互和全模态前沿应用 。
3. DeepSeek技术解析:DeepSeek并非基于颠覆性基础理论创新,而是在算法、模型和系统层面进行协同工程创新。其V3基座模型采用混合专家模型,通过多头潜在注意力机制、FP8混合精度、DualPipe算法等优化,提升训练效率并降低显存占用。R1系列模型通过有监督微调、强化学习等步骤,赋予模型推理能力,并通过知识蒸馏压缩模型参数,提升低参数量模型性能,在受限资源下为通用人工智能探索开辟新路径,对大模型应用层、中间层和基础模型层产生全栈影响。
4. 新一代智能体展望:从LLM到Agent的发展,标志着智能体技术的重大进步。新一代智能体由Agent和LLM组成,LLM作为大脑,具备逻辑推理能力,能够进行任务规划、工具选择与调用,以及记忆管理。在时空智能领域,以“时空型GPT”为决策大脑的多智能体协同系统,可实现流程自组织、任务自执行和内容自生成,推动时空智能的自主化服务发展。
关注互联互通社区公众号,回复以下编号,可快速下载相关专题报告合辑。
DEEP001:Deepseek,国产AI应用的“诺曼底时刻”
DEEP002:DeepSeek,技术颠覆or创新共赢
DEEP003:DeepSeeK开启AI算法变革元年
DEEP004:Deepseek发布R1模型,OpenAI推出智能体“Operator”
DEEP005:DeepSeek:从入门到精通
DEEP006:DeepSeek 15天指导手册——从入门到精通
DEEP007:DeepSeek R1深度解析及算力影响几何
DEEP008:DeepSeek激活创新竞争,AI应用迎来“安卓时刻”
DEEP009:DeepSeek 爆火过程详细报告
DEEP010:深度解读DeepSeek:原理与效应
DEEP011:DeepSeek如何赋能职场应用
DEEP012:DeepSeek-R1颠覆性在于实现AI平权,重估资产价值
DEEP013:2025普通人如何抓住DeepSeek红利
DEEP014:DeepSeek研究框架
DEEP015:DeepSeek:从入门到精通(7大场景+50案例+全套提示词)
DEEP016:DeepSeek入门宝典,共4册
DEEP017:DeepSeek十问十答
DEEP018:DeepSeek行业应用实践报告
DEEP019:DeepSeek使用教程蓝皮书:从入门到进阶完整指南
DEEP020:DeepSeek+DeepResearch应用报告
DEEP021:适合投资人的DeepSeek分析报告
DEEP022:DeepSeek火爆全球-AI生态加速繁荣
DEEP023:DeepSeek与AI幻觉研究报告
DEEP024:DeepSeek模型本地部署与应用构建
DEEP025:DeepSeek系列报告之AI+医疗
DEEP026:DeepSeek:全球AI影响(应用)
DEEP027:2025年DeepSeek行业级应用白皮书
DEEP028:DeepSeek行业应用案例集
DEEP029:详解DeepSeek:模型训练、优化及数据处理的技术精髓
DEEP030:2025年DeepSeek背景、模型技术及其对AI行业的影响分析报告
DEEP031:DeepSeek与AIGC应用
DEEP032:DeepSeek提示词工程和落地场景
DEEP033:DeepSeek大模型赋能高校教学和科研
DEEP034:DeepSeek完全实用手册-从技术原理到使用技巧
DEEP035:Deepseek背景综述及在金融领域应用场景初探
DEEP036:DeepSeek自学手册:从理论到实践
DEEP037:山东大学:DeepSeek应用与部署
DEEP038:DeepSeek零基础入门手册
DEEP039:DeepSeek 搞钱指令库
DEEP040:DeepSeek大模型及其企业应用实践
DEEP041:湖南大学:我们该如何看待DeepSeek
DEEP042:DeepSeek在金融银行的应用方案
DEEP043:DeepSeek大模型生态报告
DEEP044:2025DeepSeek技术全景解析
DEEP045:DeepSeek给我们带来的创业机会
DEEP046:使用DeepSeek赋能家庭教育
DEEP047:DeepSeek原理与落地应用
DEEP048:DeepSeek私有化部署和一体机
DEEP049:DeepSeek大模型赋能政府数字化转型
DEEP050:DeepSeek企业落地应用讲义精华全版
DEEP051:从DeepSeek到Manus:AI如何重塑企业价值
DEEP052:deepseek对算力产业的影响
DEEP053:DeepSeek模型解读报告
DEEP054:DeepSeek十大关键问题解读
DEEP055:腾讯云 X DeepSeek产品技术方案
DEEP056:DeepSeek:AI赛道的超级引擎
DEEP057:解码DeepSeek构建医药行业新质生产力
DEEP058:DeepSeek、QwQ-32B与Manus技术解析、投研场景与量化应用
DEEP059:Deepseek之火,可以燎原
DEEP060:DeepSeek政务场景应用与解决方案
DEEP061:Deepseek应用场景中需要关注的十个安全问题和防范措施
DEEP062:2025年DeepSeek军用场景智能化应用白皮书
DEEP063:DeepSeek的本地化部署与AI通识教育之未来
DEEP064:DeepSeek 提示词设计、幻觉避免与应用
DEEP065:DeepSeek洞察与大模型应用-人工智能技术发展与应用实践
DEEP066:大模型发展图谱与DeepSeek创新应用
DEEP067:DeepSeek技术溯源及前沿探索
以下是报告部分内容
声明
来源:浙江大学,互联互通社区推荐阅读,版权归作者所有。文章内容仅代表作者独立观点,不代表互联互通社区立场,转载目的在于传递更多信息。如涉及作品版权问题,请联系我们删除或做相关处理!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.