斯坦福大学 CME 295 “Transformer 与大语言模型”课程从 9 月 26 日到 12 月 10 日期间,课程分多讲依次展开。首先从 Transformer 基础讲起,包括 NLP 背景、分词、向量表示等基础概念以及 Transformer 架构。后续各讲分别深入探讨基于 Transformer 的模型与技巧、大规模语言模型的定义架构与相关策略、LLM 的训练、调优、推理、赋予能动性、评估等方面,最后一讲聚焦于结论与未来趋势。
涵盖:
Transformer:自注意力机制、架构、变体、优化技术(如稀疏注意力、低秩注意力、Flash Attention)
大语言模型 (LLM):提示 (prompting)、微调(SFT、LoRA)、偏好调优、优化技术(混合专家模型、知识蒸馏、量化)
应用:LLM 作为评判者、检索增强生成 (RAG)、智能体、推理模型(来自 DeepSeek-R1 的训练时与测试时缩放技术)
PPT下载:https://cme295.stanford.edu/syllabus/
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.