重学机器学习一个月后，我发现自己根本不懂|算法|推理|吴恩达|上下文|新论文

重学机器学习一个月后，我发现自己根本不懂

2026-05-25 04:11:25　来源: 摸鱼算法

北京举报

分享至

五年前，我修完了吴恩达的机器学习专项课程，做了欺诈检测和图像分类项目，还写过一篇关于YOLOv3遥感船舶检测的论文。然后我去当了移动工程师，机器学习成了简历上落灰的一行字。上个月心血来潮想捡起来，读了一个月书后，我意识到——想要自信到敢把这项技能写回简历，可能得花一整年。

这次重启源于大语言模型的爆发。我开始啃Chip Huyen的《AI Engineering》，刷Andrej Karpathy的视频，翻各种论文和博客。然后我发现自己脑子里全是碎片：知道很多名词，却拼不出完整的图景。比如"基础模型"这四个字，我原以为理解得很透彻，直到试着画一张概念地图，才发现连"context"到底是什么都没搞对。

我过去以为context就是用户输入的提示词。实际上那只是起点。输入token会被处理，外部工具（比如MCP）可能追加信息，而模型自己之前生成的输出token也会变成下一步的context。更反直觉的是状态lessness：每次给ChatGPT发消息，它并不会"记住"这次对话。处理完、生成完，就翻篇了。没有永久学习，没有持续更新。

预训练阶段倒是另一个极端——几乎不需要人工标注。模型通过self-supervision，从海量互联网数据里自己找规律。这让我重新思考一个老问题：为什么参数越多，模型通常表现越好？参数绑定着模型学到的函数，但增加参数数量究竟如何提升学习容量和推理能力，我到现在也没建立起直观的理解。只能画些极简的玩具例子，试图重建直觉。

还有一些新东西需要补课。SSM（State Space Model）是近年出现的架构，专攻长上下文处理，据说比Transformer更高效。我标记了要深入，但还没开始。类似的待办清单越列越长：重新梳理ML核心概念在整体图景中的位置，理解各种评估指标的实际含义，搞清楚fine-tuning和RLHF的具体流程差异……

最诚实的结论是：五年前的学习停留在"选一个够用的算法"层面，现在才发现那连门槛都没摸到。基础模型、上下文工程、推理优化、agent架构——每个方向都够挖几个月。我打算继续画这些粗糙的概念地图，哪怕进度慢得可笑。至少这次，我知道自己不知道什么了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.