五年前,我修完了吴恩达的机器学习专项课程,做了欺诈检测和图像分类项目,还写过一篇关于YOLOv3遥感船舶检测的论文。然后我去当了移动工程师,机器学习成了简历上落灰的一行字。上个月心血来潮想捡起来,读了一个月书后,我意识到——想要自信到敢把这项技能写回简历,可能得花一整年。
这次重启源于大语言模型的爆发。我开始啃Chip Huyen的《AI Engineering》,刷Andrej Karpathy的视频,翻各种论文和博客。然后我发现自己脑子里全是碎片:知道很多名词,却拼不出完整的图景。比如"基础模型"这四个字,我原以为理解得很透彻,直到试着画一张概念地图,才发现连"context"到底是什么都没搞对。
![]()
我过去以为context就是用户输入的提示词。实际上那只是起点。输入token会被处理,外部工具(比如MCP)可能追加信息,而模型自己之前生成的输出token也会变成下一步的context。更反直觉的是状态lessness:每次给ChatGPT发消息,它并不会"记住"这次对话。处理完、生成完,就翻篇了。没有永久学习,没有持续更新。
预训练阶段倒是另一个极端——几乎不需要人工标注。模型通过self-supervision,从海量互联网数据里自己找规律。这让我重新思考一个老问题:为什么参数越多,模型通常表现越好?参数绑定着模型学到的函数,但增加参数数量究竟如何提升学习容量和推理能力,我到现在也没建立起直观的理解。只能画些极简的玩具例子,试图重建直觉。
还有一些新东西需要补课。SSM(State Space Model)是近年出现的架构,专攻长上下文处理,据说比Transformer更高效。我标记了要深入,但还没开始。类似的待办清单越列越长:重新梳理ML核心概念在整体图景中的位置,理解各种评估指标的实际含义,搞清楚fine-tuning和RLHF的具体流程差异……
最诚实的结论是:五年前的学习停留在"选一个够用的算法"层面,现在才发现那连门槛都没摸到。基础模型、上下文工程、推理优化、agent架构——每个方向都够挖几个月。我打算继续画这些粗糙的概念地图,哪怕进度慢得可笑。至少这次,我知道自己不知道什么了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.