八年前,OpenAI四个人写了篇论文,标题平淡无奇:《通过生成式预训练提升语言理解》。没人想到,这个叫GPT-1的东西后来会掀起一场风暴。
当时AI界的主流玩法是"一个任务,一个模型"。想让它做情感分析?专门训练一个。想让它做问答?再训练一个。每个任务都要大量标注数据,而标注数据又贵又难搞。很多小众任务根本凑不够数据,模型也就训不起来。
![]()
作者们换了个思路:先让模型在海量无标注文本里"啃"一遍,学会语言本身的规律——词怎么搭配、句怎么组织、上下文怎么关联。这一步叫预训练。然后再拿少量标注数据,针对具体任务微调一下。同一个底子,换个"头"就能干不同活。
关键突破在这儿:以前模型学的是"这道题怎么解",GPT-1学的是"这门语言怎么回事"。前者是应试,后者是扫盲。扫完盲再应试,需要的例题自然少了。
论文里用了一个Transformer的解码器结构,12层,768维隐状态,12个注意力头。训练数据是BooksCorpus,大约8000本未出版的书。这个规模今天看很朴素,但当时已经算大手笔。
效果呢?在9项NLP任务里,GPT-1刷新了其中4项的纪录,另外5项也接近当时最优。更关键的是,它证明了"预训练+微调"这条路走得通。后来的GPT-2、GPT-3,乃至今天满大街的大模型,都是这个框架的放大版。
回头看,这篇论文的价值不在技术细节多精巧,而在问题问得准:与其为每个任务造轮子,不如先造个能滚的轴。这个思路从NLP扩散到视觉、多模态,成了深度学习这几年的默认起手式。
论文四位作者里,Alec Radford和Ilya Sutskever后来成了OpenAI的核心人物。2018年他们投稿时,大概也没料到这篇会被引用上万次,更没料到"生成式预训练"会变成日常用语。
技术史常有这种时刻:一个看似保守的改进,撬动了后来的巨变。GPT-1就是这样。它没有炫目的指标,但重新定义了"训练一个AI"意味着什么——不是教它做题,而是让它先学会阅读。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.