网易首页 > 网易号 > 正文 申请入驻

见地 | 大语言模型催生词典编纂新范式

0
分享至


大语言模型驱动的词典编纂实践革新与理论重构,共同勾勒出面向未来的词典学新范式雏形。

原文 :《大语言模型催生词典编纂新范式》

作者 |黑龙江大学俄语学院副教授 何洋洋

图片 |网络

近年来,大语言模型的快速发展对词典学产生了深刻影响。长期以来,如何在保证学术规范与编纂质量的前提下提高词典编纂效率,是学术界普遍关注的问题。经过大规模语料预训练的大语言模型,凭借其出色的语言生成能力,使词典“内容生成自动化”成为可能。我们须把握宏观趋势,从范式演进的高度认识大语言模型对词典编纂实践与理论的重构,致力于构建具有中国立场和学术自觉的新型词典学自主知识体系。




基于内容生成自动化的词典编纂新范式

词典编纂向来周期长、投入大。此前的自动化与数字化尝试,着力于提升编纂流程效率,如借助语料库检索辅助收词、通过数据库实现词条统一管理、利用数字排版技术改进编辑与出版环节等。这使词典编纂流程实现了一定程度的自动化,但词条释义、义项划分和例证撰写等核心环节仍主要依赖有经验的编者完成。大语言模型强大的生成能力为词典编纂从“流程自动化”转向“内容生成自动化”提供了可能,词典编纂新范式呼之欲出。

大语言模型主要是基于Transformer 架构的预训练机制来实现词典词条的自动生成。其在大规模语料学习过程中内化了丰富的语言结构信息,具备了生成连贯文本的能力。在义项划分方面,同一词形在不同语境中,经由大模型编码后呈现出不同的向量表征。通过对这些向量表征的聚类分析,筛选出语义明确的用法类型,即可对应词的不同义项。在释义与例句生成方面,大模型能在给定语境的情况下,生成符合要求的释义与例句。此外,大语言模型的分布式表征能为构建词汇语义网络提供机器可循的线索:词与词在向量空间中的相似度,可用来识别同义、反义或转换(如教与学、买和卖等)关系;结合它们在不同语境中的共现与替换分布特征,可识别上下位关系。通过对海量语料的概率建模与分布式表征学习,大语言模型使词典内容自动生成在多个关键环节上具备可行性。从这个意义上讲,它正深刻变革词典编纂实践,重构词典编纂理论。




智能协同的词典编纂实践

大语言模型驱动的词典编纂实践在以下三方面显著区别于传统模式。

编纂载体的变化。词典编纂的载体,传统上是卡片,互联网时代是语料库,而在人工智能时代则有望被大语言模型和智能体取代。前两者更新周期长、维护成本高,编纂流程仍主要依赖人工完成。这种静态载体导致传统词典编纂存在周期长、更新慢的局限。大语言模型驱动的词典编纂实践,其载体不再是孤立的数据库,而是一个以通用语言模型为中枢、多智能体协同运作的集成化平台。通用模型提供对自然语言的理解与生成能力,不同智能体则分别承担语义分析、释义与例句生成等下游任务,为编纂工作的自动化与智能化奠定了技术基础。

编纂流程的变化。大语言模型解构了传统词典编纂流程。在传统流程中,编者必须先通过语料观察和语义分析确定意义,再转写为规范释文并佐以例证。大语言模型则依托其在大规模文本上习得的语言模式与共现规律,在给定词目、语体/体例约束与上下文提示的条件下,直接进行概率式生成,产出多版本、可比较的候选表述。编者据此检验其语义覆盖度、语料支撑与体例合规性。大语言模型并非先理解意义再寻找表达,而是先给出表达,再借由评估逼近合适的意义。传统流程的核心在于“从语料中正确概括出意义”,新流程的核心则是“从或然性表述中,筛选并校准出最可靠的版本”。编纂的关键环节由“撰写”转为“验收”,一套基于内容自动生成的新型人机协同流程得以确立。

编者角色的变化。在传统模式中,词典编者既是词条内容的生产者,又是词典质量的把关人。编者须亲自完成每条释义与例句的撰写,全程参与资料搜集、内容编写与定稿审核,其学术水平决定了词典的权威性。大语言模型时代,编者更倾向于作为生成过程的引导者与质量审校者:一方面,通过设计提示框架与约束条件,引导模型稳定产出符合受众定位、语言规范与词典体例的词条;另一方面,严格评估、核验与润色生成内容,把关事实是否准确、逻辑是否自洽和语言是否地道。编者须与模型对话,对不当内容及时纠偏并形成修订规则。更关键的是,专家反馈将审校意见不断固化,进一步提升模型生成内容的稳定性与可用性。编者工作重心从直接生产文本,转向对生成机制、质量标准与最终结果的统筹和裁决。




生成导向的词典编纂理论

与词典编纂实践相适应,大语言模型时代的词典编纂理论在认识论、对象形态功能和规范观方面都发生了深刻变革。

编纂认识论的变化。传统词典学的认识论根植于结构主义语言观,将词义视为稳定、可定义的概念实体,预设词具有相对明确的语义边界及可被识别和枚举的义项集合。编者通过义项划分、释义撰写与例证选取,将复杂的语言使用现象抽象和固化,使词典成为对语言意义进行分类、归纳与固定化呈现的知识系统。大语言模型则基于大规模语料的统计学习,在不同上下文分布中自动捕捉词义差异,由此构建了一种“生成主义”的词典编纂认识论。新的认识论强调语义的概率性与情境依存性,承认词义是在生成与使用中不断被更新和校准的。相应地,词典编纂不再以穷尽列举并划定词义边界为核心,而是借助模型捕捉语言意义的流动性,在具体语境中生成更贴合使用的解释与呈现。这标志着词典编纂从结构主义的“分类逻辑”迈向了生成主义的“生成逻辑”。

编纂对象形态功能的变化。大语言模型改变了词典编纂对象(即词典本身)的形态、组织方式与应用场景。传统上,无论是纸质词典还是电子词典,其知识均被预定义为离散的词条,通过固定的宏观结构与模块化的微观结构(如分栏呈现释义、例句)进行编排,本质上是结构化的知识载体,功能局限于被动的单向查询。未来,词典形态有望从有形的“书”演变为可嵌入各类语言使用场景的应用程序编程接口(API)或对话界面,其功能将升级为根据具体问题输出连贯、满足当下语言知识需求的解释。词典不再只是等待查询的数据库,而是能深度嵌入阅读、写作、翻译等场景的交互式语言知识服务产品。其价值重心也从提供标准化释义,转向在具体场景中降低用户获取与应用语言知识的成本。词典编纂也须顺应形态功能的演变作出调整。

编纂规范观的变化。在传统编纂模式下,编纂者作为把关人,依据相对稳定、共时的语言体系,预先判断哪些词汇与用法可被收录以及应当如何表述。规范主要表现为释义措辞的取舍、用法标签与例证选择,包括对语体与风格的优劣判断。这种排他式的规范观更多依赖编者在撰写词条前作出裁定。大语言模型介入的词典编纂,主要体现为对编纂过程的约束,即规定编纂系统如何按照提示及相应规则生成词条内容、明确可用语料,统一释义风格、术语体系与义项,设置事实核验、一致性检查以及幻觉的处置规则,并将审校意见作为约束条件以持续修正偏差。由此,词典规范的标准从编者的个人审度,转向人机协作对生成结果的持续校准,实现了从前期权威裁定到全流程约束的根本转变。


大语言模型驱动的词典编纂实践革新与理论重构,共同勾勒出面向未来的词典学新范式雏形。在这一范式下,词典的核心角色已不再局限于作为权威参照的静态工具书,而是演变为能够持续追踪语言动态、融合多源信息、服务于真实语言生活的知识服务产品。大语言模型为词典学带来的远不止于技术层面的升级,更在于推动其重新审视自身的研究对象、方法论体系与价值目标。展望未来,如何在智能化背景下,构建兼具学术自觉、理论主体性与自主知识体系的词典学理论,仍有赖于学界持续而深入的探索。

文章为社会科学报“思想工坊”融媒体原创出品,原载于社会科学报第2002期第5版,未经允许禁止转载,文中内容仅代表作者观点,不代表本报立场。

本期责编:程鑫云


《社会科学报》2026年征订

点击下方图片网上订报↓↓↓




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
神舟二十三号准备发射!3名航天员已经就位,并开展了演练工作

神舟二十三号准备发射!3名航天员已经就位,并开展了演练工作

墨印斋
2026-05-22 10:58:16
为什么年年520结婚登记都爆满,可每年结婚的人数却越来越少?

为什么年年520结婚登记都爆满,可每年结婚的人数却越来越少?

清衣渡a
2026-05-22 21:37:34
后卫要没人了!仅4小时后,马刺队传来坏消息,文班压力剧增

后卫要没人了!仅4小时后,马刺队传来坏消息,文班压力剧增

林子说事
2026-05-22 14:18:45
第十六届“春兰杯”开幕,柯洁时隔16个月重返国际赛场

第十六届“春兰杯”开幕,柯洁时隔16个月重返国际赛场

新京报
2026-05-22 20:58:40
单台27亿!全球最强光刻机试产成功,半导体格局彻底改写

单台27亿!全球最强光刻机试产成功,半导体格局彻底改写

粤语音乐喷泉
2026-05-22 00:00:22
街机《名将》让人意难平的漫画情节,BOSS原来是好人

街机《名将》让人意难平的漫画情节,BOSS原来是好人

街机时代
2026-05-21 21:28:21
2026年5月1日起从严整治,体制内人员务必严守九条红线

2026年5月1日起从严整治,体制内人员务必严守九条红线

职场资深秘书
2026-05-22 21:01:25
合同成“废纸”,看云南建投春城荣府项目如何拖垮民企!

合同成“废纸”,看云南建投春城荣府项目如何拖垮民企!

易观彩云之南
2026-05-22 17:40:03
印度一地现抢油大战!印度500人围着油罐车互殴抢油,莫迪:少吃油用油就是爱国,尽量不买黄金不出国

印度一地现抢油大战!印度500人围着油罐车互殴抢油,莫迪:少吃油用油就是爱国,尽量不买黄金不出国

每日经济新闻
2026-05-22 16:46:55
1967年,孔祥熙临终前,看着三岁的孙子,对宋霭龄说:孔家绝后了

1967年,孔祥熙临终前,看着三岁的孙子,对宋霭龄说:孔家绝后了

小莜读史
2026-05-22 18:01:36
主角:直到婚后被刘红兵家暴,忆秦娥才知,封潇潇为何接受楚嘉禾

主角:直到婚后被刘红兵家暴,忆秦娥才知,封潇潇为何接受楚嘉禾

娱乐倾城巷
2026-05-21 19:13:31
iPhone 19 Pro Max最新曝光,苹果明年变化很大

iPhone 19 Pro Max最新曝光,苹果明年变化很大

搞机小帝
2026-05-22 00:08:04
夫妻只要一人有2000退休金,晚年就是顶级幸福!看懂的都是明白人

夫妻只要一人有2000退休金,晚年就是顶级幸福!看懂的都是明白人

匹夫来搞笑
2026-05-22 16:57:56
你至少必须拥有一个不良嗜好,真的,能续命!

你至少必须拥有一个不良嗜好,真的,能续命!

猫大夫医学科普
2026-05-16 06:49:56
汤洪波或将第三次出征太空,神舟二十三乘组即将公布,有女航天员

汤洪波或将第三次出征太空,神舟二十三乘组即将公布,有女航天员

光电科技君
2026-05-22 19:31:45
7课题经费4303万!被耿同学第一枪瞄准:同济王平院长有多牛?

7课题经费4303万!被耿同学第一枪瞄准:同济王平院长有多牛?

大江看潮
2026-05-22 15:13:03
普京确认出席!2026深圳APEC来了,深圳人的“小长假”稳了?

普京确认出席!2026深圳APEC来了,深圳人的“小长假”稳了?

九晨资本论
2026-05-21 22:43:42
没拿过解约金!瓜迪奥拉执教18年从未下课 执教3豪门夺41冠

没拿过解约金!瓜迪奥拉执教18年从未下课 执教3豪门夺41冠

智道足球
2026-05-22 22:08:42
广东阿伯患上带状疱疹痛得没法穿衣服,自制“衣物隔离架”绑身上,医生:很机智又很心疼

广东阿伯患上带状疱疹痛得没法穿衣服,自制“衣物隔离架”绑身上,医生:很机智又很心疼

环球网资讯
2026-05-21 21:26:24
刚结束访华,美民主党就“憋坏水”,布林肯:要拉帮结派对付中国

刚结束访华,美民主党就“憋坏水”,布林肯:要拉帮结派对付中国

观澜论时势
2026-05-21 19:37:41
2026-05-22 22:59:00
社会科学报 incentive-icons
社会科学报
社会科学院主办社会科学报
4192文章数 23456关注度
往期回顾 全部

教育要闻

更名、合并、停招、代招、一校两址、引入苏杰,建邺究竟要干什么?

头条要闻

伊朗前总统内贾德被指是"最大内鬼" 其目前下落不明

头条要闻

伊朗前总统内贾德被指是"最大内鬼" 其目前下落不明

体育要闻

最糟糕裁判?他想要退役当市长

娱乐要闻

周也恋情曝光!对象身份不简单

财经要闻

富途拟被罚18.5亿元 老虎 长桥也回应了

科技要闻

雷军:输给特斯拉不丢人

汽车要闻

空间、换电、智驾全都要 极狐贝塔S3上市 5.98万起

态度原创

亲子
游戏
手机
教育
公开课

亲子要闻

忘记加油的小吊车 #汪汪队 #大型挖掘机挖土玩具

《黑旗RE》与原版同为游戏正史!不是单纯炒冷饭!

手机要闻

华为畅享90 Pro Max率先开更HarmonyOS 6.1.0.125 SP9版本

教育要闻

九科全!2026山东名校联考、济宁三模试题+答案

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版