大模型之战的下半场：行业应用怎么做？|算法|模态

分享至

作者 | 《新程序员》编辑部

出品 | CSDN（ID：CSDNnews）

数智化时代，大模型应用的落地实践成为了科技领域的一大挑战与焦点。

在 2024 年 4 月 25-26 日由 CSDN 联合高端 IT 咨询与教育平台 Boolan 举办的 ML-Summit 2024 全球机器学习技术大会上，我们特设了“大模型行业应用”论坛，汇集金融、办公、工业控制、电商等行业内的技术专家代表，分享他们在大模型应用实践方面的经验与见解。

通过案例分析、技术探讨和最佳实践分享，我们将深入探讨大模型在各个领域的应用场景、挑战与解决方案，为推动大模型技术在实践中的广泛应用提供有益的启示和指导。

林金曙：金融行业大模型及应用实践分享

首先，恒生电子 AI 首席技术专家林金曙带来了金融行业大模型 LightGPT 及其应用实践分享。

金融科技不断演进，从简单的信息化走向更复杂的网格化发展，如今正处于科技取代脑力劳动的数字化时代。在主题演讲中，林金曙用“差、严、高”三个关键词描述了金融大模型应用现状所面临的挑战。其中，“差”指的是金融领域投研、投顾、合规、运营等深度场景模型效果不佳，“严”表示合规监管要求严格，对模型生成内容和数据安全性有严格要求，“高”则意味着推理硬件成本较高。

针对这些问题，林金曙分享了构建金融大模型成功的四大要素，分别是依托高质量的数据、专业的大模型能力、优秀的基础大模型以及充足的算力。同时，他还提出了一系列技术手段，如增强基座中文特性、金融领域预训练、指令微调以及强化学习等方法，以提升大模型训练的效率和稳定性。

在金融 RAG 方面，林金曙介绍了其团队研发的一种新的架构，即基于超长输入大模型直接问答的 RAG 架构，通过引入更长输入的模型，多路召回保证不漏，同时还具有易维护和较低资源占用的优势。

杨青：轩辕大模型实践和应用

紧接着，度小满金融技术委员会执行主席、数据智能应用部总经理杨青在《轩辕大模型实践和应用》主题分享中指出，金融行业的发展可以分为三个阶段，第一阶段是以 IT 系统为核心、人为主导的传统金融时期；第二阶段是以线上化和平台化为特征的互联网金融时期；第三阶段是大模型驱动的认知智能范式，迎来了智能金融时代。

杨青，度小满金融技术委员会执行主席、数据智能应用部总经理

与其他领域有所不同的是，金融行业具有专业知识密集、数据驱动、业务流程复杂、人工参与程度较高等独特的特点，为此，杨青表示，度小满在金融智能化方面进行了多方面的尝试，如果将金融大模型进阶之路比作学生学习生涯，那么其最初只是一名接受通识教育的中学生，随后才成长为行业赋能且接受专业教育的大学生，进而再到职场人身份，根据场景反馈再去不断改进。

在杨青看来，高质量的数据是影响大模型领先能力和效率的关键。为了确保数据质量，其团队采用了文本质量判别模型、知识性判别模型、内容结构判别模型等严格的数据质量控制措施。

在数据安全方面，杨青分享了内部的具体实践措施，如采用主动学习的标注流程提升数据生产效率，并通过业内领先的内容安全系统过滤敏感恶意内容，还利用大模型自动对抗提升内容安全系统的防控能力。

落地到大模型的研发维度，杨青表示，构建中文大模型首先要考虑词表构建问题，否则单字可能需要多个 Unicode 字符来构造。此外，考虑到大词表有利于长文本建模和推理效率，其团队采用词粒度扩充方式加入了 7k 的中文字符与 25k 的中文词，新词表大小为 64k。此外，在金融模型设计时，还考虑了大模型通用与金融能力的兼顾，避免灾难性遗忘。

尽管大模型将为金融行业创造价值增量，但落地面临着金融知识、可用性和可靠性、人工介入成本高等挑战。为此，杨青分享了一些解决方案，包括使用检索增强（RAG）使得大模型输出结果更可靠，以及使用 Agent 拓展金融大模型能力边界，通过模型量化，降低模型存储和计算资源消耗。

宋劼：大语言模型在文档处理与金融实践中的应用与融合

“近 10 年 NLP 技术的变迁主要呈现两大发展趋势：一方面是从有监督学习向无监督学习的转变，另一方面是从基于预训练模型每一个下游任务都需要单独标注，单独训练的方式，转向了超大语料预训练和指令工程加基于人工反馈的指令强化学习，通过提示给大语言模型一些指令或者样例，其就可以‘理解’用户意图，进行任务的执行”，文因互联工程 VP 兼首席科学家宋劼在《大语言模型在文档处理与金融实践中的应用与融合》分享到。

宋劼表示，LLM 的落地带来了 AI 场景构造的新方式，其不仅可以统一技术底座，实现零样本启动，也能快速响应长尾需求，还可以基于提示工程快速建模，提升迭代效率，以及由大模型作为中枢，进行丰富的能力中心调用。

在文档处理场景中，大语言模型可以有效帮助文档理解、内容生成、业务分析。宋劼表示，大模型在企业落地的最后一公里中仍然面临着很多的挑战，这是因为企业内部对于模型的诉求通常是针对专业性任务，其都有精度要求高，可靠性要求高的特点，常见的任务包括信息抽取，文档核查和信息问答等等的。而在在复杂且精细的任务下，大语言模型依然是存在它自有的局限性，主要有三层因素，一是通用基座模型对于领域的理解有局限，对专业性任务存在准确度不高和输出不稳定的情况；二是输出不可控，包括输出的格式不可控、错误的原因不可控，输出结果有可能是完全错误，也可能是部分错误，有可能是语义错误，也可能是逻辑错误，也有可能是幻觉而造成的编造信息，这反而大大增大了企业业务人员对于输出结果对错的判定分析和归因的难度。三是缺乏可解释性和可靠性，企业内部的NLP任务，往往与后续流程紧密相关，决策的结果可能对业务运营产生深远的影响，所以对模型输出的可解释性有很强的诉求。在缺乏可信度和可解释性的情况下，客户对于这个数据是不敢使用的。

基于文因互联大模型构建经验，宋劼围绕检索增强生成 RAG、基于大语言模型的 NL2SQL 等核心技术分享了大模型在金融领域应用实践。

熊龙飞：办公领域大模型的技术路线和应用形态

随后，金山办公文档 AI 技术总监熊龙飞带来了《办公领域大模型的技术路线和应用形态》的主题分享。

熊龙飞表示，发布于 1989 年的 WPS Office，经历了 PC 时代、互联网时代、移动互联网时代、前 AI 时代，以及当前的 AI 大模型时代，其在内部的迭代速度不断加快，自 ChatGPT 发布以来，金山办公便开始研究和关注如何将大模型与办公软件相结合。

经过一年多时间的探索，熊龙飞表示，在办公场景中，大模型其实具有多种实用能力和实践方式，譬如 23 年金山办公发布具备大语言模型能力的人工智能应用 WPS AI，可以帮助其自动生成内容、排版美化、进行内容识别、理解文意、做数据分析与问答等等；另外近期金山办公发布了全新的 WPS365，包含升级的WPS Office、最新发布的 WPS AI 企业版和 WPS 协作，打通了文档、AI、协作三大能力，也可以根据企业知识做智能文档库、企业智慧助理，甚至可以成为能文能武的数字员工。

论及这些技术是如何实现的，熊龙飞透露，其实内部实现这些功能的速度很快，因为 WPS 内已经有非常丰富的底层文档解析能力和旧 AI 时代的算法和模型组件，在去年结合大模型做应用的初期只需要将相应的能力串联起来即可实现一些令人印象深刻的大模型应用效果。

以 WPS AI 移动端的“随手拍”功能为例，这一功能可以对实体文档、包含图文的物体，可进行连续拍照识别，快速理解识别的内容文意，生成洞察信息，也支持内容问答。在外界不少人看来，随手拍看上去像多模态能力，但熊龙飞揭秘道，其实它是技术叠加的结果，不是真正的多模态大模型。而金山办公对于多模态的探索已经进行了两年多，他深信未来多模态 AI 技术在办公和文档领域会迸发出亮眼的火花，在那之前需要进行有耐心的研发投入。

熊龙飞表示，“在大语言模型的浪潮下，虽然快速发展非常重要，但是我们也应该放慢脚步，思考技术是否具有连贯性。我们相信技术的积累和连续性是至关重要的，因为这种积累在某个时刻、某个机会下，可能会与新技术形成乘法效应，从而取得巨大的成就。”

宋磊：“上下文相关的决策优化：基础模型在工业控制中的应用探索”

微软亚洲研究院首席研究员宋磊在《上下文相关的决策优化：基座模型在工业控制中的应用探索》主题分享中指出，工业控制方法经历了 PID（比例-积分-微分）、MPC 和 RL 等方向的演进。尽管 PID、MPC 和 RL 在工业控制中得到广泛应用，但各自存在利弊。以 PID 为例，它通过调整比例、积分、微分参数来改善控制性能，结构简单易懂。然而，对于非线性、多变量或有明显时延的系统而言，PID 控制可能不够适用，且需要经验丰富的工程师手动调节。对于复杂的控制任务，PID 可能难以达到最佳性能。而 MPC 依赖于外部的预测模型来处理外部信息，但依赖于显示建模且计算成本较高；RL 虽具备一定的适应性，但对于扰动较为敏感，缺乏泛化能力。

在这一趋势下，宋磊及其团队将焦点转向基座模型的探索。基座模型具备自然语言的交互、领域知识和逻辑推理能力。然而，在实际控制任务中，每个系统都是独一无二的，如何让预训练的语言模型快速高效地学习到系统相关的知识是一个挑战。

基于此，宋磊分享了微软亚洲研究院提出的新方法——基于动态知识生成和注入的自适应控制方法，该方法能够充分利用基座模型自身能力、训练代价低、适应范围广、处理较复杂场景。这种方法训练知识检索模型，使得检索的知识能够最好地指导每一步的决策，并且能够感知所处的环境，即能够辅助重建系统的运行。

对于这个新方法，宋磊表示，他们也进行了大量的消融实验，展示了在扰动、外部环境非正常变化情况下，基于基座模型的控制策略相较于其他方法的优势。然而，基座模型仍有许多方面需要进一步提升，例如数据的高效收集、稀疏 reward 场景的处理以及简化 prompt 相关的工作等，这些工作仍在持续进行中。

林辉：有道 QAnything RAG 引擎的演化史与落地经验分享

本论坛上，网易有道技术总监林辉带来了《有道 QAnything RAG 引擎的演化史与落地经验分享》的主题演讲。

林辉首先分享了其团队内部在 AI 方面的探索历程，从文档翻译的起步而后扩展到文档问答、话术助手、有道速读、AI 升学规划师、小 P 老师等多个方向的探索与落地。在此过程中，网易有道自主研发了 RAG 引擎 QAnything，并于 2024 年 1 月份将其开源（https://github.com/netease-youdao/QAnything）。

QAnything 的设计包含了文档解析、Embedding/rerank、LLM、vectorDB 等核心模块。在深入研究 RAG 时，林辉指出，不少人会存在一些误区，即 RAG 和 finetune 存在矛盾、以及 RAG 与长文本 LLM 有冲突，但是事实并非如此。在林辉看来，可以将 RAG 与 LLM context 视为硬盘与内存，而形式多样的数据、LLM 的理解力与可靠性实际上是 RAG 的关键。

在自研过程中，林辉表示，也遇到过不少关于检索、LLM 幻觉、系统扩展性等问题，通过自主训练 Embedding/Rerank，其中关键点包括问题的定义需符合 RAG 的需求、任务的合理安排以及生成真实问题句子的数据。至于为何需要Rerank，林辉指出，这实际上是精度与速度的 tradeoff，其采用了 BM25 混合检索技术，以更好地提升效果，弥补 Embedding 和 Rerank 之间的差距。

张健：大语言模型技术与创新落地应用

随后，达观数据联合创始人张健在《大语言模型技术与创新落地应用》的主题演讲中分享了实践的最新成果——达观“曹植”大模型，它具有长文本、多语言、垂直化等特点。

在具体的技术方面，张健表示，“曹植”大模型采用了多模型并联（Ensemble）架构和借助达观 RPA 模块来实现能力拓展。其中 Ensemble 架构基于新一代 LLM 的大模型架构、并融合以往的 Bert 模型、知识图谱，以及过去在 NLP 领域建立的业务规则引擎等，并借鉴了复旦 Moss 的插件思想，多模型和多插件融合来发挥最好的效果。而达观 RPA，主要是让大量外部的知识存放在企业各类业务系统中，通过 RPA 作为桥梁进行外部能力的拓展，这一技术借鉴了 AutoGPT 的思想和复旦 Moss 的插件库设计方案，与外部各类能力的对接拓展，让“曹植”未来发挥的空间无穷大。

正如上文而言，长文本是“曹植”大模型的一大功能特性，它可以识别文档内存在复杂结构元素、跨多个文档间的复杂关系，解析各类复杂格式如 PDF、PPT、Excel、Doc、扫描图片等。

围绕曹植大模型，可以实现多场景，如知识问答、垂直搜索、Text-to-SQL 数据查询，满足银行、证券、制造业、传媒等行业中的广泛应用需求。

韩志超：大模型与传统模型在eBay电商业务中的融合开发策略

在主题演讲环节，eBay 支付风控部门的算法专家韩志超带来了《大模型与传统模型在 eBay 电商业务中的融合开发策略》的分享。

他首先分享了产品和大模型的区别，对比了大模型和传统模型在不同场景中的适用性。其中传统模型，例如决策树、线性模型和 Xgboost、Lightgbm 等集成学习模型以及深度模型如 ResNet 和 BERT，通常是数据驱动的决策，采用相对成熟易用的训练方式。而如今的大模型，例如 GPT-4 和 GPT4V，拥有类似人类的推理延展能力，以及交互和解释的能力。

在电商业务中应用大模型面临着诸多挑战。以聊天机器人为例，用户常常会遇到幻觉现象，也需要评估潜在收益以及服务使用成本等问题。在 eBay 的实践中，韩志超分享了一些融合开发策略，例如采用 Chain-of-Thought（思维链）和Chain-of-Verification (CoVe) 技术，通过提示词工程，提升 LLMs 在复杂推理任务上的性能，减少不准确性。对于传统模型，也可以通过离线评估潜在的业务影响，使用语言模型评估作为观测指标，以及话题分类模型 Zero-shot Classifier 来减少不相关流量。

此外，在面对投诉会话内容打标时，韩志超透露，其常常会遇到标签去重正规化和多下游消费不同侧重点等问题。针对这些问题，他也分享了一些建议，如采用非结构化标签映射到结构化数据，以及 Zero-shot Classifier 来进行端到端学习并做出决策。

整体而言，在电商业务中，首先要评估大模型的有效性，如了解聊天机器人的潜在业务影响，推荐采用离线评估方式，进而通过大模型简单任务平替（如聊天会话分类路游）和话题分类模型 Zero-shot Classifier。最后，可以将大模型的非结构化输出映射到结构化数据，采用标签映射 Zero-shot Classifier 来获取有效特征，并做出决策。

圆桌论坛：大模型应用落地实践

作为本论坛的压轴环节，在 CSDN《新程序》执行主编唐小引的主持下，达观数据联合创始人张健、文因互联工程 VP 兼首席科学家宋劼、eBay支付风控部门算法专家韩志超三位嘉宾围绕“大模型应用落地实践”展开深度讨论，也旨在为更多的行业从业者解惑。

文因互联工程 VP 兼首席科学家宋劼坦言，在其长期致力于文档解析的历程中，大模型的出现解决了以往在语义理解和数据抽取方面遇到的困难。不过，挑战也随之而来，如企业想要清楚知道大模型能够为他们带来什么价值、业务的衡量评估标准是什么等等。“我跟技术团队说的最多一句话就是不要自嗨，需要关注的是客户的实际需求”，宋劼说，“今天行业一直想解决但没有真正解决方案的是需要技术人员对全流程有一个较强的认知。我们需要培养一批既理解大型模型运作原理，又能够提出高质量问题，并且了解行业特点的人才。”

eBay支付风控部门算法专家韩志超表示，持续训练大模型的目标就是促使其能够接话，这有点像小孩子学说话，起初小孩子跟别人说话时，完全不懂自己在说什么。但是突然有一天他说了一句让你觉得有道理的话，这其实就好比大模型的演进。当前大模型确实存在局限性，如今还没有合适的硬件架构来支撑它长期的推理或交流。

对于大模型在实际应用中存在幻觉或时效性等诸多问题，达观数据联合创始人张健认为目前没有办法完全解决，不过倒是有两种优化措施：

一种是从技术环节切入，包括输出校验、通过提示性内容引导优质输出、高质量的训练数据等；
另一种是在交互层面进行引导式纠正措施，如果大模型输出内容错了，是否有任何应对措施？在产品层面，是否存在其他路径，可以更快地进行迭代，找到真实内容？这一点至关重要。如果错误发生后，用户发现并没有纠正措施，可能会中断他们的使用过程。因此，提供一种引导用户逐步完成最终诉求的方案至关重要。

至于如何让大模型更好地应对上述问题的挑战，张健表示，对于企业而言，他们关心的主要是大模型能够带来的收益与价值。以文档处理为例，以前可能需要逐字处理内容，现在可以借助智能系统解决 80% 的工作，剩下的 20% 可以通过复合工作，这就体现系统的价值。此外，也可以让大模型不仅仅作为一个最终输出结果，还可以让它作为一些流程的能力支撑，由此丰富大模型的应用能力。

至此，在 ML-Summit 2024 全球机器学习技术大会的大模型行业应用论坛上，我们见证了一场精彩的交流与分享。各位专家通过深入的案例分析、前沿技术解读和行业趋势展望，为我们揭示了大模型在各个行业中的应用前景和挑战。他们的精彩分享不仅让我们更深入地了解了大模型的价值和潜力，也为我们指明了未来的发展方向。在此，让我们共同期待大模型在各行各业的更广泛应用，为数字化转型和智能化发展注入新的动力。

立即扫码预约全球机器学习技术大会PPT

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.