自动化新闻的原生性失范及应对防治|算法|人工智能|青年记者|分布式数据库

分享至

作者：文希（上海大学新闻传播学院博士研究生）

来源：《青年记者》2023年第5期

导读：如何将人工智能技术融入新闻传播领域成为亟待解决的问题。

在技术社会系统中，科技智人的一举一动被实时捕捉生成数据流，供算法程序自动化采收，甚至干预决策。日常生活里无孔不入的电商推荐、AI换脸乱象、大数据杀熟、个人隐私泄露、算法歧视等现象受到广泛关注，看似强大的技术引起了人们的警惕和反思。技术的有害使用也成为法律和伦理治理的焦点。2022年，国家网信办开展综合治理算法，打击网络谣言等十项“清朗”系列专项行动，为亿万网民构建“晴朗”空间。国家计算机病毒应急中心点名17款未告知或未经同意超范围采集用户信息的移动客户端，打造网络生态的“绿水青山”。当智能技术的应用进入新闻生产传播领域，如何应对技术的原生性问题，成为促进新闻与技术纵深融合的关键。

智媒时代的自动化新闻生产

自动化新闻是智能技术与新闻业融合产生的词汇，起源于2006年的美国。彼时，汤普森公司研发出财经新闻的计算机写作程序。随后，德国、英国、法国、俄罗斯等国家的大型新闻传播机构开始了自动化新闻的探索。我国最早的自动化新闻出现在2015年，是腾讯网的Dreamwriter自动生成的财经报道《8月CPI涨2% 创12个月新高》。自动化新闻虽然发展迅猛，但在我国出现仅短短数年，目前还处于探索阶段，没有统一的概念。学者们常用的词汇还包括“算法新闻”“数据新闻”“智能新闻”“机器人新闻”等。根据美国学者马特·卡尔森在2015年对“自动化新闻”的定义，自动化的新闻信息生产过程指的是在没有或者有限的人类干预下，由预先设定的程序将数据转化为新闻文本的自动算法过程。[1]由此观之，自动化新闻的前提是较少或没有人工干预，来源是海量数据，核心是自动算法。

传统新闻报道是以记者编辑为主体，而自动化新闻是以写稿机器人为主体，两者的区别在于对新闻当事人的采访，对事件线索的分析转变为对海量的数据抓取，人为的稿件写作转变为基于自然语言处理的模板模型，编辑对稿件的审核发布转变为程序自动分发。赖特等人将I-T-O模型用于解释自然语言生成技术（natural language generation，NLG）在自动化新闻生产中的运用，具体划分为输入、处理、输出三个环节[2]，如表1所示。整体而言，自动化新闻的生产过程是对数据库中新闻文本的解构+重构生成更多新闻故事、从而更新数据库的循环增值过程。自动化新闻的出现意味着写作效率有了质的飞跃。新华社的快笔小新仅3秒便可生成一篇新闻并发布。美联社的Wordsmith每季度能生产4000多篇稿件，约为人工稿件的12倍，且能24小时全天候工作。但自动化新闻的创造性和思辨性远不及记者编辑的劳动成果。其中的风险与困境值得关注。

表1：自动化新闻的I-T-O模式

自动化新闻的原生性失范问题

自动化新闻的显著特征是非职业性新闻传播者介入新闻生产传播过程，在万众皆媒、万物皆媒的复杂环境中，整个新闻场域产生新的变化。技术本身存在的局限性应用到新闻领域中是否会被延续，该如何调整人与技术、人与社会的关系，是智媒时代自动化新闻需要探讨的问题。

（一）输入：数据来源的可信度与个人隐私泄露

在数据输入阶段，信息本身的准确、可靠、完整程度对新闻报道的真实客观起决定性作用。数据库保持实时更新也是十分必要的，看似无所不知的百科全书ChatGPT就存在知识盲区，澎湃记者以土耳其地震最新消息测试ChatGPT，ChatGPT的回答是无法访问最新进展，原因是训练它的模型数据只更新到了2021年。相关技术人员表示，ChatGPT目前还是一个离线生成模型，它会模仿人类语言讲话，但内容未必真实。自动化新闻的一大优势就是在大数据中获取全样本，但事实上全样本的获取并非易事。目前，数据的来源可从三个主体层面分析。第一，从新闻媒体机构层面而言，各大媒体创建自己的数据库，但还未实现互联互通。一个新闻事实至少包含两个及以上来源才符合新闻行业准则，而机器抽取的来源只是小样本，加上数据的保护措施以及技术手段的限制，全数据获取难上加难。第二，从互联网科技公司层面而言，数据公开与信源保护是长期存在的矛盾，除此之外，数据来源途径是否正当，获取的数据是否能用于商业经营一直以来饱受争议。比如社交媒体平台对部分敏感性的数据和话题删除之后，机器抓取的数据只能是部分数据。第三，从用户个人层面而言，用户私人信息和移动的轨迹都处于数据监控之下，个人信息面临泄露的风险。

（二）处理：算法的透明度与新闻立场偏向

社会大众对传统新闻生产传播过程较为熟悉，但自动化的新闻生产过程俨然是个黑箱，这种算法的不透明性让公众无法进行必要的监督。算法的透明度包含可获得性和可理解性。可获得性指的是，数据所有者理应知晓数据使用者对数据的用途及数据的使用程度，但事实上，数据所有者获知的信息极其有限。比如大数据“杀熟”事件，部分企业利用个人信息进行价格歧视；外卖平台利用大数据算法不断压缩骑手配送时间导致事故频发。可理解性指的是，算法程序运行的规则能被广大用户所理解，但用户自身受教育的程度，技术的专利保护，国家安全等都会影响算法的可理解性，算法要做到完全公开几乎是不可能的事。

自动化新闻并非新闻事实的客观再现，其经历过两次转译过程。第一层是记者对客观现实的转译，第二层是程序员对记者转译后的再转译。[3]自动化新闻的来源是人为主观筛选过后的数据库。ChatGPT出现政治偏向的根本原因在于驯化它的数据库采用的是美国话语体系。参与程序写作编码的程序员有着不同的学习背景和生活经历，看似客观中立的算法背后隐藏着人为主观价值倾向。突出的表现就是阅读量、播放量、分享量等流量成了新闻价值的判断标准，出现新闻界的“劣币驱逐良币”。

（三）生成：内容的机械性与著作权争议

美国学者赖特提出传媒的四功能学说，认为大众传播应该具备环境监测、协调社会成员行为、提供宣传教育以及娱乐的社会公共职能。机器可以降低信息生产成本，提高效率，但是为公众服务的社会责任不能让渡给机器。传统新闻报道在专业新闻从业人员把关之下能过滤有悖人性的信息，在灾难性、评论性、调查类的深度报道中体现一定的人文关怀，但机器基于算法生产同质化的冰冷信息。比如灾难报道中，写稿机器人能较为真实地还原灾难的场景，实时更新灾难的细节，这容易给当事人造成二次伤害。机械化报道存在着工具理性与人文感性的天然矛盾。

依靠人工智能技术生成的产物是否享有著作权一直是学界和法律界探讨的焦点。以国内首个人工智能作品争议案为例，起因是北京菲林律师事务所利用大数据生成了一篇影视行业分析报告，被百度公司旗下的百家号删除署名以及首尾段后在未告知的情况下转载传播，人工智能产品是否享有著作权是本案焦点。《中华人民共和国著作权法》规定，著作权由人身权和财产权组成。著作人身权涉及创作主体认定问题，自动化新闻生产参与者包含投资者、程序员、使用者以及智能机器人的多元主体，不好界定。那么作品是否具有独创性成了是否具有著作权的关键。[4]最终法院认为该文章满足文字作品形式要求，内容具有一定独创性，判百家号赔偿1560元的经济损失费并发布道歉声明。本案为自动化新闻著作权归属问题提供了一定的参考价值，但目前还未出台相关的人工智能著作权法。

（四）分发：推送的个性化与信息围城

自动化软件捕捉用户在网络上的浏览足迹，通过打标签的方式生成用户画像并以此预测用户的信息偏好。在推送过程之中，筛选与用户标签关联度高、停留时间长的信息，利用智能算法技术进行个性化的内容服务，形成过滤气泡（The Filter Bubble），限制了用户的接触面以及了解客观真实世界的机会。美国互联网观察家伊莱·帕里泽讲述自己在社交媒体上的经历：他在政治思想上是偏激进的，但乐于与保守主义者做朋友并了解他们的想法，于是关注了他们的Facebook账号，但首页帖子里从未出现相关链接。原因是，Facebook的算法程序检测到他与保守主义者的互动频率有限，亲密程度较低。智能技术的发展非但没有打开世界，反而让用户身陷信息围城的囹圄，置身于孤岛之中。

自动化新闻的竞争力不但体现在快速写作上，更体现在精准的用户定位方面。通过第三方机构获取用户的关系网和行为数据，实时跟踪记录用户的浏览习惯，生成个人成长日志，建立用户个人数字化档案，将严重扩大社会数字鸿沟甚至阶层鸿沟。因为用户一旦被智能算法技术定上某一群体的标签，其接触到的信息将封闭在这一群体中，反复相近的信息被认为是事实的全部，无法接受与自己意见相左或超出认知的内容，形成回音室效应。回音室效应在不同群体之间筑起高高的城墙，加大了代际沟通的难度和成本。

应对自动化新闻失范的策略

未来，人工智能技术与新闻行业的融合将进一步加深，打破传统新闻生产传播链条的思维，需要站在人机关系、组织机构、法律道德等角度思考如何规避自动化新闻原生性失范问题。

（一）记者转型多技能化，对话算法工程师

自动化新闻中采编发一体化的制播模式弱化了新闻从业人员的把关作用，将把关权移交给算法程序，一旦数据出错、机器发生故障，而机器又无法承担责任，自动化新闻则面临失控的风险。因此，强化专业人员的把关作用是至关重要的。自动化新闻拥有两大自然人主体，一个是技术人员，一个是媒体从业人员。在智媒时代，记者的多技能化已是常态，记者除了专注现场采访报道，还需习得数据分析能力、熟悉算法原理和计算机编程。习得这些专业技能的途径是与算法工程师形成长期合作机制，构建与算法工程师的交流区，在对话中提升自己的专业知识素养。从教育角度出发，打破两大专业人员之间的壁垒、培养复合型新闻人才是自动化新闻的发展趋势之一。

（二）保护数据隐私，法律与道德双重规制

关于自动化新闻的立法，欧盟在2021年制定的《关于人工智能的统一规则（人工智能法）并修正某些联合立法行为》提供了借鉴，保护用户数据隐私和增强AI系统透明度是两大方向。比如收集用户个人数据之前征求用户的意见，告知用户是商业还是公益用途。对用户个人公开数据画像，便于用户自我修正。在增加透明度的问题上，让用户了解算法的内在逻辑、提醒可能存在算法偏见、披露数据的来源、做到事前审查事后可溯源。还要建立反馈渠道，接受用户的监督。2022年，国家网信办颁布了监管各大视频、电商、社交、外卖等平台的《互联网信息服务算法推荐管理规定》，加大了违规使用算法的惩治力度。法律基础之上还需辅以自动化新闻道德准则。道德规范是非强制性的，一方面，需要新闻从业人员和技术开发人员提升自己的职业道德修养；另一方面，可设立行业协会的监督机构，奖罚有度，促进自动化新闻健康有序发展。

（三）主流导向驯化算法，矫正技术内容偏差

自动化算法在实践中出现的偏差如算法歧视、大数据杀熟、价值偏向等现象已上升为公共议题引发大众的“算法焦虑”。技术原生性失范问题是否也可以通过技术手段来解决。如人民日报曾在其移动客户端7.0版本中推出主流推荐算法系统，核心理念为用主流价值舒缓算法焦虑，建设正能量的舆论生态[5]。具体包含三大环节：一是人机联姻赋能正向价值观的内容质量审核系统；二是基于机器学习搭建个性、热门、关联三大场景的智能推荐系统；三是实时动态监测热点事件，分析舆情影响力的传播反馈系统。三大环节在开放信息环境的同时确保主流导向驾驭算法程序，推动人民日报智媒战略的实施，为“算法打败算法”提供经验。

此外，可探索将道德法律规范编写成代码嵌入自动化写作程序中，利用机器的自我学习提高人工智能水平，以使机器自动识别违反法律道德规范的内容。也可建立记者个人写作数据库，通过机器学习，模拟记者写作习惯，增强人文关怀。总之，要严格把控内容质量，反思流量焦虑，实现智能驱动。

结语

智媒时代自动化新闻采编播一体化精简了新闻制播流程，机器处理数据增强了新闻生产时效性，节省了新闻业的人力成本，个性化推荐机制提高了新闻传播效率，节省了用户检索信息的时间成本。把握智能技术带来的机遇，同时也需警惕技术隐藏的原生性问题。诸如数据来源样本不完整导致的信息失真，过度抓取用户信息侵犯个人隐私；流量至上的算法导致新闻导向出现偏差，眼球经济盛行，媒体的社会责任职能弱化；生成内容单一模式化，缺乏人性关怀的温度；自动化新闻著作权主体不明，出现侵权与被侵权事件无法得到及时解决；个性化推送形成过滤气泡，用户被动陷入信息围城。因此，要从自动化新闻的主体、技术、法律法规三个层面建立起应对自动化新闻原生性失范的路径，实现人机联姻、协同发展。

参考文献：

[1]谢梦君，张燕.智媒时代自动化新闻生产伦理的挑战与应对[J].青年记者，2021(21):39-40.

[2]胡兵，何德俊.从解构到重构:结构化新闻的概念承递、价值与未来[J].中国出版，2019(09):50-54.

[3]张超，钟新.从比特到人工智能:数字新闻生产的算法转向[J].编辑之友，2017(11):61-66.

[4]文希.人工智能新闻著作权归属问题及保护路径[J].青年记者，2020(05):75-76.

[5]杨奇光，张世超.自动化技术驱动下的新闻采编：流程再造、角色转型与内容治理[J].中国编辑，2021(09):46-50.

本文引用格式参考：

文希.自动化新闻的原生性失范及应对防治[J].青年记者,2023(05):46-48.

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.