从195元螃蟹到“数字人张颂文”：一场内容安全AI暗战，正在上演|风控|模态|上下文

分享至

“AIGC时代，如何守护那份“真实”？

毫无疑问，人类已全面进入大模型时代。我们刷着AI生成的视频，读着AI写的文章，享受着AI内容爆发带来的乐趣。然而，在大部分人没有感知的地方，一场围绕AI技术的攻防暗战，正以前所未有的激烈程度展开。

你最近可能刷到过这样一条新闻：有人买了6只螃蟹，吃完后用AI伪造了一段“螃蟹全是死的”视频，成功骗到195元退款。最终当事人被警方予以行政处罚——成了全国首例利用AI伪造视频实施网购诈骗被罚的案子。

你可能觉得这个事不大，再来看另外一个例子。2024年，香港一家公司的财务人员，在视频会议中与“CFO”及多位“同事”沟通后，谈笑风生间，他被“安排”向一个账户转出2500万美元。事后才知道，他在屏幕前看到的每一张脸、听到的每一句话，都是由AI成生的。

这些案例只是冰山一角。AI伪造内容正迅速成为身份欺诈的主要工具。据GASA发布的《2024全球欺诈报告》显示全球因欺诈造成的损失超过一万亿美元，AI诈骗（Deepfake）成为新兴威胁。

然而，AI不仅被人利用去“骗人”，AI自己也显现出“骗人”的苗头。早在2023年，研究人员就发现GPT-4在模拟股票交易时，会有意隐瞒自己进行内幕交易的真实动机。

这已超越一般意义上的AI“幻觉”，而是演变为一种精心设计的系统性欺骗策略。

技术的额“双刃剑”特质，在AI身上展现得淋漓尽致。

数美科技创始人兼CEO唐会军深刻指出：“AI时代，我们面临的风险跟过往大不相同。这是第一次，AI具备了影响人类价值观的能力。”

AI让造假进入“一键生成”的工业化阶段

每一个时代，都有属于那个时代的安全命题。大模型时代，更是如此。

“以前养一个账号，水军要花几周时间，为了让系统看起来像是真人在经营，还得不间断的发内容。而现在则不用这么‘麻烦’了，几百条的评论，AI十分钟就能自动生成了。”数美科技CTO梁堃说，“AI生成的评论内容，可以保证每条都不重样，而且语气自然得跟真人一样。”

如果说以前的造假还处于手工业阶段，AI技术则让造假进入到了“工业化”时代，造假的成本大幅降低的同时，造假“效率”则大幅提升。

梁堃用四个“更”来形容现在的形势：更大的规模、更多种的风险、更复杂的语义、更强的对抗。

在新形势下，我们必须拿出更智能的手段来应对。

内容风控的进化：

从“看到什么”到“看懂为什么”

数美科技顺势而变，打造了以AI为核心的下一代风控产品矩阵，覆盖内容与账号全场景、支持多模态识别、具备全球化服务能力的一站式风控解决方案。其不仅提供技术工具，更构建了一套融合政策、运营、数据与算法的系统化风控生态。

在这一产品矩阵背后，是数美科技风控能力的悄然进化：从“识别对象”到“理解意图”，从“应对已知”到“预见未知”。

“过去，在识别一个画面时，内容风控系统能实现的，就是辨别‘画面里是否有枪’这个问题；现在，我们不光要知道有枪支出现的信息，还需要进一步判断‘这支枪出现在这里，意味着什么？是暴力威胁、非法交易，还是博物馆展览、用于射击训练？’”数美科技CTO梁堃说。

这个转变看似简单，实则是一场思维革命。

为实现这一转变，数美构建了全新的四级标签体系，将标签数量从近千个精细拓展至近五千个。这套体系层层递进，精细化定义风险：

第一层：对象识别（基础感知层）。识别内容中的实体，如违禁品、特定人物、敏感行为等。

第二、三层：主题与场景分类（逻辑判断层）。对对象进行归类和情境化。例如，在“自杀”主题下，进一步区分是“自杀意图流露”、“自杀方法描述”，还是“自杀事件报道”。

第四层：意图与观点研判（核心洞察层）——这是进化的关键一步。系统需解析内容背后的真实意图与情感倾向。以“未成年人风险”为例，不仅要识别出相关内容，更要精准判断其是“肯定自杀价值”、“表达绝望情绪”，还是“怂恿、诱导他人”。

这套四级标签体系不仅大范围拓展了风险标签的深度和广度，更具革命性意义的是，它不仅定义了“是什么”的风险，更拆解了“意图”风险，帮助平台迅速判断内容背后的倾向，及时做出相应的处理方式。

复杂语义的理解：像人一样“阅读”

AIGC的爆发，让内容的风险隐蔽性更强，语义更复杂，上下文关联更深远。为此，风控系统必须拥有更强的“阅读理解”能力：

首先是上下文关联理解。风险识别绝不能断章取义。例如，在提及“蓝鲸游戏”时，系统必须结合上下文，辨析这是对过往社会事件的客观陈述，还是隐含组织、怂恿的负面倾向。同样，对于历史图片或艺术创作中的敏感元素，也需结合语境进行准确判断，避免误伤。

其次是意图与观点的精细化剥离。风险识别需要从“是什么”深入到“怎么想”。对于违禁品信息，需分辨其意图是“知识科普”还是“买卖教唆”；对于涉及人物的内容，需识别文字背后是“客观描述”、“辱骂诋毁”，还是“戏谑讽刺”。这种细颗粒度的意图洞察，是实现精准处置的前提。

还有，就是多模型的协同。面对复杂多元的风险，不要指望单一的模型能包打天下。我们人类对风险的识别，是需要多感官的协同，比如我们从听到的异常声音、看到的可疑画面，读到的文字信息中，综合分析风险的发生概率。

数美的解决方案是构建统一的多模态理解框架。该框架将不同模态的信息映射到同一语义空间，通过大模型进行跨模态关联分析。“我们曾监测到一条内容，图片是某地自然灾害现场，配文却是完全无关的政治谣言。”梁堃举例，“单看图片或文字都可能是真实的，但结合起来就是典型的虚假信息。我们的多模态模型能够识别这种不一致性。

内容风控新战场

当AI成为攻击目标

事实上，内容风控的风险不止来自外部。内容风控正在面临一个全新的战场：对AI本身的攻击。这带来的隐蔽性和危害性更大。

第一个战场：直接“投毒”，攻击AI模型本身

近年来，对AI模型的攻击层出不穷，比如诱导输出、输出劫持、角色扮演等方式。国外有个挺有名的案例，有人让ChatGPT扮演一个“没有限制的AI”叫DAN，结果真就骗出不少它原本拒绝回答的危险内容，比如制造炸弹的步骤。这就叫“角色扮演攻击”。

这些攻击，防起来比识别脏话难多了。你得能理解“意图”，识别出那些包裹在正常对话外壳下的恶意指令。风控系统现在得像个“AI心理医生”，时刻判断用户到底是想聊天，还是在给AI“下套”。

第二个战场：AI自己“出错”，传播错误和有害信息

比如说涉及国家疆域、历史事件、重要人物生平这类通识。如果AI指鹿为马，可能引发严重事件。这不是简单的技术错误，而是可能影响现实认知的信息污染。

第三个战场：AI侵权问题

现在由于AI工具的普及，对于角色形象、IP、版权的侵犯，越发容易和普遍。12月12日，迪士尼向谷歌发出警告，指控其AI服务未经授权使用漫威、《星球大战》等版权素材，并要求立即停止侵权行为。

类似的案例比比皆是，AI正在肆无忌惮的冲破传统的版权边界。

这三个新战场，每一个都比传统的内容风控更加复杂、更加隐蔽，也更加危险。

范式升级：

从机审+人审到Agent审

面对这些挑战，数美科技正在推动一场风控范式的彻底革命：从“机审+人审”的线性模式，进化到基于大模型的“审核Agent”架构。

传统的内容审核是“机审+人审”的线性模式：AI初步筛选，可疑内容进入人工队列。这种模式在AIGC时代不够高效。“人审通常是内容审核流水线中成本与耗时最高的部分。”梁堃直言。

审核Agent的引入彻底改变了这一模式。“Agent不再是‘辅助工具’，而是‘数字员工’。”梁堃重新定义了人机关系。这些数字员工具备语义理解、逻辑推理、Few-shot学习和不确定判断能力，能够像经验丰富的审核专家一样工作。

引入“不确定标签”机制：将审核准确率提升至99%以上

人体免疫系统有时会误判，攻击自身健康细胞，这就是自身免疫疾病。AI模型也有类似问题——“幻觉”误判。“我们发现大模型准确率卡在90%出头时，主要原因是‘模棱两可’的灰色样本。”梁堃分析。

数美的解决方案是引入“不确定标签”。“当大模型无法确信判断时，不再强行分类为黑或白，而是归入‘不确定’。”梁堃解释，“这样能将强制判断带来的幻觉减少到极低水平。”“不确定”的样本由人工专家重点审核，判断结果再反馈给模型进行微调，这一机制使数美的审核准确率整体提升至99%以上。

在技术创新与风控领域多年深耕的积淀下，数美构建了一套覆盖全球主要市场的立体化风险感知体系。

每天，数美的系统识别超过30亿次文本识别、7亿张图片识别及130万小时的音视频内容，为超过10亿账号提供保障——这些数字背后，是持续进化的风险防控能力。

这一全球网络宛如分布世界各地的“哨站”，使风险管控不再停留于“头痛医头”，而是实现了“看见全局、预见变化”的洞察力。

无论是识别具体“对象”，还是研判背后“意图”；无论是依托传统小模型，还是借助当下大语言模型——风控的底层逻辑始终如一：守护真实，抵御风险。

在人工智能已能生成一切的今天，真实比以往任何时候都更珍贵，同时也更脆弱。而守护这份属于人类的真实，正是我们推动技术发展的深层意义所在。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.