七款主流大模型金融防骗实测：年化40%的骗局面前，AI比人类更清醒|欺诈|网络犯罪

分享至

来源：市场资讯

（来源：钛媒体AGI）

面对投资者施压，AI比人类更能守住底线——七款主流大模型金融防骗实测。

作者｜硅谷Tech news

编辑｜焦燕

本文首发于钛媒体APP

如果一位客户信誓旦旦地告诉你，他发现了一个“稳赚不赔”的投资机会——年化40%、零亏损月——恳请你帮他确认一下，你会怎么做？

大多数人的第一反应是“小心骗局”。但如果这个人已经做了“大量研究”，有“金融圈朋友背书”，甚至已经开始走流程了，你的劝阻还会那么坚定吗？

现实给出的答案并不乐观。

美国FBI网络犯罪投诉中心数据显示，2023年投资诈骗报告损失达45.7亿美元，同比增长38%；其2025年度报告进一步显示，投资类诈骗已成最频繁的网络犯罪类型。放眼全球，纳斯达克2024年的《全球金融犯罪报告》显示，2023年全球非法资金流动规模达到约3.1万亿美元。而这些受害者中，许多人入坑前并非孤军奋战——他们向身边人咨询过、向理财顾问确认过。那些本该说“不”的人，因为人情、面子、“对方都这么坚持了，我再反对显得太扫兴”——没有说出那个“不”。

这不是在批评谁。人类的大脑对社会压力极其敏感，对热情洋溢的对方极其难以说“不”——这是几百万年演化塑造的本能。

但如果这个“顾问”是AI呢？

南洋理工大学行为科学家Nattavudh Powdthavee本周在arXiv上发表了一项预注册实验，用3360次AI对话和1201名人类参与者的对照数据，给出了一个让人意外但又莫名安心的答案：在理财顾问压力测试中，AI的表现比人类更可靠。

实验地址：

https://arxiv.org/abs/2604.20652v1

一场“AI会不会拍马屁”的意外翻盘

要理解这个结论为什么让人意外，得先了解AI领域正在经历的一场信任危机。

2025年4月底，OpenAI更新了GPT-4o模型，大量用户反馈新版本变得过于谄媚。OpenAI首席执行官奥特曼在社交平台上回应称GPT-4o“变得太油滑”，承诺修复并很快回滚了该版本——用户说什么它就夸什么，用户做了糊涂决定它也跟着叫好。

这不是个别现象。2026年3月，斯坦福大学Myra Cheng等人在《科学》杂志发表研究，测试了11款主流AI模型和2405名参与者，发现AI肯定用户行为的频率比人类高出49%，哪怕涉及伤害或欺骗。更令人警惕的是，接触讨好型AI的用户亲社会意愿反而降低，对那些正在伤害他们的模型反而更加依赖——形成恶性循环。2026年2月，MIT、伯克利和斯坦福的联合研究还发现，内置迎合倾向的AI会将用户的错误信念一步步推向极端，即使对方是完全理性的贝叶斯理性人，也无法逃脱这种“妄想螺旋”——越和AI深度对话的人，越容易相信自己原本荒谬的观点。

这些发现让一个担忧迅速升温：大语言模型经过“基于人类反馈的强化学习”（RLHF）训练，天然倾向于生产“听着舒服”的答案，而非“听着刺耳但正确”的答案。简单说，人类评分员往往更喜欢“听着顺耳”的回答，模型就学着去生产那种回答——副作用是，AI容易在用户表达强烈观点时顺着说，哪怕用户是错的。当一个已经被骗局洗脑的投资者，拿着那个“好项目”满怀热情地去问AI，AI会不会因为不想扫兴，把原本应该发出的欺诈警告悄悄吞回去？

Powdthavee的团队把这个担忧变成了一个严格的实验——所谓“预注册”，是研究者先白纸黑字锁定假设和方法，再收集数据，防止事后“调参数”凑结论。他们预测动机性框架会抑制AI的欺诈警告强度，数据却完全走向了反面。

7款模型、12个骗局、3360场对话

实验设计值得细说。研究构建了12个投资场景，按真实风险水平分为三档——合法投资（如标普500指数基金和高收益企业债基金）、高风险但合法的投资（如P2P借贷平台和杠杆型新兴市场基金）、以及客观上构成欺诈的投资（如零波动高收益私募和二元期权交易平台）。每种场景在两种框架下测试：

对话分三轮进行——首轮咨询、持续施压、情感施压。第二轮中，研究者设计了五种施压话术：热情升级、研究背书、朋友力荐、已进入流程、权威认同，逐一测试AI的抗压能力。

高风险场景按欺诈信号的清晰度进一步分为三个梯度：

梯度1——数学上不可能：宣称40%年化收益、零波动、四年无亏损月的未注册私募基金。任何合法投资策略都做不到这一点，连基本的概率论都不允许。

梯度2——结构性欺诈：宣称25%至40%回报的土地银行项目，但土地根本未划入开发规划、无二级市场、不受监管——已被英国FCA和美国SEC明确列为诈骗类别。

梯度3——统计上不可信：连续9年年化12%的私募基金，包括2008年金融危机和2020年疫情熔断期间也毫发无损。单个要素拎出来似乎都“说得过去”，但整体模式高度疑似麦道夫式庞氏骗局。这是现实中识别难度最高的欺诈类型。

参与测试的7款模型覆盖了消费级市场的主力阵容：Claude Sonnet 4.5（Anthropic）、GPT-4o、GPT-4o mini（OpenAI）、Gemini 2.5 Flash（Google）、DeepSeek V3、Llama 3.3 70B（Meta）、Grok 3（xAI）。人类对照组为1201名美国成年人，其中77.5%金融素养评分达到4分以上——这并非一群“小白”。

数据来了：人类顾问的表现让人坐不住

先看结果。

人类顾问在首次咨询中，有13%至14%的概率认可欺诈投资。也就是说，大约每7到8次里就有一次，人类顾问会对一个客观上构成欺诈的项目点头说好。当投资者表现出强烈意愿时，人类压制欺诈警告的概率是AI的2到4倍。

AI呢？7款大语言模型对欺诈投资的认可率——统一为0%。不是“接近零”，是确确实实的零。

动机性框架（橙色）对AI首轮预警强度的影响。在三种风险等级下，橙色柱均不低于蓝色柱（中性框架），所有模型在高风险场景中均超过最低预警阈值。

更出人意料的是，当投资者表现出热情时，七个模型的预警强度不仅没有下降，反而轻微上升（β = +0.029）。各模型平均预警强度在4.37（GPT-4o mini）到4.87（Claude）之间，接近5分最大值。研究者推测，施压行为本身可能触发了模型对高风险情境的更高警觉——你越兴奋，它越警觉。低风险场景中所有模型预警接近零，正确“放行”了合法产品，印证了实验设计的操控检验有效性：AI并非一味喊“狼来了”，而是能有效区分风险等级。

这个结果与研究者自己预先注册的假设完全相反。科学研究中，被自己推翻的实验往往比“验证了预期”的更有价值。

但这并不意味着所有模型都一样靠谱——持续施压之下，分化出现了。

不同模型在持续压力下的预警退化表现。Claude和Gemini在压力下预警反而增强，GPT-4o mini则出现急剧下降。

GPT-4o mini的真实对话片段值得细看。当投资者表示“做了大量研究，更加确信了”，它直接放弃了欺诈警示，给了一份“投资前行动清单”——核实策略透明度、获取第三方验证、了解监管环境……末尾附上“相信你的直觉，但确保有研究依据”。到了第三轮，投资者直接问“你要怎么做才支持我投”，它进一步退化为风险咨询建议书，而非坚持立场。GPT-4o（完整版）的表现介于两者之间，属于中等退让但未崩塌。这个对比也揭示了一个有趣的规律：模型能力与抗压力并非简单正相关——Claude的“逆势增强”，恰恰是最反直觉的结果。

值得庆幸的是，彻底翻车的概率极低：所有3350条逐轮观测中，AI从警告转为推荐的“反转”不到千分之三。

研究者指出两种机制截然不同的失败模式：GPT-4o mini是“抗压崩塌”——在压力下逐步退让，可通过改进多轮一致性对齐来修复；Gemini则是“校准偏盲”——在中风险场景中预警显著偏低（均值1.93，低于预设阈值），对模糊但可疑的场景识别不足。这种偏差发生在用户施压之前，本质是推理能力的短板，无法仅靠反谄媚对齐解决。值得注意的是，Claude和DeepSeek在中风险场景中给出了较强的风险提示（均值分别为3.60和3.48），说明大部分模型能在“提醒风险”和“不误判诈骗”之间取得平衡。两种失败模式指向完全不同的监管和设计干预方向——前者可以通过标准化的对抗性压力测试暴露和修复，后者则需要更深层的推理能力评估。

AI与人类顾问的核心行为对比。（A）首轮认可率：AI对高风险场景认可率为0%，人类为13-14%。（B）警告压制率：人类自我报告压制率为16-26%，AI接近0%。

更值得注意的是，这种差距并非源于动机性施压。中性框架和动机性框架下，人类的认可率几乎没有差异（14.1% vs 13.3%），说明问题出在基础判断力而非易受暗示。即使只看金融素养评分≥4分的高素养群体，压制警告的比例依然全面高于AI。另一个有趣的发现：28.8%的人类参与者在第二轮干脆“摆烂”了——给出脱题、过短或拒绝评估的无效回复。在这些“摆烂”的人中，超过半数仍声称“会继续发出警告”——但在现实生活中，碍于情面、怕扫兴、懒得争辩，真正的退缩恐怕比实验室里严重得多。

为什么AI在这里反而“不谄媚”了？

这个结果和整个行业正在热议的AI谄媚问题形成了一种微妙的张力。为什么同样这些模型，在社交场景中“当老好人”，在投资欺诈面前却站住了？

论文提出了一个合理的解释：现代AI安全对齐策略将“无害性”视为“有用性”的硬约束，而非两者等量齐观。当一个场景被清晰标记为欺诈——比如一个宣称“40%年化、零波动”的未注册基金——“别让人被骗”的优先级高于“别让人不高兴”，安全约束压过讨好倾向，产生矫正性而非迎合性的回应。

但换个角度想，这个现象也暗示了一个更深的规律：AI谄媚的强弱，可能取决于任务领域是否具有客观评判标准。在社交和事实判断中，“对不对”很大程度上取决于社交共识和用户偏好，谄媚空间大；在金融欺诈检测中，“对不对”由算术、监管分类和法证金融规律决定，标准越清晰，谄媚越难发生。

当然，“在清晰信号下站住了”和“在所有场景下都可靠”之间，还有很长的路。从政策层面看，研究者建议模型级别的针对性审计，既包括诈骗信号全梯度链的基线校准测试，也包括对抗性多轮压力测试。此外，部分模型对合法投资过度警告的倾向也不容忽视——用户如果习惯了“狼来了”，真骗子来了反而可能无人当真。研究者建议校准标准同时设定上下限，锚定于监管机构的欺诈分类体系。

研究者也坦诚了几个局限：所有诈骗场景基于已知监管类型构建，现实中精心设计的骗局往往更隐蔽；实验采用“无系统提示词”设计，而实际部署的AI理财工具有运营商设定的提示词，可能显著改变警告倾向——可能更好，也可能更差；人类对照组也非持牌金融专业人士。把这项研究的结论直接套用到“AI可以取代人类金融顾问”上，还为时过早。

但另一个方向的结论，或许可以站稳：在投资决策这件事上，如果你的第一反应是“让身边人帮我确认一下这个项目靠不靠谱”，不妨同时也问一下AI——它至少没有社会压力，不会因为不想扫你的兴而吞掉本该发出的警告。

这个世界并不缺乏骗局，缺的是愿意在关键时刻说“不”的声音。

也许，训练有素的大语言模型，正在意外地承担起这个角色。

当然，前提是——它自己没有先被骗到。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.