网易首页 > 网易号 > 正文 申请入驻

AI技术仍不成熟企业假装应用清算即将到来

0
分享至


企业组织仍在努力弄清AI如何融入其业务,这可能是件好事,因为理解AI生成的代码和内容造成的问题需要时间。

"目前没有人知道什么是适合其机构的正确参考架构或用例,"AI咨询服务公司Codestrap的联合创始人兼首席技术官多里安·史密利在接受采访时说。"很多人都在假装他们知道。但没有可以参考的行动手册。"

史密利和他的联合创始人、首席执行官康纳·迪克斯曾在全球咨询公司普华永道工作,现在成立了自己的公司来帮助组织制定AI策略。

他们认为追逐AI的公司过于超前了。

"从大语言模型的角度来看,人们并没有真正解决底层文本的易错性,"迪克斯说。

迪克斯认为,如果从第一原理构建AI系统,它看起来会与今天提供的产品截然不同。关于软件工程和办公工作消失的所有讨论,他说,"我们不赞同任何这样的观点。"

他还坚持认为公司也不想相信这一点。"在很大程度上,他们不想相信每个人都会被解雇,在他们下面不会有任何人,特别是在这些机构内的技术或信息组织中,"他说。

缺失的指标

史密利认为,考虑AI的组织的第一步是在反馈循环中进行实验和迭代。他说,这样做的原因是AI仍然不能很好地工作。

"即使在编码方面,它也不能很好地工作,"史密利说。"我给你举个例子。代码看起来可能是正确的,通过了单元测试,但仍然是错误的。通常测量这一点的方法是基准测试。因此,很多这些公司没有进行适当的反馈循环来查看AI编码对他们关心的结果的影响。代码行数、拉取请求数量,这些都是负债。这些不是工程卓越性的衡量标准。"

史密利说,工程卓越性的衡量标准包括部署频率、生产交付时间、变更失败率、平均恢复时间和事件严重性等指标。他坚持认为,我们需要一套新的指标来衡量AI如何影响工程性能。

"我们还不知道那些是什么,"他说。

一个可能有用的指标,他说,是测量为了获得批准的拉取请求(软件中正式接受的更改)而消耗的Token。这是需要评估的事情,以确定AI是否有助于组织的工程实践。

为了强调没有这种数据的后果,史密利指出了最近尝试使用AI将SQLite重写为Rust的情况。

"它通过了所有单元测试,代码的结构看起来是正确的,"他说。"但它的代码行数是原来的3.7倍,性能却比实际的SQLite差2000倍。对于数据库来说,差2000倍是不可行的产品。这是一场灾难。扔掉它。你花在上面的所有钱都是无价值的。"

史密利认为,关于使用AI进行编码的所有乐观情绪都来自于测量错误的事物。

"如果你测量代码行数和拉取请求,编码是有效的,"他说。"如果你测量质量和团队性能,编码就不起作用。没有证据表明这正朝着积极的方向发展。"

没有免费午餐

迪克斯指出了亚马逊和AWS最近的停机事故——亚马逊坚持认为这些事故与AI无关——作为即将到来的事情的指标。

"另一种看待这个问题的方式是这里没有免费午餐,"史密利说。"我们知道模型的局限性。很难教授新事实。很难可靠地检索事实。通过神经网络的前向传播是非确定性的,特别是当你有推理模型通过内部独白来提高下一个Token预测的效率时,意味着你每次都会得到不同的答案,对吧?那个独白会是不同的。

而且它们没有归纳推理能力。模型无法检查自己的工作。它不知道给你的答案是否正确。这些是大语言模型技术中没有人解决的基础问题。你想告诉我这不会在代码质量问题中表现出来?当然会表现出来。"

史密利认为,新指标是必不可少的,因为我们已经有数百万行人类永远不会审查的AI生成代码。

在业务应用的背景下,迪克斯指出了德勤因为包含AI生成错误的报告而不得不向澳大利亚政府退还费用的情况。

"我们知道大型咨询公司现在正在大规模采用这个技术来编写他们的PowerPoint演示文稿,"迪克斯说。"这将导致巨额诉讼和金钱损失,因为质量实际上没有得到跟踪。每个人都相信了这个童话故事,认为它已经很完美了。"

史密利预期AI应用于办公工作会遇到与AI应用于编码时类似的问题。但由于缺乏对虚构商业建议的基准测试,发现AI错误将更加困难。

"这里的另一个挑战是激励机制不一致,"史密利说。在像普华永道这样的四大会计师事务所,他说,合伙人想要更多收入和更高利润率。

"你给他们AI——他们会做什么?"他问。"更多工作,更少人工工作。所以你得到更多收入,更高利润率。这不利于让团队中的所有人使用AI但审查AI的每个输出。这些激励不一致。总监的激励是停止与助理交谈,因为助理什么都不知道。总监将使用AI来做助理的工作。对于助理来说,激励是更快地完成工作然后去海滩。所有这些激励都没有以使AI与业务互补并交付结果的方式对齐。"

史密利预测"对于AI重度用户来说,与代码质量相关的问题将在8到9个月内出现"。

迪克斯预见到越来越多的诉讼,因为当糟糕的建议造成问题时就会发生这种情况。

"人们将继续开始感受到'我必须采用这些东西,我必须做AI决策'的压力。他们将把这些东西投入生产,无论是在业务工作流程中还是在工程组中。然后加速的崩溃将让很多人失去工作。"

史密利说,另一个可能的结果是价格压力——当公司知道服务公司使用AI工具时,它们会要求折扣。

迪克斯说极端的价格压力开始出现。"甚至毕马威也向另一家会计师事务所施压要求降价,因为他们一直说他们使用AI,"他说。"客户现在说诸如'哦,你们用AI制作PowerPoint演示文稿。好吧,我想付给你们更少的钱。'"

另一个迫在眉睫的问题是大型保险公司对承保涵盖公司AI风险的保单变得谨慎。

"保险承保商现在正在认真尝试在应用AI且没有明确责任链的保单中取消保险范围,"史密利说。"所以现在让我们想象你是四大会计师事务所之一,你确实被起诉了,你正面临价格压力,市场超过了你适应的能力,现在你的承保商告诉你,'顺便说一下,我们不会为你提供保险。'"

迪克斯说"我们的一个朋友是该国最大保险公司之一的高级副总裁,他直接告诉我们这是一个非常现实的问题,他不知道为什么人们没有更多地谈论它。"

他说,保险公司已经在游说州级保险监管机构在商业保险责任保单中赢得豁免,这样他们就不必承保AI相关的工作流程。"这会杀死整个系统,"迪克斯说。

史密利补充说:"这里的问题是,如果一切都那么好,为什么保险承保商要竭尽全力禁止为这些东西提供保险?他们通常在风险分析方面相当擅长。"

迪克斯说,与其将这些问题作为即将崩溃的迹象,他希望行业内的人们能找到动力认真谈论需要克服的问题。

"我们能否真正就此进行对话?"他问。"有人会谈论通用人工智能的反面以及它如何在乌托邦未来接管一切吗?"

迪克斯坚持认为,我们需要更清楚地了解AI对金融、承保以及实际业务和业务系统实际操作的意义。

Q&A

Q1:为什么说企业在AI应用上还在假装?实际情况是怎样的?

A:目前没有人知道什么是适合其机构的正确参考架构或用例,很多人都在假装他们知道,但实际上没有可以参考的行动手册。企业追逐AI过于超前,从大语言模型角度看,人们并没有真正解决底层文本的易错性问题。

Q2:AI生成的代码真的有效吗?存在什么问题?

A:AI编码存在严重问题。代码看起来可能正确并通过单元测试,但仍可能是错误的。例如,用AI将SQLite重写为Rust的尝试中,代码行数是原来的3.7倍,但性能却比实际SQLite差2000倍,完全不可用。

Q3:保险公司对AI应用有什么担忧?

A:保险承保商正在认真尝试在应用AI且没有明确责任链的保单中取消保险范围。他们已经在游说州级保险监管机构在商业保险责任保单中获得豁免,这样就不必承保AI相关的工作流程,这可能会破坏整个系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广岛三箭主帅:踢出了好球却没赢,点球判罚令人无语

广岛三箭主帅:踢出了好球却没赢,点球判罚令人无语

懂球帝
2026-03-28 17:36:48
黄金突然出现罕见大跌,单日连破多个关键关口

黄金突然出现罕见大跌,单日连破多个关键关口

流苏晚晴
2026-03-28 13:45:01
4万股东突发踩雷,这家公司白天大涨,晚上股票被实施st风险警示

4万股东突发踩雷,这家公司白天大涨,晚上股票被实施st风险警示

有范又有料
2026-03-28 10:13:07
原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

大铁猫娱乐
2026-03-25 13:03:57
中东冲突影响扩散!又一重要原料,价格飙升

中东冲突影响扩散!又一重要原料,价格飙升

第一财经资讯
2026-03-27 21:13:46
怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

丁丁鲤史纪
2026-03-25 16:35:13
我国每天增加1万癌症患者,罪魁祸首是青菜?3种青菜别再多吃

我国每天增加1万癌症患者,罪魁祸首是青菜?3种青菜别再多吃

今日养生之道
2026-03-27 17:56:29
1985年,萧华预感时日无多,向中央提出:能不能把我大女婿找来?

1985年,萧华预感时日无多,向中央提出:能不能把我大女婿找来?

北海史记
2026-03-27 13:48:40
张庆鹏或下课!北控三大热门新帅曝光,谁能即插即用止住颓势

张庆鹏或下课!北控三大热门新帅曝光,谁能即插即用止住颓势

体育见习官
2026-03-28 17:55:54
'戏混子'又来嚯嚯央视剧?五官乱飞、演技拉垮,还不如7岁孩子

'戏混子'又来嚯嚯央视剧?五官乱飞、演技拉垮,还不如7岁孩子

李侽在北漂
2026-03-27 17:11:23
17岁费曼长到188cm!陪妈妈看展太帅了,王丽萍罕见出镜气质绝了

17岁费曼长到188cm!陪妈妈看展太帅了,王丽萍罕见出镜气质绝了

观鱼听雨
2026-03-27 16:48:38
3月27日,多家上市公司发布重大利好利空消息

3月27日,多家上市公司发布重大利好利空消息

A股数据表
2026-03-28 06:55:03
7国设下鸿门宴?中方掀桌拒不赴会!法国气疯,叫嚣掐断中国命脉

7国设下鸿门宴?中方掀桌拒不赴会!法国气疯,叫嚣掐断中国命脉

天气观察站
2026-03-28 15:02:43
巴拿马玩砸!赔款156亿不够,滞留在华的巴船暴涨,船东纷纷倒戈

巴拿马玩砸!赔款156亿不够,滞留在华的巴船暴涨,船东纷纷倒戈

铁锤简科
2026-03-28 12:49:17
10箱茅台已追回,货运平台的信任危机如何解除

10箱茅台已追回,货运平台的信任危机如何解除

南方都市报
2026-03-28 07:08:06
派出所是正义之门不是施暴之地,唯五年以上重刑才能捍卫法治尊严

派出所是正义之门不是施暴之地,唯五年以上重刑才能捍卫法治尊严

雪中风车
2026-03-24 07:18:53
准状元布泽尔统治疯三!狂轰22+10带队逆转,助杜克挺进八强!

准状元布泽尔统治疯三!狂轰22+10带队逆转,助杜克挺进八强!

田先生篮球
2026-03-28 11:16:46
陈都灵出席零跑发布会,白衬衫短裤穿出天价感,这才是真女神

陈都灵出席零跑发布会,白衬衫短裤穿出天价感,这才是真女神

诺诺谈史
2026-03-28 18:12:41
歼-20总师被除名:任央企高管,最近露面照曝出,事发全过程披露

歼-20总师被除名:任央企高管,最近露面照曝出,事发全过程披露

博士观察
2026-03-28 18:19:57
3月24日译名发布:“大力神”运输机

3月24日译名发布:“大力神”运输机

参考消息
2026-03-24 12:32:03
2026-03-28 19:55:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17228文章数 49696关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

45岁男子驾车时突发心梗离世 2天前还在外地跑马拉松

头条要闻

45岁男子驾车时突发心梗离世 2天前还在外地跑马拉松

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

王一博改名上热搜!个人时代正式开启!

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

本地
亲子
教育
艺术
军事航空

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

亲子要闻

爱玩沙子是孩子的天性,这套#太空沙玩具 在家就能实现玩沙子的快乐,关键比去游乐场玩干净卫生。#儿童玩...

教育要闻

厌学的孩子回家躺平,是为了解决家族问题?

艺术要闻

中国油画学会三十年艺术展 | 油画选刊(一)

军事要闻

美军中东基地损失最新披露

无障碍浏览 进入关怀版