网易首页 > 网易号 > 正文 申请入驻

AI技术仍不成熟企业假装应用清算即将到来

0
分享至


企业组织仍在努力弄清AI如何融入其业务,这可能是件好事,因为理解AI生成的代码和内容造成的问题需要时间。

"目前没有人知道什么是适合其机构的正确参考架构或用例,"AI咨询服务公司Codestrap的联合创始人兼首席技术官多里安·史密利在接受采访时说。"很多人都在假装他们知道。但没有可以参考的行动手册。"

史密利和他的联合创始人、首席执行官康纳·迪克斯曾在全球咨询公司普华永道工作,现在成立了自己的公司来帮助组织制定AI策略。

他们认为追逐AI的公司过于超前了。

"从大语言模型的角度来看,人们并没有真正解决底层文本的易错性,"迪克斯说。

迪克斯认为,如果从第一原理构建AI系统,它看起来会与今天提供的产品截然不同。关于软件工程和办公工作消失的所有讨论,他说,"我们不赞同任何这样的观点。"

他还坚持认为公司也不想相信这一点。"在很大程度上,他们不想相信每个人都会被解雇,在他们下面不会有任何人,特别是在这些机构内的技术或信息组织中,"他说。

缺失的指标

史密利认为,考虑AI的组织的第一步是在反馈循环中进行实验和迭代。他说,这样做的原因是AI仍然不能很好地工作。

"即使在编码方面,它也不能很好地工作,"史密利说。"我给你举个例子。代码看起来可能是正确的,通过了单元测试,但仍然是错误的。通常测量这一点的方法是基准测试。因此,很多这些公司没有进行适当的反馈循环来查看AI编码对他们关心的结果的影响。代码行数、拉取请求数量,这些都是负债。这些不是工程卓越性的衡量标准。"

史密利说,工程卓越性的衡量标准包括部署频率、生产交付时间、变更失败率、平均恢复时间和事件严重性等指标。他坚持认为,我们需要一套新的指标来衡量AI如何影响工程性能。

"我们还不知道那些是什么,"他说。

一个可能有用的指标,他说,是测量为了获得批准的拉取请求(软件中正式接受的更改)而消耗的Token。这是需要评估的事情,以确定AI是否有助于组织的工程实践。

为了强调没有这种数据的后果,史密利指出了最近尝试使用AI将SQLite重写为Rust的情况。

"它通过了所有单元测试,代码的结构看起来是正确的,"他说。"但它的代码行数是原来的3.7倍,性能却比实际的SQLite差2000倍。对于数据库来说,差2000倍是不可行的产品。这是一场灾难。扔掉它。你花在上面的所有钱都是无价值的。"

史密利认为,关于使用AI进行编码的所有乐观情绪都来自于测量错误的事物。

"如果你测量代码行数和拉取请求,编码是有效的,"他说。"如果你测量质量和团队性能,编码就不起作用。没有证据表明这正朝着积极的方向发展。"

没有免费午餐

迪克斯指出了亚马逊和AWS最近的停机事故——亚马逊坚持认为这些事故与AI无关——作为即将到来的事情的指标。

"另一种看待这个问题的方式是这里没有免费午餐,"史密利说。"我们知道模型的局限性。很难教授新事实。很难可靠地检索事实。通过神经网络的前向传播是非确定性的,特别是当你有推理模型通过内部独白来提高下一个Token预测的效率时,意味着你每次都会得到不同的答案,对吧?那个独白会是不同的。

而且它们没有归纳推理能力。模型无法检查自己的工作。它不知道给你的答案是否正确。这些是大语言模型技术中没有人解决的基础问题。你想告诉我这不会在代码质量问题中表现出来?当然会表现出来。"

史密利认为,新指标是必不可少的,因为我们已经有数百万行人类永远不会审查的AI生成代码。

在业务应用的背景下,迪克斯指出了德勤因为包含AI生成错误的报告而不得不向澳大利亚政府退还费用的情况。

"我们知道大型咨询公司现在正在大规模采用这个技术来编写他们的PowerPoint演示文稿,"迪克斯说。"这将导致巨额诉讼和金钱损失,因为质量实际上没有得到跟踪。每个人都相信了这个童话故事,认为它已经很完美了。"

史密利预期AI应用于办公工作会遇到与AI应用于编码时类似的问题。但由于缺乏对虚构商业建议的基准测试,发现AI错误将更加困难。

"这里的另一个挑战是激励机制不一致,"史密利说。在像普华永道这样的四大会计师事务所,他说,合伙人想要更多收入和更高利润率。

"你给他们AI——他们会做什么?"他问。"更多工作,更少人工工作。所以你得到更多收入,更高利润率。这不利于让团队中的所有人使用AI但审查AI的每个输出。这些激励不一致。总监的激励是停止与助理交谈,因为助理什么都不知道。总监将使用AI来做助理的工作。对于助理来说,激励是更快地完成工作然后去海滩。所有这些激励都没有以使AI与业务互补并交付结果的方式对齐。"

史密利预测"对于AI重度用户来说,与代码质量相关的问题将在8到9个月内出现"。

迪克斯预见到越来越多的诉讼,因为当糟糕的建议造成问题时就会发生这种情况。

"人们将继续开始感受到'我必须采用这些东西,我必须做AI决策'的压力。他们将把这些东西投入生产,无论是在业务工作流程中还是在工程组中。然后加速的崩溃将让很多人失去工作。"

史密利说,另一个可能的结果是价格压力——当公司知道服务公司使用AI工具时,它们会要求折扣。

迪克斯说极端的价格压力开始出现。"甚至毕马威也向另一家会计师事务所施压要求降价,因为他们一直说他们使用AI,"他说。"客户现在说诸如'哦,你们用AI制作PowerPoint演示文稿。好吧,我想付给你们更少的钱。'"

另一个迫在眉睫的问题是大型保险公司对承保涵盖公司AI风险的保单变得谨慎。

"保险承保商现在正在认真尝试在应用AI且没有明确责任链的保单中取消保险范围,"史密利说。"所以现在让我们想象你是四大会计师事务所之一,你确实被起诉了,你正面临价格压力,市场超过了你适应的能力,现在你的承保商告诉你,'顺便说一下,我们不会为你提供保险。'"

迪克斯说"我们的一个朋友是该国最大保险公司之一的高级副总裁,他直接告诉我们这是一个非常现实的问题,他不知道为什么人们没有更多地谈论它。"

他说,保险公司已经在游说州级保险监管机构在商业保险责任保单中赢得豁免,这样他们就不必承保AI相关的工作流程。"这会杀死整个系统,"迪克斯说。

史密利补充说:"这里的问题是,如果一切都那么好,为什么保险承保商要竭尽全力禁止为这些东西提供保险?他们通常在风险分析方面相当擅长。"

迪克斯说,与其将这些问题作为即将崩溃的迹象,他希望行业内的人们能找到动力认真谈论需要克服的问题。

"我们能否真正就此进行对话?"他问。"有人会谈论通用人工智能的反面以及它如何在乌托邦未来接管一切吗?"

迪克斯坚持认为,我们需要更清楚地了解AI对金融、承保以及实际业务和业务系统实际操作的意义。

Q&A

Q1:为什么说企业在AI应用上还在假装?实际情况是怎样的?

A:目前没有人知道什么是适合其机构的正确参考架构或用例,很多人都在假装他们知道,但实际上没有可以参考的行动手册。企业追逐AI过于超前,从大语言模型角度看,人们并没有真正解决底层文本的易错性问题。

Q2:AI生成的代码真的有效吗?存在什么问题?

A:AI编码存在严重问题。代码看起来可能正确并通过单元测试,但仍可能是错误的。例如,用AI将SQLite重写为Rust的尝试中,代码行数是原来的3.7倍,但性能却比实际SQLite差2000倍,完全不可用。

Q3:保险公司对AI应用有什么担忧?

A:保险承保商正在认真尝试在应用AI且没有明确责任链的保单中取消保险范围。他们已经在游说州级保险监管机构在商业保险责任保单中获得豁免,这样就不必承保AI相关的工作流程,这可能会破坏整个系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宇树科技IPO通过,研发占比低得吓人!原来是靠社区Build?

宇树科技IPO通过,研发占比低得吓人!原来是靠社区Build?

小星球探索
2026-06-02 13:56:15
刷屏!北京大学饶毅教授直言:中国学术不端比例世界空前

刷屏!北京大学饶毅教授直言:中国学术不端比例世界空前

TOP大学来了
2026-06-02 19:24:41
独家:原中国兵器工业集团董事长实际上是秘书出身!33岁就当集团办公厅主任  很优秀!

独家:原中国兵器工业集团董事长实际上是秘书出身!33岁就当集团办公厅主任  很优秀!

新浪财经
2026-06-03 02:10:08
Here we go!罗马诺:邓弗里斯将加盟皇马,皇马触发2000万欧解约金

Here we go!罗马诺:邓弗里斯将加盟皇马,皇马触发2000万欧解约金

懂球帝
2026-06-03 05:05:07
女选手泳衣移位被无码直播,近万人围观!主办方道歉,摄影师封杀

女选手泳衣移位被无码直播,近万人围观!主办方道歉,摄影师封杀

酷侃体坛
2026-06-02 09:09:51
山西沁源县委书记赵永进被查,此前当地煤矿爆炸致82人死亡

山西沁源县委书记赵永进被查,此前当地煤矿爆炸致82人死亡

知知贵阳
2026-06-02 22:06:03
25万亿!国家启动史无前例超级大基建,信号强烈

25万亿!国家启动史无前例超级大基建,信号强烈

前瞻网
2026-06-02 10:49:44
女海王谈三男事件:女法学高材生同时谈3男友,地域错开、时间拆分,全程互不打扰,全员被蒙在鼓里,全部收获彩礼买房买车。

女海王谈三男事件:女法学高材生同时谈3男友,地域错开、时间拆分,全程互不打扰,全员被蒙在鼓里,全部收获彩礼买房买车。

贴小君
2026-06-01 22:42:46
霍尔木兹大消息,美军宣布:“林肯”号航母参与封锁,战机空袭开往伊朗哈尔克岛油轮,致机舱起火!国际油价上涨,特朗普:尽快达成协议

霍尔木兹大消息,美军宣布:“林肯”号航母参与封锁,战机空袭开往伊朗哈尔克岛油轮,致机舱起火!国际油价上涨,特朗普:尽快达成协议

每日经济新闻
2026-06-03 07:49:10
太狠了!一个夏天赚10亿美金!他到底凭什么?!

太狠了!一个夏天赚10亿美金!他到底凭什么?!

柚子说球
2026-06-02 22:34:38
白俄罗斯总统:金正恩不是也不可能是独裁者

白俄罗斯总统:金正恩不是也不可能是独裁者

俄罗斯卫星通讯社
2026-06-02 15:11:02
“三哥,你尾款我不要了!”中国外贸人反杀印度老赖,招招绝了!

“三哥,你尾款我不要了!”中国外贸人反杀印度老赖,招招绝了!

墨印斋
2026-06-02 23:18:53
"中国军机三天起降170架次" 日本又在炒作!

"中国军机三天起降170架次" 日本又在炒作!

看看新闻Knews
2026-06-03 01:24:18
黄仁勋重新做电脑:七大行业被判死缓,九大行业即将狂飙

黄仁勋重新做电脑:七大行业被判死缓,九大行业即将狂飙

今纶财经
2026-06-02 19:38:24
学历大放水!清华一年毕业3000多博士,比哈佛耶鲁等五所世界名校加起来多出30%

学历大放水!清华一年毕业3000多博士,比哈佛耶鲁等五所世界名校加起来多出30%

爆角追踪
2026-06-02 22:12:58
被特朗普怒斥后内塔尼亚胡强硬表态

被特朗普怒斥后内塔尼亚胡强硬表态

财联社
2026-06-02 17:14:20
为什么现在外敌越来越不怕中国?著名军事专家戴旭曾一针见血

为什么现在外敌越来越不怕中国?著名军事专家戴旭曾一针见血

飘逸的云朵
2026-06-02 21:01:26
没想到,“割四赔五”风波9天后,崔培军凭一番话,赚足农民口碑

没想到,“割四赔五”风波9天后,崔培军凭一番话,赚足农民口碑

削桐作琴
2026-06-02 20:05:30
为什么说闲鱼是中国最大的黑市?网友:我直接给跪了!

为什么说闲鱼是中国最大的黑市?网友:我直接给跪了!

另子维爱读史
2026-06-02 10:51:07
肇庆男童深山走失13天奇迹生还!靠野果生存,获救紧搂救援者

肇庆男童深山走失13天奇迹生还!靠野果生存,获救紧搂救援者

奇思妙想草叶君
2026-06-02 19:15:06
2026-06-03 09:03:00
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
18986文章数 49708关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

去掉娃哈哈 宗馥莉把自己名字印在了包装上

头条要闻

去掉娃哈哈 宗馥莉把自己名字印在了包装上

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

本地
家居
游戏
公开课
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

家居要闻

流线型轮廓 包容多元身形

前lol职业选手偷看女生全网被喷!本人正式道歉来了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版