网易首页 > 网易号 > 正文 申请入驻

大语言模型做产品实测:效果究竟如何?

0
分享至

随着大语言模型的发展,越来越多的人开始关注其在产品领域的实际效果。这篇文章将深入探讨大语言模型在产品开发中的应用,分析其优势和局限性,并通过实测数据来评估其实际效果。

———— / BEGIN / ————

大年初八,年后上班的第一天,我就收拾行囊,直奔客户那儿去,准备扎营开干,全力搞出个大语言模型的产品应用来。

为啥要这么着急跑客户现场来开发呢?原因有两点:

一是我们要做这个产品,必须要有数据,要不大模型的准确度上不去,做出来个60分的产品,对客户根本谈不上提质增效,大概率会被嫌弃。

二是客户比我们着急,寄希望于我们把产品做出成效,好圆前期吹出去的牛,堵上同行质疑的嘴。

说实在的,过去一两年大模型的横空出世,人工智能那是火得一塌糊涂,各行各业都发起了一场场的AI竞赛。

大家都想着抢先一步,宣传自家用上AI的产品之后,到底牛成啥样了。

正因为大家都相信AI可以极大提升效率,可以替代人力,可以解放生产力。所以,都一股脑儿地扎进用AI做产品的浪潮之中。

不过啊,有些人宣传得太过头,花了几百万做出来的东西,结果还是一个小学生的水平,别说替代人力,还得花更多的精力去“批改”它的作业。

说到客户,他们对AI的预期其实各不相同。

有些客户从来就没有用过AI的东西,也不确定这东西到底能干啥,你整个AI的产品给他这么一试,他会觉得非常的神奇。“哎呀,居然写出来的东西看起来还可以,是那么回事。”

而另外一些客户呢,因为一直在做AI方面的产品的尝试,心里大概也知道,AI能做啥,水平几何。所以,当你提供给他的产品,还是只有六七十分的水平,他就会比较失望。因为在他的预期中,AI必须要替代人力,解放人力,别的地方都是这么宣传的,都已经到了这么牛的地步,你家的产品还得让人伺候着,那哪行啊!

言归正传,当前阶段,绝大部分尝鲜用上AI的客户,其实都是死鸭子嘴硬,60分的效果硬是要吹出90分的成效。

搞得大家对AI的预期都上了一个台阶,就如同明明你家的孩子只能考60分,你却说考到了90分,这下子大家都相信这个孩子可以上一个好学校。但只有你心里清楚,就这水平,高中估计都上不了。

而我们呢?匆匆赶赴客户现场来做项目,就相当于要给这个孩子上一个强化班,短时间内要把他的成绩从60分提升到80分,这样好歹也算是个“学习成绩好”的孩子了。

接下来,我就来简单分析一下我们用AI做出来的这个“孩子”到底能考得怎么样,哪些“题”擅长,哪些“题”还不行。

计算题——100分

说到计算,大模型那可是个中高手,尤其是那些需要按照各种规则来推算的业务,对它来说简直就是小菜一碟。只要你把计算规则梳理得清清楚楚,大模型就会输出准确的答案,并且可以给到你解题的步骤,让你看得明明白白。

拿司法领域常见的量刑计算来举例:

基本案情:张三,男,25岁,2000年1月30日生,民族:汉族,身份证号:43*****56,文化程度:初中,政治面貌:群众,户籍地:西虹市经开区前进村90号,现居地:西虹市高新区广阳村1栋2单元101。犯罪嫌疑人张三有多次盗窃前科,最近一次因为盗窃罪被判处有期徒刑2年,于2023年4月4日刑满释放。2025年1月20日晚上23时许,张三独自一人来到西虹市高新区广场路停车厂,以“手拉车门”的方式盗窃了李xxx放置在小车内的现金1000元和2张银行卡。

问:张三应该如何量刑?

答:张三盗窃金额为1000元,属于数额较大的范畴,且没有其他严重情节,因此,其基准刑应在三年以下有期徒刑、拘役或者管制,并处或者单处罚金。

大模型的这个计算过程就是基于法律条款的明确规则,根据其犯罪的情节加以分析,得出的答案。

填空题——90分以上

这里说的填空题,就是能从文书中精准抓取“要素字段”。别以为它只是简单检索关键词做匹配,现在它已经聪明到能理解语意了,意思相近的描述它也能秒懂。

继续以张三盗窃案子来举例:

这一次,我们要求大模型从张三的案件描述中提取相关的信息。

问:

请帮我提取出犯罪嫌疑人张三的基本信息,包括:姓名、年龄、性别、民族、身份证号、文化程度、户籍地、犯罪时间、犯罪地点、盗窃金额。

答:

姓名:张三

年龄:25岁

性别:男

民族:汉族

身份证号:43*****56

文化程度:初中

户籍地:西虹市经开区前进村90号

犯罪时间:2025年1月20日晚上23时许

犯罪地点:西虹市高新区广场路停车场

盗窃金额:1000元

几乎是100%的准确,为什么我认为效果只能达到90分以上呢?它也有“犯迷糊”的时候。

从我做产品的实践经验来看,这里主要受限于如下两个方面:


  1. 有一部分的文书材料是照片或扫描、复印出来的,文字会存在不清晰、有折痕、有印章等情况,导致大模型识别出来的文字内容可能会出错,间接导致了提取效果不好。

  2. 存在一些文书的描述表达不够清晰、准确或有错别字的情况,我们自己去阅读是能发现和理解的,但大模型还理解不了,也就可能准确率降低。


这也引申出一个思考:我们看到的绝大部分的产品宣传那些“天花乱坠”的效果,都是在理想条件下测出来的。现实里,啥奇怪事儿都能遇到,产品效果自然就得打点折扣

阅读理解——70分

我们有很多的产品功能,其实是需要去做数据分析、业务流程规范(预警)、关键信息的摘取,这些功能都涉及到需要让大模型帮我们去做信息的分析总结。

比如,针对上述的张三案件,检察官要去做社会危险性的评估(分析下张三有没有存在危害社会的可能性),以决定是否要逮捕张三。其中,有一个评估指标是:在案发地有相对固定的工作或住所。

问:请帮我提取出张三案件中涉及到社会危险性的相关指标内容?

在大模型给出的回答中,就没有给出“在案发地有相对固定的工作或住所”。

我继续问它,为什么没有呢?

它回答的逻辑是:内容中并没有明确告知张三有固定住所或工作。

也就是说,对于一些信息的理解,大模型有时候还是比较死板,还达不到我们看到一个信息,可以直接推导出结论,你需要给他更明确的提示,才有可能给到你想要的答案。

写文章——60分

说起用大模型来写文章,那可真是不少人的“救星”啊!毕竟,写文章这事儿,对很多人来讲,就已经是生活中少有的“地狱”级任务。但用上大模型,居然写的这么好,简直“神”了。

不过,日常办公或生活里,想发表点啥,用大模型写写,完全没问题。咱们也不求它写得多么准确无误,多么精彩绝伦,只要能给点修改意见,或者启发点思路,就知足了。

但是,如果要依赖大模型生成的专业的内容当前来讲,还是很难达到。

继续以上面的张三案件来讲,我们当前就是在用大模型去帮助检察官做《起诉书》、《审查报告》等法律文书的生成。

依靠开源的大模型,是可以达到60分的效果的。

但要想让大模型写得更好,那就得下点功夫了。得不断优化提示词,还得给它喂更多的法律文书数据,让它变得更“聪明”,更懂咱们的法律行话,更像一个有资深办案经验的检察官。

总的来说,大模型在规则计算、要素提取、内容摘要、文书生成这些方面,已经算是60分以上的“好学生”了。但要想让它考到80分,那还得定向训练,喂行业数据,调整提示词,加各种约束条件。

本文来自微信公众号:肖武林,作者:武林

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙江省委常委王文序,已任新职!甘孜州委副书记汪玉琼,拟任正厅级新职!

浙江省委常委王文序,已任新职!甘孜州委副书记汪玉琼,拟任正厅级新职!

起喜电影
2026-01-21 09:06:53
现货黄金站上4780美元/盎司,日内涨0.4%

现货黄金站上4780美元/盎司,日内涨0.4%

每日经济新闻
2026-01-21 08:47:20
远嫁四川玲妹儿癌症已离世,离世前十几天不吃不喝,年仅37岁

远嫁四川玲妹儿癌症已离世,离世前十几天不吃不喝,年仅37岁

朗威谈星座
2026-01-21 08:12:56
川普:英国“极度愚蠢”;马克龙:我不理解

川普:英国“极度愚蠢”;马克龙:我不理解

寰宇大观察
2026-01-20 16:16:27
伊朗拟永久切断互联网:国际接入成政府特权,封闭网络全面取代

伊朗拟永久切断互联网:国际接入成政府特权,封闭网络全面取代

老马拉车莫少装
2026-01-20 00:05:13
全明星首发公布后世界队仅剩3名额,阿夫迪亚、唐斯等人竞逐

全明星首发公布后世界队仅剩3名额,阿夫迪亚、唐斯等人竞逐

懂球帝
2026-01-20 11:37:11
罗永浩声明:决定和西贝和解!但是他结尾说的一句话,让网友后怕

罗永浩声明:决定和西贝和解!但是他结尾说的一句话,让网友后怕

晴晴的娱乐日记
2025-09-15 22:22:29
同性恋为何没有在进化中消失?Nature:同性性行为有助于灵长类生存和繁衍

同性恋为何没有在进化中消失?Nature:同性性行为有助于灵长类生存和繁衍

超级数学建模
2026-01-19 22:37:19
咸鱼还是太全面了,怪不得人称国内黑市

咸鱼还是太全面了,怪不得人称国内黑市

另子维爱读史
2025-12-20 17:07:20
这居然是全红婵?18岁登上国际杂志封面,长发化妆太惊艳了,多张罕见照片曝光,原来大家都低估她了

这居然是全红婵?18岁登上国际杂志封面,长发化妆太惊艳了,多张罕见照片曝光,原来大家都低估她了

二胡的岁月如歌
2025-12-27 18:01:39
毛驴有了自己的新磨盘!

毛驴有了自己的新磨盘!

大道微言
2026-01-18 11:49:24
交易所:调整涨跌停板幅度

交易所:调整涨跌停板幅度

中国基金报
2026-01-20 21:44:23
疯了!孙宇晨出价3000万美元,只为跟马斯克独处1小时

疯了!孙宇晨出价3000万美元,只为跟马斯克独处1小时

雷科技
2026-01-19 16:12:00
我国驻柬埔寨使馆外排长队,传大批中国人逃离电诈园区后求助。

我国驻柬埔寨使馆外排长队,传大批中国人逃离电诈园区后求助。

环球趣闻分享
2026-01-20 17:38:27
古巴启动“战争状态”

古巴启动“战争状态”

扬子晚报
2026-01-19 12:25:12
国米完败展示换血期阵痛 齐沃自比18年前的曼奇尼有无道理

国米完败展示换血期阵痛 齐沃自比18年前的曼奇尼有无道理

国际足球冷雪
2026-01-21 07:44:12
安徽女学生上课时被警方带走,老师知道她的真实身份后,吓得后背发凉

安徽女学生上课时被警方带走,老师知道她的真实身份后,吓得后背发凉

神奇故事
2026-01-20 22:48:51
俄国客商赊购800台挖掘机,全厂高管反对,厂长力排众议出货

俄国客商赊购800台挖掘机,全厂高管反对,厂长力排众议出货

白云故事
2026-01-06 04:30:03
论出轨,我只服这三个星座!

论出轨,我只服这三个星座!

同道大叔
2026-01-20 22:10:59
新婚妻子在罗布泊探险失踪六年,我在沙漠油田找到她,场面太奇怪

新婚妻子在罗布泊探险失踪六年,我在沙漠油田找到她,场面太奇怪

白云故事
2025-11-22 17:15:06
2026-01-21 09:43:00
运营派
运营派
互联网运营学习交流平台
1546文章数 28关注度
往期回顾 全部

科技要闻

中芯国际等巨头集体提价,8英寸芯片最高涨20%

头条要闻

外交部副部长孙卫东:中方绝不允许家门口生战、生乱

头条要闻

外交部副部长孙卫东:中方绝不允许家门口生战、生乱

体育要闻

如果NBA只剩下最后一个传统中锋

娱乐要闻

网红版闫学晶!600万粉博主阿爆翻车

财经要闻

拆解涉税黑中介虚开套路

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

手机
本地
房产
公开课
军事航空

手机要闻

OPPO Find X9 Ultra真机曝光,配备体型“硕大”增距镜

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

房产要闻

中旅・三亚蓝湾发布会揭秘自贸港好房子高阶形态

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

德军13人前脚刚走 荷兰2名军人也撤离格陵兰岛

无障碍浏览 进入关怀版