网易首页 > 网易号 > 正文 申请入驻

大语言模型做产品实测:效果究竟如何?

0
分享至

随着大语言模型的发展,越来越多的人开始关注其在产品领域的实际效果。这篇文章将深入探讨大语言模型在产品开发中的应用,分析其优势和局限性,并通过实测数据来评估其实际效果。

———— / BEGIN / ————

大年初八,年后上班的第一天,我就收拾行囊,直奔客户那儿去,准备扎营开干,全力搞出个大语言模型的产品应用来。

为啥要这么着急跑客户现场来开发呢?原因有两点:

一是我们要做这个产品,必须要有数据,要不大模型的准确度上不去,做出来个60分的产品,对客户根本谈不上提质增效,大概率会被嫌弃。

二是客户比我们着急,寄希望于我们把产品做出成效,好圆前期吹出去的牛,堵上同行质疑的嘴。

说实在的,过去一两年大模型的横空出世,人工智能那是火得一塌糊涂,各行各业都发起了一场场的AI竞赛。

大家都想着抢先一步,宣传自家用上AI的产品之后,到底牛成啥样了。

正因为大家都相信AI可以极大提升效率,可以替代人力,可以解放生产力。所以,都一股脑儿地扎进用AI做产品的浪潮之中。

不过啊,有些人宣传得太过头,花了几百万做出来的东西,结果还是一个小学生的水平,别说替代人力,还得花更多的精力去“批改”它的作业。

说到客户,他们对AI的预期其实各不相同。

有些客户从来就没有用过AI的东西,也不确定这东西到底能干啥,你整个AI的产品给他这么一试,他会觉得非常的神奇。“哎呀,居然写出来的东西看起来还可以,是那么回事。”

而另外一些客户呢,因为一直在做AI方面的产品的尝试,心里大概也知道,AI能做啥,水平几何。所以,当你提供给他的产品,还是只有六七十分的水平,他就会比较失望。因为在他的预期中,AI必须要替代人力,解放人力,别的地方都是这么宣传的,都已经到了这么牛的地步,你家的产品还得让人伺候着,那哪行啊!

言归正传,当前阶段,绝大部分尝鲜用上AI的客户,其实都是死鸭子嘴硬,60分的效果硬是要吹出90分的成效。

搞得大家对AI的预期都上了一个台阶,就如同明明你家的孩子只能考60分,你却说考到了90分,这下子大家都相信这个孩子可以上一个好学校。但只有你心里清楚,就这水平,高中估计都上不了。

而我们呢?匆匆赶赴客户现场来做项目,就相当于要给这个孩子上一个强化班,短时间内要把他的成绩从60分提升到80分,这样好歹也算是个“学习成绩好”的孩子了。

接下来,我就来简单分析一下我们用AI做出来的这个“孩子”到底能考得怎么样,哪些“题”擅长,哪些“题”还不行。

计算题——100分

说到计算,大模型那可是个中高手,尤其是那些需要按照各种规则来推算的业务,对它来说简直就是小菜一碟。只要你把计算规则梳理得清清楚楚,大模型就会输出准确的答案,并且可以给到你解题的步骤,让你看得明明白白。

拿司法领域常见的量刑计算来举例:

基本案情:张三,男,25岁,2000年1月30日生,民族:汉族,身份证号:43*****56,文化程度:初中,政治面貌:群众,户籍地:西虹市经开区前进村90号,现居地:西虹市高新区广阳村1栋2单元101。犯罪嫌疑人张三有多次盗窃前科,最近一次因为盗窃罪被判处有期徒刑2年,于2023年4月4日刑满释放。2025年1月20日晚上23时许,张三独自一人来到西虹市高新区广场路停车厂,以“手拉车门”的方式盗窃了李xxx放置在小车内的现金1000元和2张银行卡。

问:张三应该如何量刑?

答:张三盗窃金额为1000元,属于数额较大的范畴,且没有其他严重情节,因此,其基准刑应在三年以下有期徒刑、拘役或者管制,并处或者单处罚金。

大模型的这个计算过程就是基于法律条款的明确规则,根据其犯罪的情节加以分析,得出的答案。

填空题——90分以上

这里说的填空题,就是能从文书中精准抓取“要素字段”。别以为它只是简单检索关键词做匹配,现在它已经聪明到能理解语意了,意思相近的描述它也能秒懂。

继续以张三盗窃案子来举例:

这一次,我们要求大模型从张三的案件描述中提取相关的信息。

问:

请帮我提取出犯罪嫌疑人张三的基本信息,包括:姓名、年龄、性别、民族、身份证号、文化程度、户籍地、犯罪时间、犯罪地点、盗窃金额。

答:

姓名:张三

年龄:25岁

性别:男

民族:汉族

身份证号:43*****56

文化程度:初中

户籍地:西虹市经开区前进村90号

犯罪时间:2025年1月20日晚上23时许

犯罪地点:西虹市高新区广场路停车场

盗窃金额:1000元

几乎是100%的准确,为什么我认为效果只能达到90分以上呢?它也有“犯迷糊”的时候。

从我做产品的实践经验来看,这里主要受限于如下两个方面:


  1. 有一部分的文书材料是照片或扫描、复印出来的,文字会存在不清晰、有折痕、有印章等情况,导致大模型识别出来的文字内容可能会出错,间接导致了提取效果不好。

  2. 存在一些文书的描述表达不够清晰、准确或有错别字的情况,我们自己去阅读是能发现和理解的,但大模型还理解不了,也就可能准确率降低。


这也引申出一个思考:我们看到的绝大部分的产品宣传那些“天花乱坠”的效果,都是在理想条件下测出来的。现实里,啥奇怪事儿都能遇到,产品效果自然就得打点折扣

阅读理解——70分

我们有很多的产品功能,其实是需要去做数据分析、业务流程规范(预警)、关键信息的摘取,这些功能都涉及到需要让大模型帮我们去做信息的分析总结。

比如,针对上述的张三案件,检察官要去做社会危险性的评估(分析下张三有没有存在危害社会的可能性),以决定是否要逮捕张三。其中,有一个评估指标是:在案发地有相对固定的工作或住所。

问:请帮我提取出张三案件中涉及到社会危险性的相关指标内容?

在大模型给出的回答中,就没有给出“在案发地有相对固定的工作或住所”。

我继续问它,为什么没有呢?

它回答的逻辑是:内容中并没有明确告知张三有固定住所或工作。

也就是说,对于一些信息的理解,大模型有时候还是比较死板,还达不到我们看到一个信息,可以直接推导出结论,你需要给他更明确的提示,才有可能给到你想要的答案。

写文章——60分

说起用大模型来写文章,那可真是不少人的“救星”啊!毕竟,写文章这事儿,对很多人来讲,就已经是生活中少有的“地狱”级任务。但用上大模型,居然写的这么好,简直“神”了。

不过,日常办公或生活里,想发表点啥,用大模型写写,完全没问题。咱们也不求它写得多么准确无误,多么精彩绝伦,只要能给点修改意见,或者启发点思路,就知足了。

但是,如果要依赖大模型生成的专业的内容当前来讲,还是很难达到。

继续以上面的张三案件来讲,我们当前就是在用大模型去帮助检察官做《起诉书》、《审查报告》等法律文书的生成。

依靠开源的大模型,是可以达到60分的效果的。

但要想让大模型写得更好,那就得下点功夫了。得不断优化提示词,还得给它喂更多的法律文书数据,让它变得更“聪明”,更懂咱们的法律行话,更像一个有资深办案经验的检察官。

总的来说,大模型在规则计算、要素提取、内容摘要、文书生成这些方面,已经算是60分以上的“好学生”了。但要想让它考到80分,那还得定向训练,喂行业数据,调整提示词,加各种约束条件。

本文来自微信公众号:肖武林,作者:武林

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发,央企国家能源集团已有多名管理人员被查!

突发,央企国家能源集团已有多名管理人员被查!

通信爆料
2026-02-27 09:23:26
一个非常不好的消息:中国超2亿独生子女面临的非常严峻问题。

一个非常不好的消息:中国超2亿独生子女面临的非常严峻问题。

百态人间
2026-02-05 15:39:14
突发!56岁女主持人去世,昏迷3天家人决定拔管,不愿让她受折磨

突发!56岁女主持人去世,昏迷3天家人决定拔管,不愿让她受折磨

TVB的四小花
2026-02-27 10:33:26
男子杀鸭从鸭肚中剖出金色颗粒,经灼烧鉴定为黄金,当事人:当地河道曾开采黄金,推测是鸭子觅食时误食河中金粒

男子杀鸭从鸭肚中剖出金色颗粒,经灼烧鉴定为黄金,当事人:当地河道曾开采黄金,推测是鸭子觅食时误食河中金粒

观威海
2026-02-26 13:46:19
长春15个老旧小区将改造

长春15个老旧小区将改造

吉刻新闻
2026-02-27 14:12:49
28岁女子心跳骤停,十指全做了长款美甲阻碍抢救,美甲师现场卸甲抢回一命

28岁女子心跳骤停,十指全做了长款美甲阻碍抢救,美甲师现场卸甲抢回一命

极目新闻
2026-02-26 07:15:57
3-0横扫进8强!中国女乒28岁王牌闪耀:世界第3追赶王曼昱孙颖莎

3-0横扫进8强!中国女乒28岁王牌闪耀:世界第3追赶王曼昱孙颖莎

李喜林篮球绝杀
2026-02-26 22:11:55
爱泼斯坦与朋友打趣,若霍金与未成年女孩发生性关系,他应获诺奖

爱泼斯坦与朋友打趣,若霍金与未成年女孩发生性关系,他应获诺奖

粤语音乐喷泉
2026-02-27 13:13:18
郭沫若想让月薪100的溥仪当助理,岂料溥仪用5个字,让对方红了脸

郭沫若想让月薪100的溥仪当助理,岂料溥仪用5个字,让对方红了脸

混沌录
2026-02-13 00:11:33
原生家庭能把人逼成什么样子?

原生家庭能把人逼成什么样子?

另子维爱读史
2026-02-26 22:07:53
中国队逆转日本揪出最大毒瘤!他上场8分钟 球队输10分 打的真差

中国队逆转日本揪出最大毒瘤!他上场8分钟 球队输10分 打的真差

篮球专区
2026-02-26 21:18:29
浙江男子节后返家发现13只宠物龟全被“煮”了:温控设备失灵,宠物价值近2万,心血全部归零

浙江男子节后返家发现13只宠物龟全被“煮”了:温控设备失灵,宠物价值近2万,心血全部归零

台州交通广播
2026-02-27 08:55:46
你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

另子维爱读史
2026-01-22 18:21:09
“艳照门”17年后,她再度翻红,自曝曾3年没拍戏,做了12次试管

“艳照门”17年后,她再度翻红,自曝曾3年没拍戏,做了12次试管

白面书誏
2026-02-26 14:13:40
浙江队冤大头?花500万从北京国安买了一个替补,引发球迷热议!

浙江队冤大头?花500万从北京国安买了一个替补,引发球迷热议!

罗掌柜体育
2026-02-26 12:09:46
巴拿马还继续嘴硬?中方不再客气!连出两拳重击,锁死巴方命门

巴拿马还继续嘴硬?中方不再客气!连出两拳重击,锁死巴方命门

纪中百大事
2026-02-27 17:00:26
猪大肠被关注!医生发现:癌症患者常吃猪大肠,或有4种变化

猪大肠被关注!医生发现:癌症患者常吃猪大肠,或有4种变化

医学原创故事会
2026-02-04 19:42:04
湖北女子38元购买足金手机贴纸,折算克价竟高达12666元,贵过黄金:部分贴纸克价超3万

湖北女子38元购买足金手机贴纸,折算克价竟高达12666元,贵过黄金:部分贴纸克价超3万

扬子晚报
2026-02-26 17:14:22
阿富汗击落一架巴基斯坦F-16战机?巴方否认:无战机损失!

阿富汗击落一架巴基斯坦F-16战机?巴方否认:无战机损失!

阿龙聊军事
2026-02-27 17:43:58
潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

梅子的小情绪
2026-02-08 19:59:04
2026-02-27 18:35:00
人人都是产品经理社区 incentive-icons
人人都是产品经理社区
想要成为大牛先从学做产品开始
64466文章数 311545关注度
往期回顾 全部

科技要闻

单张不到五毛!谷歌深夜发布Nano Banana 2

头条要闻

女子遇诈骗怎么也学不会操作 结果骗子当场被"整破防"

头条要闻

女子遇诈骗怎么也学不会操作 结果骗子当场被"整破防"

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

健康
手机
数码
亲子
公开课

转头就晕的耳石症,能开车上班吗?

手机要闻

魅族正积极接洽第三方硬件厂商,Powered by Flyme要来了?

数码要闻

内存短缺,英伟达AI工作站涨价了

亲子要闻

压岁钱怎么打理❓4种方式帮娃提高财商❗️

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版