网易首页 > 网易号 > 正文 申请入驻

大语言模型做产品实测:效果究竟如何?

0
分享至

随着大语言模型的发展,越来越多的人开始关注其在产品领域的实际效果。这篇文章将深入探讨大语言模型在产品开发中的应用,分析其优势和局限性,并通过实测数据来评估其实际效果。

———— / BEGIN / ————

大年初八,年后上班的第一天,我就收拾行囊,直奔客户那儿去,准备扎营开干,全力搞出个大语言模型的产品应用来。

为啥要这么着急跑客户现场来开发呢?原因有两点:

一是我们要做这个产品,必须要有数据,要不大模型的准确度上不去,做出来个60分的产品,对客户根本谈不上提质增效,大概率会被嫌弃。

二是客户比我们着急,寄希望于我们把产品做出成效,好圆前期吹出去的牛,堵上同行质疑的嘴。

说实在的,过去一两年大模型的横空出世,人工智能那是火得一塌糊涂,各行各业都发起了一场场的AI竞赛。

大家都想着抢先一步,宣传自家用上AI的产品之后,到底牛成啥样了。

正因为大家都相信AI可以极大提升效率,可以替代人力,可以解放生产力。所以,都一股脑儿地扎进用AI做产品的浪潮之中。

不过啊,有些人宣传得太过头,花了几百万做出来的东西,结果还是一个小学生的水平,别说替代人力,还得花更多的精力去“批改”它的作业。

说到客户,他们对AI的预期其实各不相同。

有些客户从来就没有用过AI的东西,也不确定这东西到底能干啥,你整个AI的产品给他这么一试,他会觉得非常的神奇。“哎呀,居然写出来的东西看起来还可以,是那么回事。”

而另外一些客户呢,因为一直在做AI方面的产品的尝试,心里大概也知道,AI能做啥,水平几何。所以,当你提供给他的产品,还是只有六七十分的水平,他就会比较失望。因为在他的预期中,AI必须要替代人力,解放人力,别的地方都是这么宣传的,都已经到了这么牛的地步,你家的产品还得让人伺候着,那哪行啊!

言归正传,当前阶段,绝大部分尝鲜用上AI的客户,其实都是死鸭子嘴硬,60分的效果硬是要吹出90分的成效。

搞得大家对AI的预期都上了一个台阶,就如同明明你家的孩子只能考60分,你却说考到了90分,这下子大家都相信这个孩子可以上一个好学校。但只有你心里清楚,就这水平,高中估计都上不了。

而我们呢?匆匆赶赴客户现场来做项目,就相当于要给这个孩子上一个强化班,短时间内要把他的成绩从60分提升到80分,这样好歹也算是个“学习成绩好”的孩子了。

接下来,我就来简单分析一下我们用AI做出来的这个“孩子”到底能考得怎么样,哪些“题”擅长,哪些“题”还不行。

计算题——100分

说到计算,大模型那可是个中高手,尤其是那些需要按照各种规则来推算的业务,对它来说简直就是小菜一碟。只要你把计算规则梳理得清清楚楚,大模型就会输出准确的答案,并且可以给到你解题的步骤,让你看得明明白白。

拿司法领域常见的量刑计算来举例:

基本案情:张三,男,25岁,2000年1月30日生,民族:汉族,身份证号:43*****56,文化程度:初中,政治面貌:群众,户籍地:西虹市经开区前进村90号,现居地:西虹市高新区广阳村1栋2单元101。犯罪嫌疑人张三有多次盗窃前科,最近一次因为盗窃罪被判处有期徒刑2年,于2023年4月4日刑满释放。2025年1月20日晚上23时许,张三独自一人来到西虹市高新区广场路停车厂,以“手拉车门”的方式盗窃了李xxx放置在小车内的现金1000元和2张银行卡。

问:张三应该如何量刑?

答:张三盗窃金额为1000元,属于数额较大的范畴,且没有其他严重情节,因此,其基准刑应在三年以下有期徒刑、拘役或者管制,并处或者单处罚金。

大模型的这个计算过程就是基于法律条款的明确规则,根据其犯罪的情节加以分析,得出的答案。

填空题——90分以上

这里说的填空题,就是能从文书中精准抓取“要素字段”。别以为它只是简单检索关键词做匹配,现在它已经聪明到能理解语意了,意思相近的描述它也能秒懂。

继续以张三盗窃案子来举例:

这一次,我们要求大模型从张三的案件描述中提取相关的信息。

问:

请帮我提取出犯罪嫌疑人张三的基本信息,包括:姓名、年龄、性别、民族、身份证号、文化程度、户籍地、犯罪时间、犯罪地点、盗窃金额。

答:

姓名:张三

年龄:25岁

性别:男

民族:汉族

身份证号:43*****56

文化程度:初中

户籍地:西虹市经开区前进村90号

犯罪时间:2025年1月20日晚上23时许

犯罪地点:西虹市高新区广场路停车场

盗窃金额:1000元

几乎是100%的准确,为什么我认为效果只能达到90分以上呢?它也有“犯迷糊”的时候。

从我做产品的实践经验来看,这里主要受限于如下两个方面:


  1. 有一部分的文书材料是照片或扫描、复印出来的,文字会存在不清晰、有折痕、有印章等情况,导致大模型识别出来的文字内容可能会出错,间接导致了提取效果不好。

  2. 存在一些文书的描述表达不够清晰、准确或有错别字的情况,我们自己去阅读是能发现和理解的,但大模型还理解不了,也就可能准确率降低。


这也引申出一个思考:我们看到的绝大部分的产品宣传那些“天花乱坠”的效果,都是在理想条件下测出来的。现实里,啥奇怪事儿都能遇到,产品效果自然就得打点折扣

阅读理解——70分

我们有很多的产品功能,其实是需要去做数据分析、业务流程规范(预警)、关键信息的摘取,这些功能都涉及到需要让大模型帮我们去做信息的分析总结。

比如,针对上述的张三案件,检察官要去做社会危险性的评估(分析下张三有没有存在危害社会的可能性),以决定是否要逮捕张三。其中,有一个评估指标是:在案发地有相对固定的工作或住所。

问:请帮我提取出张三案件中涉及到社会危险性的相关指标内容?

在大模型给出的回答中,就没有给出“在案发地有相对固定的工作或住所”。

我继续问它,为什么没有呢?

它回答的逻辑是:内容中并没有明确告知张三有固定住所或工作。

也就是说,对于一些信息的理解,大模型有时候还是比较死板,还达不到我们看到一个信息,可以直接推导出结论,你需要给他更明确的提示,才有可能给到你想要的答案。

写文章——60分

说起用大模型来写文章,那可真是不少人的“救星”啊!毕竟,写文章这事儿,对很多人来讲,就已经是生活中少有的“地狱”级任务。但用上大模型,居然写的这么好,简直“神”了。

不过,日常办公或生活里,想发表点啥,用大模型写写,完全没问题。咱们也不求它写得多么准确无误,多么精彩绝伦,只要能给点修改意见,或者启发点思路,就知足了。

但是,如果要依赖大模型生成的专业的内容当前来讲,还是很难达到。

继续以上面的张三案件来讲,我们当前就是在用大模型去帮助检察官做《起诉书》、《审查报告》等法律文书的生成。

依靠开源的大模型,是可以达到60分的效果的。

但要想让大模型写得更好,那就得下点功夫了。得不断优化提示词,还得给它喂更多的法律文书数据,让它变得更“聪明”,更懂咱们的法律行话,更像一个有资深办案经验的检察官。

总的来说,大模型在规则计算、要素提取、内容摘要、文书生成这些方面,已经算是60分以上的“好学生”了。但要想让它考到80分,那还得定向训练,喂行业数据,调整提示词,加各种约束条件。

本文来自微信公众号:肖武林,作者:武林

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成都一女子不洗手抱孙子,儿媳怒斥不卫生,儿子一拳打面中,母亲扬言要儿子坐牢,儿子却说:她活该!6年后现状曝光...

成都一女子不洗手抱孙子,儿媳怒斥不卫生,儿子一拳打面中,母亲扬言要儿子坐牢,儿子却说:她活该!6年后现状曝光...

背包旅行
2026-07-02 14:33:11
印媒高调宣称,印度空调制造商将帮欧洲降温,抢夺中国厂商的订单

印媒高调宣称,印度空调制造商将帮欧洲降温,抢夺中国厂商的订单

王新喜
2026-07-02 15:08:27
为了不让中国人用 Claude,A社塞了个“间谍软件”。。。

为了不让中国人用 Claude,A社塞了个“间谍软件”。。。

差评XPIN
2026-07-01 23:54:51
官方:马特乌斯-费尔南德斯加盟热刺,据悉转会费8500万镑

官方:马特乌斯-费尔南德斯加盟热刺,据悉转会费8500万镑

懂球帝
2026-07-02 17:16:24
俄百枚导弹袭乌致100多人伤亡,乌军FP-9弹道导弹雷霆反击

俄百枚导弹袭乌致100多人伤亡,乌军FP-9弹道导弹雷霆反击

史政先锋
2026-07-02 16:15:30
知名品牌突然被曝!深圳5家门店全部关闭,网友:时代的眼泪

知名品牌突然被曝!深圳5家门店全部关闭,网友:时代的眼泪

深圳晚报
2026-07-02 20:59:25
京东方A大逆袭!493亿天量创历史记录,95万股民迎来股价18年新高,安徽合肥又赢了

京东方A大逆袭!493亿天量创历史记录,95万股民迎来股价18年新高,安徽合肥又赢了

金融界
2026-07-02 16:01:29
性压抑已经恐怖如斯了?

性压抑已经恐怖如斯了?

黯泉
2026-07-01 10:07:17
网曝浙江某工厂聘请很多印度劳工,食堂吃饭照曝光,网友:快举报

网曝浙江某工厂聘请很多印度劳工,食堂吃饭照曝光,网友:快举报

小徐讲八卦
2026-07-02 11:43:38
女子考编第一名岗位却被取消,网友:你不是人家想要的萝卜

女子考编第一名岗位却被取消,网友:你不是人家想要的萝卜

网易新闻出品
2026-06-30 21:59:39
局势反转!中国强硬下达“逐客令”,仅一招就让4000家日企倒闭

局势反转!中国强硬下达“逐客令”,仅一招就让4000家日企倒闭

胖福的小木屋
2026-07-01 19:03:36
广州大闹车站女子已社死:正脸曝光,撒泼画面流出,拘留只是开始

广州大闹车站女子已社死:正脸曝光,撒泼画面流出,拘留只是开始

苗苗情感说
2026-07-02 11:10:55
保剑锋工作室声明:与黄慧颐女士自愿离婚,何珈好女士与黄慧颐女士素不相识,其言行被误读,此前诉讼已达成和解

保剑锋工作室声明:与黄慧颐女士自愿离婚,何珈好女士与黄慧颐女士素不相识,其言行被误读,此前诉讼已达成和解

洪观新闻
2026-07-02 16:21:31
心理学有个致命的发现:读书时,拼的是谁更聪明;工作后,拼的是谁更圆滑;而活到最后才看透,比聪明圆滑更致命的,是这两个特质

心理学有个致命的发现:读书时,拼的是谁更聪明;工作后,拼的是谁更圆滑;而活到最后才看透,比聪明圆滑更致命的,是这两个特质

心理观察局
2026-07-02 06:37:12
7月1日起信访新规:进京上访,须持省级“通行证”,否则不登记

7月1日起信访新规:进京上访,须持省级“通行证”,否则不登记

混沌录
2026-07-01 18:10:39
一问到底 | 四问泰山刀片铁丝网围山:会否干扰救援?人畜受伤谁担责?

一问到底 | 四问泰山刀片铁丝网围山:会否干扰救援?人畜受伤谁担责?

上游新闻
2026-07-02 17:26:26
少林寺新任方丈释印乐,就任仅10个月,寺里就被曝出少了800多万

少林寺新任方丈释印乐,就任仅10个月,寺里就被曝出少了800多万

人生录
2026-07-02 16:19:01
仅仅十年时间!从世界第85飙升世界第7,他们才是国足学习的对象

仅仅十年时间!从世界第85飙升世界第7,他们才是国足学习的对象

大卫的篮球故事
2026-07-02 19:44:05
上海酒吧中国球迷穿日本球衣狂欢,那边78%的日本年轻人支持修宪

上海酒吧中国球迷穿日本球衣狂欢,那边78%的日本年轻人支持修宪

行者殷涛
2026-07-02 15:49:39
突发!以色列宣布:打死伊斯梅尔·马斯里

突发!以色列宣布:打死伊斯梅尔·马斯里

每日经济新闻
2026-06-30 11:36:05
2026-07-02 21:27:00
人人都是产品经理社区 incentive-icons
人人都是产品经理社区
想要成为大牛先从学做产品开始
64862文章数 311631关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

售价超30万小鹏新车仅200公里爆胎 4S店给的说法反复

头条要闻

售价超30万小鹏新车仅200公里爆胎 4S店给的说法反复

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

小鹏MONA L03 智能化水平拉满 还有玩法多样的巧思大空间

态度原创

本地
亲子
游戏
数码
公开课

本地新闻

这场穿越酉阳的光影之旅,张张都是壁纸!

亲子要闻

分年龄段选购儿童被子指南:不同成长阶段核心需求与选型方向梳理

MMO式微?我看《天下贰·经典版》依旧火热!

数码要闻

联想扬天S660 27英寸配置上新,6999元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版