网易首页 > 网易号 > 正文 申请入驻

上海量子城市建设拿下“全国首个”,语料提纯有望“锁住”AI幻觉

0
分享至

上海量子城市建设正迎来突破性进展。记者日前获悉,全国首个规划资源领域专项语料库在上海亮相,实现数据归集40TB,未来有望达到200TB。

为什么需要一座专项“仓库”

上海为什么要打造一座“不明觉厉”的规划资源专项语料库?

2024年,上海首次披露“量子城市”概念。即,借鉴量子理论的“量子化”和“量子纠缠”等概念,对现实世界进行数字复刻,实现两者的互联感应、虚实相生,通过数字城市监测现实城市的运行状况、及时发现问题、推演发展规律,最终又反馈到现实城市进行更新提升。

同时启动建设的是全市首个三维空间智能规划与时空治理模型——云宇星空大模型。通过这个规划与自然资源领域的行业大模型,管理者能够及时分析特定空间内的人、车、物、企等多种要素的特征,更为精准地分析区域内的资源配置需求,提升空间规划与自然资源治理效率,把闲置资源腾挪出来建设人们更需要的空间场所。

在大模型的初创团队中,商汤、阿里等多家AI头部企业也有露面。两股力量共同推动了这次大动作。首要的是回应上海建设现代化人民城市的内在要求。城市和人的需求升级之后,进一步借助AI等新技术,让空间资源利用更高效、城市治理更精细。此外,全球一流城市都在锚定AI赛道,加速落地城市空间治理模型,这既是前沿探索,更是未来的卡位之战。

上海已在人工智能赛道抢占先机,城市空间治理要彻底完成智能化,语料建设是必须夯实的基础。语料是AI大模型学习的原始材料,往大了说,是驱动行业智能化升级不可或缺的战略资源与核心燃料。

和DeepSeek、阶跃、豆包等通用大模型不同,云宇星空大模型属于行业大模型,需要专门针对城市治理领域进行训练,才能让它的专业知识深度远超通用大模型。这意味着,云宇星空大模型的“人设”是一个真实的城市专家、专业规划师。它不仅具备基础的看图识字能力,而且面对人们抛出的有关城市空间的问题,能够有逻辑地对答如流。

不过,普通语料无法让大模型实现这样的“高知人设”。为此,上海市规划资源局牵头“定制”了一个专项语料库,囊括规划设计、测绘地理、自然资源等领域的学科教材、政策法规、技术标准、审批成果等,如1200份技术标准、5.7万项20年城建档案。它具有多模态、体量大、质量高、覆盖全等特点。

专项语料库的数据资产容量可达200TB,相当于20万部高清电影,在垂类大模型当中属于“高配置”。这个体量,对于打造一个顶尖“规划专家AI”来说,不仅够用,而且富足。

人工+自动标注提升语料质量

“量子城市时空创新先行实验区”复兴岛上,驻扎着一支由200多专业人士组成的团队,他们专门进行语料的人工标注。

驻扎的复兴岛的部分工作人员

语料标注指的是,对原始材料进行加工处理,转化为机器能够学习理解的信息。“一般来说,大模型采用自动标注,我们投入了大量人力做语料加工,这种规模在垂类大模型的开发中并不常见。”上海市数字城市规划研究中心主任奚文沁说。

但这会不会削弱大模型的智能性?

“人工标注不仅有必要,而且在模型训练的初期阶段,还是最主要的必不可少的过程。”全国首家人工智能语料超级工厂、语料生产商库帕思董事长山栋明说,云宇星空大模型对语料数据的要求是远高于普通的自动化标注要求的。实现这一目标,需要专家进行人工标注,生产高质量专业语料,再利用库帕思的语料工具链进行高效扩展形成规模效应。

换句话说,标注质量直接决定了AI大模型学得好不好。就像教孩子认字,光给看字典不行,需要老师圈重点、讲典故。云宇星空大模型采用人工+自动标注,人工标注先打样,再对自动标注的结果进行校核,让自动标注去调整,全面提高语料标注质量。

高质量标注能让大模型更“聪明”,回答的结果更精确,知识深度也将远超其他同类大模型。

打个比方,如果一位开发商想要知道高阳路109号的规划指标,通用大模型的回答是:“我”手头没有实时数据库,建议咨询权威渠道,并给出相关渠道联系方式。经过语料标注与训练,云宇星空大模型可以给到实时更新的详细规划指标。

再比如,一个投资者,如果想知道某个特地区域的开发状况、出让地块情况、区域规划。通常大模型无法给出准确答案,企业只能要调配大量的人力时间去搜集资料,未来使用云宇星空大模型,就能及时掌握所有信息。

一个想要了解黄浦江两岸前世今生的城市爱好者,未来只需要使用云宇星空大模型,就能看到这里不同时期的变化图景,了解城市的生长脉络。

能不能把AI幻觉关进“笼子”

大模型讨论如火如荼,对AI幻觉的担忧亦如影随形。小小幻觉,有时甚至会导致“差之毫厘谬以千里”的后果。

业内人士表示,幻觉是大模型技术原理的固有缺陷,大模型基于概率预测生成文本,这决定了它擅长模仿语言模式,而非像人类一样,基于对世界的理解和事实核查进行严谨推理。

一些推理模型在回答开放性问题时,常常会虚构细节以保持逻辑连贯。如果语料本身就有逻辑、详尽且专业,那么,就可以减少“杜撰”的可能。

“这些高质量的语料标注可以锁定幻觉。”山栋明说。垂类大模型如果要脱颖而出,关键就在于结合自身业务特色,给出最关键和精准的数据。云宇星空大模型采用的“专家精准打样、机器高效放大”的语料标注模式,就是上海规划资源行业在落地应用时探索出的应对策略。

云宇星空大模型的语料库建设,同样预示着AI技术演进的趋势:除了算法和算力,语料数据在大模型训练中的作用越来越重要。

因此,云宇星空大模型呈现出区别于其他垂类模型的特征,投喂语料并非通用数据,而是专为AI量身定制的、与场景适配的高密度、高专业性数据。

相较于不少通用大模型着力于大规模数据的预训练,云宇星空大模型将重心放在关键语料数据的后训练上,可以用少量算力实现更为精准的内容,达到“四两拨千斤”的效果。

记者了解到,目前,语料团队已经产出约46万条问答对,其中10万条通过人工评测进入微调集,3万条形成思维链语料用于复杂推理,1万条作为独立评测集用于模型测试。后续,还将进一步地通过人工测评全面提升语料的通过率,形成高质量规模化语料库,支撑模型持续迭代。

原标题:《上海量子城市建设拿下“全国首个”,语料提纯有望“锁住”AI幻觉》

栏目主编:陈玺撼 题图来源:上观题图 图片编辑:邵竞

来源:作者:解放日报 戚颖璞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谷爱凌爱上币圈诈骗犯孙宇晨?

谷爱凌爱上币圈诈骗犯孙宇晨?

爆角追踪
2026-02-01 17:28:46
跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

阿器谈史
2026-01-31 23:19:36
一觉醒来微信群炸了!腾讯开撒10亿现金红包,已有16人翻出万元奖励“小马卡”!网友:群聊已被刷屏

一觉醒来微信群炸了!腾讯开撒10亿现金红包,已有16人翻出万元奖励“小马卡”!网友:群聊已被刷屏

每日经济新闻
2026-02-01 16:10:05
台湾GDP靓眼   跃居亚洲第三

台湾GDP靓眼 跃居亚洲第三

跟着老李看世界
2026-02-01 11:44:55
“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

上观新闻
2026-02-01 21:39:09
令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

纵相新闻
2026-02-01 19:09:12
中国对委内瑞拉下禁令,特朗普一看形势不对,立即向中方发出邀请

中国对委内瑞拉下禁令,特朗普一看形势不对,立即向中方发出邀请

荐史
2026-02-01 18:00:12
卡里克豪取3连胜!英超5战获13分,曼联队史首人,阿莫林下课不冤

卡里克豪取3连胜!英超5战获13分,曼联队史首人,阿莫林下课不冤

奥拜尔
2026-02-02 00:03:35
国外网络基本互通,中国为何限制访问外网?17年前的教训刻骨铭心

国外网络基本互通,中国为何限制访问外网?17年前的教训刻骨铭心

和平声浪
2026-02-01 09:30:41
俄罗斯间谍卫星被毁!马斯克对俄罗斯非法“星链”动手了

俄罗斯间谍卫星被毁!马斯克对俄罗斯非法“星链”动手了

鹰眼Defence
2026-02-01 17:11:51
深圳水贝“杰我睿”最新进展:有消费者收到兑付方案,20g黄金+9000多元余额,兑付本金4856元

深圳水贝“杰我睿”最新进展:有消费者收到兑付方案,20g黄金+9000多元余额,兑付本金4856元

每日经济新闻
2026-02-01 17:45:18
员工刘某一个月内11次长时间滞留卫生间,单日最长达6小时21分钟,被公司解雇,法院:超出合理生理需求,属变相旷工,被解雇合法

员工刘某一个月内11次长时间滞留卫生间,单日最长达6小时21分钟,被公司解雇,法院:超出合理生理需求,属变相旷工,被解雇合法

极目新闻
2026-02-01 09:11:11
2月1日俄乌:马斯克终于出手了

2月1日俄乌:马斯克终于出手了

山河路口
2026-02-01 18:23:05
联赛第二!上海34分狂胜同曦 偰李永炜26+8三分生涯新高

联赛第二!上海34分狂胜同曦 偰李永炜26+8三分生涯新高

醉卧浮生
2026-02-01 21:35:48
杨紫这身材是真实存在的吗,薄薄的一片好瘦呀,极致自律太牛了!

杨紫这身材是真实存在的吗,薄薄的一片好瘦呀,极致自律太牛了!

TVB的四小花
2026-01-31 16:00:58
德约大度祝贺阿卡:未来10年内还会多次相遇!幽默互动逗笑纳达尔

德约大度祝贺阿卡:未来10年内还会多次相遇!幽默互动逗笑纳达尔

我爱英超
2026-02-01 20:37:19
15万个AI建了个朋友圈吐槽人类,100万人围观Moltbook后傻眼了:原来我们对AI一无所知

15万个AI建了个朋友圈吐槽人类,100万人围观Moltbook后傻眼了:原来我们对AI一无所知

AppSo
2026-01-31 20:13:22
以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

极目新闻
2026-02-01 16:43:12
朝鲜宣布:这是建国以来首次重大决策!

朝鲜宣布:这是建国以来首次重大决策!

IN朝鲜
2026-02-01 15:23:30
突发 | 知名女歌手于文文,被紧急送医!舞台上直接倒地!

突发 | 知名女歌手于文文,被紧急送医!舞台上直接倒地!

天津广播
2026-02-01 22:25:19
2026-02-02 00:31:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
428473文章数 759125关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

本地
旅游
时尚
数码
游戏

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

旅游要闻

豫园灯会“扩容”至外滩!今晚六大灯区首次全景点亮,BFC联合泡泡玛特打造新春游园会

“多巴胺风”又又又火了!这样穿时髦又减龄

数码要闻

极摩客已在海外市场推出新款高端迷你主机NucBox K13

《仁王3》PS5仅独占半年 或首次登陆Xbox平台

无障碍浏览 进入关怀版