网易首页 > 网易号 > 正文 申请入驻

上海量子城市建设拿下“全国首个”,语料提纯有望“锁住”AI幻觉

0
分享至

上海量子城市建设正迎来突破性进展。记者日前获悉,全国首个规划资源领域专项语料库在上海亮相,实现数据归集40TB,未来有望达到200TB。

为什么需要一座专项“仓库”

上海为什么要打造一座“不明觉厉”的规划资源专项语料库?

2024年,上海首次披露“量子城市”概念。即,借鉴量子理论的“量子化”和“量子纠缠”等概念,对现实世界进行数字复刻,实现两者的互联感应、虚实相生,通过数字城市监测现实城市的运行状况、及时发现问题、推演发展规律,最终又反馈到现实城市进行更新提升。

同时启动建设的是全市首个三维空间智能规划与时空治理模型——云宇星空大模型。通过这个规划与自然资源领域的行业大模型,管理者能够及时分析特定空间内的人、车、物、企等多种要素的特征,更为精准地分析区域内的资源配置需求,提升空间规划与自然资源治理效率,把闲置资源腾挪出来建设人们更需要的空间场所。

在大模型的初创团队中,商汤、阿里等多家AI头部企业也有露面。两股力量共同推动了这次大动作。首要的是回应上海建设现代化人民城市的内在要求。城市和人的需求升级之后,进一步借助AI等新技术,让空间资源利用更高效、城市治理更精细。此外,全球一流城市都在锚定AI赛道,加速落地城市空间治理模型,这既是前沿探索,更是未来的卡位之战。

上海已在人工智能赛道抢占先机,城市空间治理要彻底完成智能化,语料建设是必须夯实的基础。语料是AI大模型学习的原始材料,往大了说,是驱动行业智能化升级不可或缺的战略资源与核心燃料。

和DeepSeek、阶跃、豆包等通用大模型不同,云宇星空大模型属于行业大模型,需要专门针对城市治理领域进行训练,才能让它的专业知识深度远超通用大模型。这意味着,云宇星空大模型的“人设”是一个真实的城市专家、专业规划师。它不仅具备基础的看图识字能力,而且面对人们抛出的有关城市空间的问题,能够有逻辑地对答如流。

不过,普通语料无法让大模型实现这样的“高知人设”。为此,上海市规划资源局牵头“定制”了一个专项语料库,囊括规划设计、测绘地理、自然资源等领域的学科教材、政策法规、技术标准、审批成果等,如1200份技术标准、5.7万项20年城建档案。它具有多模态、体量大、质量高、覆盖全等特点。

专项语料库的数据资产容量可达200TB,相当于20万部高清电影,在垂类大模型当中属于“高配置”。这个体量,对于打造一个顶尖“规划专家AI”来说,不仅够用,而且富足。

人工+自动标注提升语料质量

“量子城市时空创新先行实验区”复兴岛上,驻扎着一支由200多专业人士组成的团队,他们专门进行语料的人工标注。

驻扎的复兴岛的部分工作人员

语料标注指的是,对原始材料进行加工处理,转化为机器能够学习理解的信息。“一般来说,大模型采用自动标注,我们投入了大量人力做语料加工,这种规模在垂类大模型的开发中并不常见。”上海市数字城市规划研究中心主任奚文沁说。

但这会不会削弱大模型的智能性?

“人工标注不仅有必要,而且在模型训练的初期阶段,还是最主要的必不可少的过程。”全国首家人工智能语料超级工厂、语料生产商库帕思董事长山栋明说,云宇星空大模型对语料数据的要求是远高于普通的自动化标注要求的。实现这一目标,需要专家进行人工标注,生产高质量专业语料,再利用库帕思的语料工具链进行高效扩展形成规模效应。

换句话说,标注质量直接决定了AI大模型学得好不好。就像教孩子认字,光给看字典不行,需要老师圈重点、讲典故。云宇星空大模型采用人工+自动标注,人工标注先打样,再对自动标注的结果进行校核,让自动标注去调整,全面提高语料标注质量。

高质量标注能让大模型更“聪明”,回答的结果更精确,知识深度也将远超其他同类大模型。

打个比方,如果一位开发商想要知道高阳路109号的规划指标,通用大模型的回答是:“我”手头没有实时数据库,建议咨询权威渠道,并给出相关渠道联系方式。经过语料标注与训练,云宇星空大模型可以给到实时更新的详细规划指标。

再比如,一个投资者,如果想知道某个特地区域的开发状况、出让地块情况、区域规划。通常大模型无法给出准确答案,企业只能要调配大量的人力时间去搜集资料,未来使用云宇星空大模型,就能及时掌握所有信息。

一个想要了解黄浦江两岸前世今生的城市爱好者,未来只需要使用云宇星空大模型,就能看到这里不同时期的变化图景,了解城市的生长脉络。

能不能把AI幻觉关进“笼子”

大模型讨论如火如荼,对AI幻觉的担忧亦如影随形。小小幻觉,有时甚至会导致“差之毫厘谬以千里”的后果。

业内人士表示,幻觉是大模型技术原理的固有缺陷,大模型基于概率预测生成文本,这决定了它擅长模仿语言模式,而非像人类一样,基于对世界的理解和事实核查进行严谨推理。

一些推理模型在回答开放性问题时,常常会虚构细节以保持逻辑连贯。如果语料本身就有逻辑、详尽且专业,那么,就可以减少“杜撰”的可能。

“这些高质量的语料标注可以锁定幻觉。”山栋明说。垂类大模型如果要脱颖而出,关键就在于结合自身业务特色,给出最关键和精准的数据。云宇星空大模型采用的“专家精准打样、机器高效放大”的语料标注模式,就是上海规划资源行业在落地应用时探索出的应对策略。

云宇星空大模型的语料库建设,同样预示着AI技术演进的趋势:除了算法和算力,语料数据在大模型训练中的作用越来越重要。

因此,云宇星空大模型呈现出区别于其他垂类模型的特征,投喂语料并非通用数据,而是专为AI量身定制的、与场景适配的高密度、高专业性数据。

相较于不少通用大模型着力于大规模数据的预训练,云宇星空大模型将重心放在关键语料数据的后训练上,可以用少量算力实现更为精准的内容,达到“四两拨千斤”的效果。

记者了解到,目前,语料团队已经产出约46万条问答对,其中10万条通过人工评测进入微调集,3万条形成思维链语料用于复杂推理,1万条作为独立评测集用于模型测试。后续,还将进一步地通过人工测评全面提升语料的通过率,形成高质量规模化语料库,支撑模型持续迭代。

原标题:《上海量子城市建设拿下“全国首个”,语料提纯有望“锁住”AI幻觉》

栏目主编:陈玺撼 题图来源:上观题图 图片编辑:邵竞

来源:作者:解放日报 戚颖璞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
厅级干部已经成为了高危职业

厅级干部已经成为了高危职业

风向观察
2026-05-04 14:17:07
“差点成恐怖片!”小伙脑子像被炸开一样,这病竟潜伏25年……平时无症状,发作可致命

“差点成恐怖片!”小伙脑子像被炸开一样,这病竟潜伏25年……平时无症状,发作可致命

环球网资讯
2026-05-10 14:53:11
太可怕了!北京多人深夜中招,手机在枕边,钱却被隔空转光

太可怕了!北京多人深夜中招,手机在枕边,钱却被隔空转光

苗苗情感说
2026-05-10 06:48:46
国乒女团VS日本,决赛时间公布,孙颖莎低调,张本美和教练引热议

国乒女团VS日本,决赛时间公布,孙颖莎低调,张本美和教练引热议

体育大学僧
2026-05-09 22:49:57
访陆刚落幕,警方果断出手,替郑丽文出了口恶气,结局大快人心

访陆刚落幕,警方果断出手,替郑丽文出了口恶气,结局大快人心

恋人视角
2026-05-10 03:07:06
同日亮剑!美菲试射战斧抵近国门,我军永兴岛红旗-9B硬核反制

同日亮剑!美菲试射战斧抵近国门,我军永兴岛红旗-9B硬核反制

安珈使者啊
2026-05-10 16:31:56
小马云18岁成年首播,在线人数破7万,与女生接吻刷爆网络!

小马云18岁成年首播,在线人数破7万,与女生接吻刷爆网络!

另子维爱读史
2026-05-10 11:05:38
梦回巅峰!哈登连拿7分杀死比赛!全场起立欢呼,骑士保留悬念

梦回巅峰!哈登连拿7分杀死比赛!全场起立欢呼,骑士保留悬念

体坛小李
2026-05-10 07:00:48
今晚开播!央一48集年代大剧来袭!阵容不错,这剧有黑马潜质

今晚开播!央一48集年代大剧来袭!阵容不错,这剧有黑马潜质

不似少年游
2026-05-10 11:40:37
15公司5月10日中午发布重大利空,大减持公司5家 重组退市公司2家

15公司5月10日中午发布重大利空,大减持公司5家 重组退市公司2家

股市皆大事
2026-05-10 11:30:17
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
全球最大的公司诞生!市值35万亿,相当于15个阿里,利润超8000亿

全球最大的公司诞生!市值35万亿,相当于15个阿里,利润超8000亿

简易科技
2026-05-10 15:18:40
吞自己的苦果!日媒称:中国多所一流高校已经终止向日本派交换生

吞自己的苦果!日媒称:中国多所一流高校已经终止向日本派交换生

凡知
2026-05-09 12:38:17
笑麻了,原来真实的乡镇公务员是这样的!网友:疑是被编制做局了

笑麻了,原来真实的乡镇公务员是这样的!网友:疑是被编制做局了

另子维爱读史
2026-05-10 10:55:25
伊朗革命卫队或将发动猛烈打击

伊朗革命卫队或将发动猛烈打击

参考消息
2026-05-10 10:36:03
“乡下父母全是这样被骗的”,中职女孩穿廉价警服,过来人说实话

“乡下父母全是这样被骗的”,中职女孩穿廉价警服,过来人说实话

泽泽先生
2026-05-08 18:29:22
活活吓死!网传69岁老人查出肺癌晚期,老伴告知真相后三日便离世

活活吓死!网传69岁老人查出肺癌晚期,老伴告知真相后三日便离世

火山詩话
2026-05-09 21:45:51
果然出事了!特朗普访华遇重大分歧,中方提的要求被美方一口否决

果然出事了!特朗普访华遇重大分歧,中方提的要求被美方一口否决

精彩启程
2026-05-09 23:51:47
中国赢了。这次中国是真的赢了

中国赢了。这次中国是真的赢了

安安说
2026-05-10 11:16:20
国务卿鲁比奥被中国拒之门外,北京宁绕弯传话也不给他开门!

国务卿鲁比奥被中国拒之门外,北京宁绕弯传话也不给他开门!

故事终将光明磊落
2026-05-10 15:02:43
2026-05-10 18:03:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
480427文章数 761338关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

县交警队长被举报工作日KTV饮酒 当地:其事先已请假

头条要闻

县交警队长被举报工作日KTV饮酒 当地:其事先已请假

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

教育
艺术
亲子
游戏
公开课

教育要闻

少年说|妈妈,今天我有些话要对你说

艺术要闻

预售 | 丁一林风景写生线上课程(最新)

亲子要闻

我有的是办法

抢疯了!NS2涨价 日本店铺狂设门槛也挡不住热潮

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版