网易首页 > 网易号 > 正文 申请入驻

AI竞争时代,做好这件事很关键

0
分享至

来源:滚动播报

(来源:上观新闻)



1

过去几十年,在创新药领域,跨国制药巨头罗氏的领先优势始终难以撼动。但在人工智能时代,形势变化的速度远超所有人想象。

去年进博会期间,罗氏带来一款突破性的产品——Elecsys AD CSF。它能通过脑脊液检测,实现更早且成本、侵入性更低的阿尔茨海默病诊断。这在国内乃至全球市场,都几乎是垄断性的领先。

但才过了一年时间,已有中国医药企业打破了罗氏垄断,实现了自主产业化。它所倚仗的,是一个叫Venus的AI大模型。

Venus的核心能力,是让蛋白质实现功能的“定向进化”。简单理解,就是可以根据功能需求,直接设计改造蛋白质以获得最优方案,把研发周期从几年缩短到了几个月。

今年3月,上海交通大学特聘教授洪亮团队发布了Venus模型。仅隔7个多月,Venus帮助20多家企业设计了超过30款蛋白质,其中十几款已经实现产业化。

Venus的赋能不仅限于生物医药产业。其另一项代表性成果,是一种能降解塑料的酶。在这个领域,GE公司的技术领先全球,但现在Venus推动实现了国产替代。

支持Venus模型的数据集VenusPod也于近日由上海数据局推荐,获得国家数据局2025年“数据要素x”大赛全国总决赛二等奖。

2014年科学家们第一次提出“AI for Science”,到今天已经成为不可忽视的趋势。中国AI的崛起,正在加速各领域的科技创新,使跨国外资公司的技术领先地位不再那么稳固。

但尚不能盲目乐观。AI模型提升能力依赖数据,而且是海量的高质量数据。从全球范围看,高质量数据集的建设开发利用仍面临多重困境和阻碍,这也成为AI发展的一大堵点。

这意味着,谁能在这方面先行突破,或许就能在新一轮科技竞争中占得先机。

2

高质量数据集,是指经过采集、加工等处理,可直接用于开发和训练AI模型,能有效提升模型性能的数据集合。它是AI大模型训练、推理和验证的基础,决定了模型性能优劣。

以Venus为例,它之所以厉害,很大程度上是因为研发团队构建的VenusPod,是全球规模最大的蛋白质序列数据集。它包含150亿蛋白质序列,远超国际主流模型所用的数据集。

更关键的是,Venuspod拥有海量功能标注信息。什么样的蛋白质能耐受130℃的高温,什么样的蛋白质能耐受1000个大气压的强压,什么样的蛋白质能耐受强酸/强碱环境……Venus掌握这些蛋白质的特征,在设计蛋白质功能时,可以有目的地添加相应特征。

但这些高质量数据来之不易。150亿条蛋白质序列中,有约83亿条来自于公共数据库,但其中有功能标注信息的不到100万条。

剩下67亿条才是VenusPod核心竞争力的来源。这些数据由Venus团队与20多个国内科研单位合作获得,比如其中7亿条序列,来自上海交大肖湘教授领衔的“冥渊计划”,由“奋斗者”号载人深潜器在马里亚纳海沟挑战者深渊及雅浦海沟最深点采集。

唯有介入科研项目的深度合作,才能获得不同环境包括极端环境下被标注过的独有宝贵数据。用洪亮的话说,没有这样建立起来的“蛋白质矿藏”,AI模型就“无米为炊”。


即将下水的“奋斗者”号载人深潜器。 新华社照片

3

显然,不是所有的大模型都能像Venus一样,能获取这么多独有的、标注过的数据。理想状况是,各行业、企业都能用上满足应用需求的高质量数据集,让它们的AI大模型都能发挥最大的功效。

这显然不现实。当前一个最突出矛盾在于,数据的采集、清洗、分类和标注,都需要耗费大量的资源,包括但不限于钱、人、时间。

说直白点,不是每家企业都有能力、有意愿开着投入几个亿造的深潜器,冒着风险下到万米深海获取数据的。

不过,虽然高质量数据集建设投入周期长,但其能通过提升生产效率、革新生产工艺、创新服务模式找到价值回报路径,实现数据价值的转化。

但这一转化过程离不开数据集的流通和高效的供需对接。而这是一个全球性难题。

近年来,各国都在探索让数据流通起来的办法,但效果大多不尽如人意。比如英国面向AI技术的一份版权豁免建议,就因受到各方强烈反对而告吹。

洪亮也提到,VenusPod的数据不只是他们团队的功劳,还有20多个在深海、盐湖等地采集并处理数据的科研单位,怎么保障、分配好各自的权益?

如果因为种种原因,各高质量数据集均不流通,最后成为一个个“孤岛”,将极大拖低全局整体效率。

上海作为人工智能产业高地,正在积极探索破局。“我们肯定不希望数据集都在私域‘内循环’,还是希望能有更多‘外循环’‘大循环’。”上海市数据局表示。


2025年2月10日,人工智能行动峰会在法国首都巴黎的大皇宫拉开帷幕。本次峰会上,欧盟官员提出将放松对人工智能技术开发的监管,以助其在欧盟地区蓬勃发展。 新华社照片

4

今年,上海市数据局向国家数据局推荐了一批案例,其中10家单位入选国家数据局行业高质量数据集建设先行先试试点;7个案例入选国家数据局行业高质量数据集典型案例,“VenusPod 蛋白质序列数据集”正是其中之一。

10月,市数据局还启动可信数据空间创新发展试点项目、高质量数据集先行先试项目征集,从数据供给、数据流通、数据利用多个层面,持续探索数据价值化路径。

引导企业、机构探索出一条数据供给、数据流通的市场化解决方案,是推动高质量数据集建设的关键。市数据局表示,将挖掘更多VenusPod这样的优秀项目推荐至国家数据局,争取进一步的政策和资金倾斜,鼓励市场主体挖掘更多有价值的示范应用场景,打出数据要素价值释放组合拳。

在海外亦有类似做法。比如美国政府数据开放平台会列出政府亟待解决的数据问题,并设立奖金,调动全社会的力量共同解决。

同时,上海在供给端还进一步发力,以提升高质量数据资源总量。

现阶段,许多中小企业还处于信息化初级阶段。它们在生产经营过程中,产生了大量的数据,但可能完全没有采集的意识,更遑论加工处理利用。

而且,采集完的数据颗粒度还是太粗。要为AI大模型所用,精准的标注不可或缺。这为了让大模型知道“这是什么东西”,而且不能只是“这是手机”“这是电脑”这般泛泛的标注,还需精准到“这张X光片指向什么病症”这种程度。

上海市数据局表示,高质量数据集建设需要大量跨领域、复合型的高端人才,他们正与市人社局合作,着手培养包括数据标注人才在内的数据领域人才队伍。

以库帕思、智元创新等为代表的一批数据资源供给服务商也正涌现。库帕思开展了教育领域的高质量数据集建设,获得国家专项支持;智元创新打造具身智能高质量数据集,受到市场欢迎,并入选国家数据局典型案例。上海正在为这些数据服务商搭建平台、提供机会,帮助他们挖掘和释放数据潜能,为市场输出更多样、更丰富的数据资源。

从供给到流通,上海正在为我国高质量数据集建设探索可行路径。难题还有很多,但破题的方向已经很清晰了。

原标题:《AI竞争时代,做好这件事很关键》

栏目主编:张骏 题图来源:上观题图

来源:作者:解放日报 胡幸阳

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
养老院也开始退场了?到2025年后,将迎来很多养老院的“闭院潮”

养老院也开始退场了?到2025年后,将迎来很多养老院的“闭院潮”

来科点谱
2026-02-19 07:10:24
偏见!苏翊鸣教练:日本家人担心我在中国拿不到金牌 会被拉去坐牢

偏见!苏翊鸣教练:日本家人担心我在中国拿不到金牌 会被拉去坐牢

风过乡
2026-02-19 17:37:51
火烧连营!开封一小区发生汽车连环起火事故,事发现场相当震撼…

火烧连营!开封一小区发生汽车连环起火事故,事发现场相当震撼…

火山詩话
2026-02-19 11:26:30
1967年,那个将垃圾桶扣在彭老总头上的开国中将,后来怎么样了?

1967年,那个将垃圾桶扣在彭老总头上的开国中将,后来怎么样了?

海佑讲史
2026-02-19 12:50:05
12名遇难者身份曝光:11人是前来购买烟花爆竹的顾客,5人未成年

12名遇难者身份曝光:11人是前来购买烟花爆竹的顾客,5人未成年

汉史趣闻
2026-02-19 16:45:20
高市2.0,首先面对特朗普勒紧的绳子,还想着对麻生太郎封官许愿

高市2.0,首先面对特朗普勒紧的绳子,还想着对麻生太郎封官许愿

新民晚报
2026-02-19 10:25:38
张艺谋回应在电影《惊蛰无声》中“间谍在垃圾桶交接手机”:问过国安同志,对方答“可以”

张艺谋回应在电影《惊蛰无声》中“间谍在垃圾桶交接手机”:问过国安同志,对方答“可以”

大风新闻
2026-02-19 07:51:02
没人发拜年微信了,这是一个危险的信号

没人发拜年微信了,这是一个危险的信号

茉莉聊聊天
2026-02-18 10:48:40
孩子拿着烟花"瞄准"妈妈发射,妈妈被追着多次打中着急跑进死胡同,孩子妈妈:新衣服被烧坏了

孩子拿着烟花"瞄准"妈妈发射,妈妈被追着多次打中着急跑进死胡同,孩子妈妈:新衣服被烧坏了

观威海
2026-02-18 20:06:09
王毅怒批,高市开始外交反击,日本会长放弃访华,新加坡措辞变了

王毅怒批,高市开始外交反击,日本会长放弃访华,新加坡措辞变了

面包夹知识
2026-02-19 17:05:46
襄阳宜城烟花店才50多平米,要了12条人命!最害人的,或是防盗网

襄阳宜城烟花店才50多平米,要了12条人命!最害人的,或是防盗网

火山詩话
2026-02-19 13:50:13
没拿奖牌会坐牢?苏翊鸣教练:这是偏见,奥运会为中日间架起桥梁

没拿奖牌会坐牢?苏翊鸣教练:这是偏见,奥运会为中日间架起桥梁

奥拜尔
2026-02-19 17:01:23
韩国前总统尹锡悦涉嫌发动内乱案一审被判处无期徒刑,亲信透露其当初铤而走险是为保护妻子,金建希事后劈头盖脸怒骂“因为你,全毁了”

韩国前总统尹锡悦涉嫌发动内乱案一审被判处无期徒刑,亲信透露其当初铤而走险是为保护妻子,金建希事后劈头盖脸怒骂“因为你,全毁了”

极目新闻
2026-02-19 15:31:38
苏翊鸣徐梦桃连夺金牌,中国队排名上升5位,两人各获4枚奖牌

苏翊鸣徐梦桃连夺金牌,中国队排名上升5位,两人各获4枚奖牌

老癘体育解说
2026-02-18 22:14:27
南京一商场晚上突发火灾,看电影的观众紧急逃生,应急部门:火已扑灭,无人伤亡

南京一商场晚上突发火灾,看电影的观众紧急逃生,应急部门:火已扑灭,无人伤亡

极目新闻
2026-02-19 12:49:48
2018年,张扣扣向王家复仇,唯独不杀王自新妻子:她有不死的理由

2018年,张扣扣向王家复仇,唯独不杀王自新妻子:她有不死的理由

米果说识
2026-02-19 09:32:34
错过创造冬奥历史的机会,但刘少昂还希望为中国短道再战四年

错过创造冬奥历史的机会,但刘少昂还希望为中国短道再战四年

澎湃新闻
2026-02-19 10:06:27
第3金还要耐心等待!天公不作美,中国队冬奥热门冲金项再次延期

第3金还要耐心等待!天公不作美,中国队冬奥热门冲金项再次延期

全景体育V
2026-02-19 10:10:31
反转!维尼修斯先侮辱对手!他骂普雷斯蒂亚尼“懦夫”!

反转!维尼修斯先侮辱对手!他骂普雷斯蒂亚尼“懦夫”!

氧气是个地铁
2026-02-19 16:12:24
妈祖被替后续:现场混乱不堪,知情人爆更多猛料,女孩全家被威胁

妈祖被替后续:现场混乱不堪,知情人爆更多猛料,女孩全家被威胁

离离言几许
2026-02-19 16:27:03
2026-02-19 20:15:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2228614文章数 5497关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

尹锡悦被判无期只瞥了一眼法官 离庭时与律师相视一笑

头条要闻

尹锡悦被判无期只瞥了一眼法官 离庭时与律师相视一笑

体育要闻

不想退役!徐梦桃:希望能参加第6次冬奥

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

房产
手机
艺术
教育
旅游

房产要闻

顶豪抢房潮席卷全国! 中旅馥棠公馆项目395㎡大平层加推入市!

手机要闻

全球限14台:Caviar推“爱之翼”限量iPhone 17 Pro/Max

艺术要闻

震惊!安徒生竟是画家,他的田园生活太美了!

教育要闻

教育思路 不训练延迟满足

旅游要闻

莆田绶溪公园打铁花盛宴璀璨启幕

无障碍浏览 进入关怀版