网易首页 > 网易号 > 正文 申请入驻

上海人工智能实验室联合商汤等发布通用视觉技术体系“书生”

0
分享至

11月17日,上海人工智能实验室联合商汤科技SenseTime、香港中文大学、上海交通大学共同发布新一代通用视觉技术体系“书生”(INTERN),该体系旨在系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。
目前技术报告已在arXiv平台发布(https://arxiv.org/abs/2111.08687),基于“书生”的通用视觉开源平台OpenGVLab也将在明年年初正式开源,向学术界和产业界公开预训练模型及其使用范式、数据系统和评测基准等。
任务通用和数据学习效率是制约当前人工智能发展的核心瓶颈问题。根据相关技术报告,一个“书生”基模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。在ImageNet(www.image-net.org/challenges/LSVRC/index.php)等26个最具代表性的下游场景中,书生模型广泛展现了极强的通用性,显著提升了这些视觉场景中长尾小样本设定下的性能。
相较于OpenAI于2021年发布的CLIP这一当前最强开源模型,“书生”在准确率和数据使用效率上均取得大幅提升。基于同样的下游场景数据,“书生”在分类、目标检测、语义分割及深度估计四大任务26个数据集上的平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。“书生”在数据效率方面的提升尤为令人瞩目:只需要1/10的下游数据,就能超过CLIP(openai.com/blog/clip)基于完整下游数据的准确度,例如在花卉种类识别FLOWER(www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html)任务上,每一类只需两个训练样本,就能实现99.7%的准确率。

“书生”在分类、目标检测、语义分割、深度估计四大任务26个数据集上,基于同样下游场景数据(10%),相较于最强开源模型CLIP-R50x16,平均错误率降低了40.2%,47.3%,34.8%,9.4%。同时,书生只需要10%的下游数据,平均错误率就能全面低于完整(100%)下游数据训练的CLIP。

随着人工智能赋能产业的不断深入,人工智能系统正在从完成单一任务向复杂的多任务协同演进,其覆盖的场景也越来越多样化。在自动驾驶、智能制造、智慧城市等众多长尾场景中,数据获取通常困难且昂贵,研发通用人工智能模型对于降低数据依赖尤为重要。而突破“工业应用红线”的模型,需满足同时完成多任务、覆盖大量长尾场景,且基于下游小样本数据进行再训练等要求。
上海人工智能实验室、商汤科技、港中文以及上海交大联合推出的“书生”通用视觉技术体系,体现了产学研合作在通用视觉领域的全新探索,为走向通用人工智能迈出坚实一步。借助“书生”通用视觉技术体系,业界可凭借极低的下游数据采集成本,快速验证多个新场景,对于解锁实现人工智能长尾应用具有重要意义。
“当前发展通用视觉的核心,是提升模型的通用泛化能力和学习过程中的数据效率。面向未来,’书生’通用视觉技术将实现以一个模型完成成百上千种任务,体系化解决人工智能发展中数据、泛化、认知和安全等诸多瓶颈问题。”上海人工智能实验室主任助理乔宇表示。
商汤科技研究院院长王晓刚表示,“‘书生’通用视觉技术体系是商汤在通用智能技术发展趋势下前瞻性布局的一次尝试,也是SenseCore商汤AI大装置背景下的一次新技术路径探索。‘书生’承载了让人工智能参与处理多种复杂任务、适用多种场景和模态、有效进行小数据和非监督学习并最终具备接近人的通用视觉智能的期盼。希望这套技术体系能够帮助业界更好地探索和应用通用视觉AI技术,促进AI规模化落地。”
阶梯式学习:七大模块构建全新技术路径
通用视觉技术体系“书生”(INTERN)由七大模块组成,包括通用视觉数据系统、通用视觉网络结构、通用视觉评测基准三个基础设施模块,以及区分上下游的四个训练阶段模块。

通用视觉技术体系“书生”(INTERN)由七大模块组成,包括3个基础设施模块、4个训练阶段模块

书生作为中国古代读书人的经典形象,代表着一个通过不断学习、不断成长进而拥有各方面才能的人格化角色:从基础的知识技能学习开始,到对多种专业知识触类旁通,进而成长为拥有通用知识的通才。将全新的通用视觉技术体系命名为“书生”,意在体现其如同书生一般的特质,可通过持续学习,举一反三,逐步实现通用视觉领域的融会贯通,最终实现灵活高效的模型部署。
当前的AI系统开发模式下,一个AI模型往往只擅长处理一项任务,对于新场景、小数据、新任务的通用泛化能力有限,导致面对千变万化的任务需求时,须独立开发成千上万种AI模型。同时,研究人员每训练一个AI模型,都需构建标注数据集进行专项训练,并持续进行权重和参数优化。这种低效的学习训练方法,导致人力、时间和资源成本居高不下,无法实现高效的模型部署。
“书生”的推出能够让业界以更低的成本获得拥有处理多种下游任务能力的AI模型,并以其强大的泛化能力支撑智慧城市、智慧医疗、自动驾驶等场景中大量小数据、零数据等样本缺失的细分和长尾场景需求。
持续成长:“四阶段”提升通用泛化
在“书生”(INTERN)的四个训练阶段中,前三个阶段位于该技术链条的上游,在模型的表征通用性上发力;第四个阶段位于下游,可用于解决各种不同的下游任务。
第一阶段,着力于培养“基础能力”,即让其学到广泛的基础常识,为后续学习阶段打好基础;第二阶段,培养“专家能力”,即多个专家模型各自学习某一领域的专业知识,让每一个专家模型高度掌握该领域技能,成为专家;第三阶段,培养“通用能力”,随着多种能力的融会贯通,“书生”在各个技能领域都展现优异水平,并具备快速学会新技能的能力。
在循序渐进的前三个训练阶段模块,“书生”在阶梯式的学习过程中具备了高度的通用性。当进化到第四阶段时,系统将具备“迁移能力”,此时“书生”学到的通用知识可以应用在某一个特定领域的不同任务中,如智慧城市、智慧医疗、自动驾驶等,实现广泛赋能。

“书生”(INTERN)技术体系可以让AI模型处理多样化的视觉任务

产学研协同:开源共创通用AI生态
作为AI技术的下一个重大里程碑,通用人工智能技术将带来颠覆性创新,实现这一目标需要学术界和产业界的紧密协作。
上海人工智能实验室、商汤科技、港中文以及上海交大未来将依托通用视觉技术体系“书生”(INTERN),发挥产学研一体化优势,为学术研究提供平台支持,并全面赋能技术创新与产业应用。
明年年初,基于“书生”的通用视觉开源生态OpenGVLab将正式开源,向学术界和产业界公开预训练模型、使用范式和数据库等,而全新创建的通用视觉评测基准也将同步开放,推动统一标准上的公平和准确评测。
OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab (https://github.com/open-mmlab)、OpenDILab(https://github.com/opendilab)一道共同构筑开源体系OpenXLab,助力通用人工智能的基础研究和生态构建。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
库里:09年我打车去老詹家里玩耍 6年后我们开启了宿敌命运

库里:09年我打车去老詹家里玩耍 6年后我们开启了宿敌命运

直播吧
2024-06-14 11:45:11
甘肃一女博士刚生完孩子,丈夫就冲进房间将其割喉:大快人心

甘肃一女博士刚生完孩子,丈夫就冲进房间将其割喉:大快人心

青丝人生
2024-05-24 20:04:21
前国脚:归化伊哈洛卡拉斯科有用,归化奥斯卡没意义 伊万有东西

前国脚:归化伊哈洛卡拉斯科有用,归化奥斯卡没意义 伊万有东西

刀锋体育
2024-06-13 16:38:07
老人去世后,灵前守夜的人吃瓜子喝酒打牌,到底有什么意义

老人去世后,灵前守夜的人吃瓜子喝酒打牌,到底有什么意义

今日美食分享
2024-06-14 07:30:58
张津瑜这么漂亮,为何要作贱自己?

张津瑜这么漂亮,为何要作贱自己?

明窗邀华月
2024-06-05 22:01:12
4个月暴涨10倍,“最牛公司”崩了!

4个月暴涨10倍,“最牛公司”崩了!

财经锐眼
2024-06-13 16:46:14
嫌疑人被监视居住期曾遭疲劳审讯,检察机关排除相关有罪供述,2名侦查人员被追刑责

嫌疑人被监视居住期曾遭疲劳审讯,检察机关排除相关有罪供述,2名侦查人员被追刑责

红星新闻
2024-06-13 14:29:39
美大使警告匈牙利总理:和中国来往密切,最后将会“失去主权”

美大使警告匈牙利总理:和中国来往密切,最后将会“失去主权”

张国平爱唱歌
2024-06-14 11:57:48
美国NASA意外播出空间站宇航员痛苦的模拟画面

美国NASA意外播出空间站宇航员痛苦的模拟画面

嘿哥哥科技
2024-06-14 12:19:45
塔图姆总决赛命中率35.9% 史上没有命中率低于40%的FMVP

塔图姆总决赛命中率35.9% 史上没有命中率低于40%的FMVP

直播吧
2024-06-13 11:45:15
“将完全退出集安组织,不再回来”!

“将完全退出集安组织,不再回来”!

占豪
2024-06-14 01:06:17
美丽动人!26岁银色泳衣美女海边拍摄的写真照

美丽动人!26岁银色泳衣美女海边拍摄的写真照

小影的娱乐
2024-06-13 13:08:46
欧美片和日本片里妹子有啥区别?看完老司机对比分析,我秒懂哈哈..

欧美片和日本片里妹子有啥区别?看完老司机对比分析,我秒懂哈哈..

综艺拼盘汇
2024-06-13 23:21:14
传说中的“天马”,误闯江西居民区,众人合伙才将其控制

传说中的“天马”,误闯江西居民区,众人合伙才将其控制

文史微鉴
2024-06-13 06:28:53
2022年今天:绿军改变策略包夹库里 勇士全员开火抢天王山!

2022年今天:绿军改变策略包夹库里 勇士全员开火抢天王山!

直播吧
2024-06-14 11:24:19
28岁白色蓝格泳衣美女在酒店楼顶泳池边拍的写真照

28岁白色蓝格泳衣美女在酒店楼顶泳池边拍的写真照

白宸侃片
2024-06-12 20:47:22
指谁呢?李璇:某位国脚此前因伤离开国家队,换帅后又说踢不了

指谁呢?李璇:某位国脚此前因伤离开国家队,换帅后又说踢不了

直播吧
2024-06-13 16:12:14
乔妹参加快乐向前冲发生意外,落水角度很尴尬,被网友恶意截图

乔妹参加快乐向前冲发生意外,落水角度很尴尬,被网友恶意截图

新游戏大妹子
2024-06-13 11:53:56
最新!拜登与泽连斯基签安全协议,承诺未来10年对乌长期支持,美鼓动G7同意用俄被冻结资产收益援乌

最新!拜登与泽连斯基签安全协议,承诺未来10年对乌长期支持,美鼓动G7同意用俄被冻结资产收益援乌

纵相新闻
2024-06-14 13:00:27
记者扮男客潜入采耳店,偷拍服务全过程:女技师、柔式按摩别有洞天

记者扮男客潜入采耳店,偷拍服务全过程:女技师、柔式按摩别有洞天

古今档案
2024-05-07 13:04:58
2024-06-14 13:34:44
澎湃新闻
澎湃新闻
专注时政与思想的新闻平台。
691004文章数 5033326关注度
往期回顾 全部

科技要闻

马斯克重获信任 豪言特斯拉市值超10个苹果

头条要闻

飞天茅台价格下跌 黄牛:接一瓶亏一瓶 快亏倒闭了

头条要闻

飞天茅台价格下跌 黄牛:接一瓶亏一瓶 快亏倒闭了

体育要闻

乔丹最想单挑的男人走了

娱乐要闻

江宏杰秀儿女刺青,不怕刺激福原爱?

财经要闻

私募大佬孙强:中国为什么缺少耐心资本

汽车要闻

提供100/240kW双电机版本车型 乐道L60实车曝光

态度原创

房产
本地
艺术
手机
军事航空

房产要闻

112亿!中建智地+朝开+江苏绿建摘北京首宗多业态地块

本地新闻

粽情一夏|海河龙舟赛,竟然成了外国人的大party!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

手机要闻

苹果Vision Pro国行首销遇冷?网友:又贵还不实用

军事要闻

美军演习将罕见以4万吨级准航母作为靶舰

无障碍浏览 进入关怀版