网易首页 > 网易号 > 正文 申请入驻

重磅!星尘数据推出首款专注数据价值发现的产品MorningStar

0
分享至

(北京/2024年3月11日)——国际领先的AI数据技术公司星尘数据(Stardust AI)正式发布MorningStar,一款面向AI的数据闭环产品。MorningStar是目前首个专注数据价值发现的AI数据平台,基于DataOps的理念打造,全面覆盖AI算法从训练到生产全链路中的数据发现、管理、协作、迭代等各个环节。

▲MorningStar正式发布

数据技术已经推动了人工智能的三次变革。在大模型时代,各行各业都需要基于自身数据打造超级员工,以提高企业的生产效率。模型和算力可以购买,但数据需要精细化、全流程的管理,才能释放真正的价值。企业需要搭建一个可发现、可管理、可协作、可迭代的数据管道,才能具备获取数据、生产数据、持续迭代数据的能力,促进内部以数据为中心的协作,从而在AI2.0时代中获得核心竞争力。

MorningStar是市面上唯一一个专为AI2.0时代企业打造的数据闭环产品,全面覆盖AI算法从训练到生产全链路中的数据管理、迭代、优化、挖掘等闭环链路,致力于帮助企业建立高效的数据闭环系统,实现数据价值最大化和模型效果最优化,助力打造差异化竞争力壁垒。

一、精准狙击AI“数据债”,MorningStar应运而生

近年来,AI算法经历了多个发展阶段,但都和数据的突破息息相关。2009年,ImageNet项目充分展示了深度神经网络的潜力。该项目不仅证实了深度学习模型处理复杂视觉任务的能力,也凸显了大规模标注数据在训练高效模型中的重要性。2017年,Transformer架构的推出及其在BERT和GPT等模型中的应用,带来了另一次飞跃。这一阶段的关键创新在于能够利用全网数据进行大规模并行训练,显著提升了模型的理解和生成能力。2022年,大语言模型进一步证明了数据策略和数据质量对于模型的重要性。

过去,MLOps一直是业界关注的焦点,即如何优化模型的性能。2021年吴恩达提出了Data-centric AI的主张,许多研究人员开始将目光转向以数据为中心的AI研究。其主要目标是加强数据的质量和数量,而不过多关注模型结构的调整。在大模型领域,这种转变尤为显著。例如,相较于GPT2,GPT3在模型结构上的改变微乎其微,更多的精力放在了清洗高质量的大规模训练数据上。同样,ChatGPT与GPT3相比,也没有改变模型结构,而是采用了全新的数据策略与人类意图对齐。

AI的三次变革凸显了数据技术在推动机器学习算法进步方面的关键作用。事实上,算法开发过程中有80%的工作与数据相关。一个算法的上线部署需要经历需求定义、方案制定、数据采集、数据标注、模型设计、训练、指标测试、推理优化等等。在各个环节中,各个角色跨组织协同会导致企业数据债的产生。简单来说,数据债指的是企业当前状态与最大化数据价值之间的差距。数据债包含算法和其他部门的认知差别、项目时间上的认知差别、文档和数据语义的差距、不同数据集定义之间的差距等。数据债不仅会导致数据价值无法释放,运营成本不断增加,还会影响模型的上线和迭代效率。

▲机器学习全生命周期数据债

“为了解决机器学习中的数据债问题,MorningStar应运而生。”星尘数据创始人&CEO章磊表示:“MorningStar专注于发现数据价值,加速模型迭代,为AI2.0打造以数据为中心的协作环境,消除数据债。”

MorningStar全面覆盖AI全生命周期的数据闭环,不仅能确保数据的统一管理和快速迭代,还集成了主流难例数据的发现策略,支持AI算法的高效迭代,为企业提供一个全面的数据维护工具,以满足其对数据管理和价值挖掘的需求。

二、重构数据闭环,打通AI数据全生命周期管理

在机器学习中,模型在整个流程中所占比重很少,算法工程师绝大部分时间都是花在思考业务、数据标注和数据分析上,以提高模型的泛化性。算法工程师需要耗费大量的时间和精力仔细研究数据,找出异常之处,了解数据规律,反复编排流程,比较版本差异,以提高模型的泛化性,达到最佳效果。例如:难以直观看到数据分布,效率低;数据语义缺乏记录,难复现;数据指标不完善,难挖掘;数据量巨大,检索困难......据OpenAI内部工程师透露,由于数据历史语义丢失,ChatGPT之前曾一度面临模型无法复现的问题。

针对这些痛点,星尘数据自主研发了AI数据全生命周期管理功能,强化数据版本控制、快捷数据切片、可追溯数据血缘和安全管控。MorningStar集成了八大功能,其自动化工作流能够确保数据在每个阶段都能得到妥善管理和最优化。

▲MorningStar数据闭环

● 数据可视化:支持多源、多格式、异构的结构化数据统一管理,实现全面而高效的数据收集与存储。

● 数据生命周期管理:用户可以通过平台进行数据流程的编排和调度,实现数据的自动化处理和转换,同时记录全生命周期数据信息,确保数据的可追溯性和操作的可复现性。

● 数据探索:提供超大规模AI数据管理能力,用户可以利用平台的强大搜索功能,通过多语义、跨模态等方式快速找到所需的数据,并进行可视化分析。

● 难例发现:集成主流难例发现策略,如主动学习等,为算法工程师提供数据特征分布、可视化和模型指标计算等便捷功能。

● 人类反馈:创建高质量的人类反馈通道,一键送标至自动化标注系统Rosetta。

● 数据合成:支持可控数据生成,填补现实世界中的数据空白,提高模型的鲁棒性和适应性。

● 算法指标跟踪:支持SDK,打通算法和数据的反馈闭环,可进行算法管理和指标评测,提升模型迭代的效率和可靠性。

● 数据连接:推理管理与性能监控,实现模型部署和优化的高效循环。

▲ AI数据发现、管理、协作、迭代平台MorningStar

章磊表示:“MorningStar的目标用户主要分为三类:机器学习算法工程师、业务人员、研发负责人。对于不同的用户,我们的平台可以满足各种需求,包括发现数据中的难例,跟踪指标,记录数据全生命周期等等,从而让数据价值最大化,模型更好地迭代。”

三、集合主流难例发现策略,大幅提高算法效果

MorningStar具备丰富的数据挖掘工具,兼容各类难例数据发现策略,助力发现数据的全面价值,包括细颗粒度可视化、指标计算、数据分布探索、跨模态数据检索等。通过人工监督、语义检索、特征生成和数据增强等手段,提高算法效果,助力算法迭代降本增效。

▲通过数据分布发现难例

此外,MorningStar具备强大的指标追踪与模型分析能力,能够保障模型训练过程的可追溯性与可迭代性。通过一系列数据追溯、模型调试和分析生成工具,助力实现和维护高质量、可再生产的AI模型。

▲MorningStar客户案例

一位自动驾驶算法工程师曾反馈,原本需要花费1天时间才能发现的难例,通过MorningStar平台只需要1-2小时即可,大大提高了迭代效率。

四、解锁数据潜力,实现数据价值的最大化

现阶段,算力和基座模型都可以直接购买,公域数据逐渐成为标品的情况下,私域数据成为了企业最核心的竞争力。然而,数据量并不等于数据质量,企业只有自身具备沉淀私域高质量数据的能力、即可直接用于生成超级员工的数据,才能获得市场竞争的核心优势。从这个角度上看,具有数据价值发现的数据管理平台,成为了AI2.0时代的必然趋势和全新挑战。

MorningStar致力于帮助企业建立可发现、可管理、可协作、可迭代的数据管道,将助力企业在未来竞争激烈的市场中占据领先地位。

数据价值可发现

MorningStar能够帮助企业将海量非结构化数据转为数据洞察,帮助企业作出更明智的决策,优化业务流程,提高效率和竞争力。

数据要素可管理

MorningStar支持对数据集进行全面分析,助力企业和团队负责人实现企业级数据要素管理分析,一览呈现数据资产规模、内容分布、归属权等维度的信息。

数据应用可协作

MorningStar提供了协作和共享功能,支持数据权限管理,使团队协作更安全。企业可以创建多个用户账号,控制数据访问权限,并支持实时协作编辑数据。

数据资产可迭代

MorningStar支持数据版本控制和追溯,帮助企业跟踪数据的使用过程。通过不断地迭代和改进数据资产,保持数据的活力和价值,适应不断变化的业务环境。

章磊介绍说:“在 AI2.0 时代,掌握自己的数据就是掌握自己的模型。”企业数据价值的核心在于定义、管理和迭代数据。通过可发现、可管理、可协作、可迭代的数据管道,企业的生产力可实现10倍以上的提升。

随着大模型的普及,AI已经迅速渗透到各行各业,企业拥有的数据是核心竞争优势。MorningStar不仅能够支持企业高效迭代AI数据的关键环节,避免数据债风险的积累,还能减少低价值数据成本的浪费,解决模型训练和应用效果反馈链条过长等问题。作为AI数据服务的先行者,星尘数据不仅将用MorningStar助力AI2.0发展,还将持续以数据为中心,推出新的功能和服务,以满足用户不断变化的需求,发现数据价值,加速AI创新。

关于星尘数据

星尘数据(Stardust AI)是一家以AI全生命周期数据闭环系统为基座,实现数据生产、数据管理、难例发现、模型推理等环节的前沿科技公司,成立于2017年5月,总部位于北京。星尘数据通过应用机器学习算法开发出高效的自动化标注Autolabeling工具Rosetta,为标注产业注入科技和创新基因;同时,通过星尘COSMO大模型数据金字塔解决方案切入大模型数据市场,赋能国内外大模型公司AI算法迭代和数据闭环。目前,星尘数据Rosetta平台年处理数据量数亿,自动化水平达到70%以上,数据质量达到99.9%,达到国际领先水平。MorningStar是首款专注数据价值发现的Al数据闭环产品,将助力企业在AI 2.0时代打造差异化竞争力壁垒。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈芋汐肌肉线条超亮眼!攀岩展现惊人核心力量 全红婵继续努力吧

陈芋汐肌肉线条超亮眼!攀岩展现惊人核心力量 全红婵继续努力吧

念洲
2025-12-31 08:37:06
全球经济警报拉响:2026年或将爆发“史无前例”的金融危机!

全球经济警报拉响:2026年或将爆发“史无前例”的金融危机!

复转这些年
2025-12-30 23:52:23
林俊杰晒合照官宣恋情 21岁年龄差藏满甜蜜细节

林俊杰晒合照官宣恋情 21岁年龄差藏满甜蜜细节

立真娱乐
2025-12-30 09:27:07
美女老板丢人!送车承诺说了137天 永州夺冠后反悔 退网+彻底失联

美女老板丢人!送车承诺说了137天 永州夺冠后反悔 退网+彻底失联

念洲
2025-12-31 08:36:19
李在明官宣访华,4大财团掌门人陪同,奔赴中国两地,为韩国寻根

李在明官宣访华,4大财团掌门人陪同,奔赴中国两地,为韩国寻根

临云史策
2025-12-30 22:09:21
张家界通报“小学生家长站‘护学岗’时死亡”:已成立工作专班;涉事学校家长发声:需轮班护岗,一年轮一两次,如有事可不去

张家界通报“小学生家长站‘护学岗’时死亡”:已成立工作专班;涉事学校家长发声:需轮班护岗,一年轮一两次,如有事可不去

极目新闻
2025-12-30 14:59:41
女子因钾过低不幸离世!告诫:平时宁愿少吃点肉,也要多吃这6物

女子因钾过低不幸离世!告诫:平时宁愿少吃点肉,也要多吃这6物

阿兵科普
2025-12-30 21:12:47
武汉将迎2026年第一场雪

武汉将迎2026年第一场雪

极目新闻
2025-12-30 09:08:29
姚启圣平定台湾后,发现康熙对自己有杀意,留下了三个锦囊来应对

姚启圣平定台湾后,发现康熙对自己有杀意,留下了三个锦囊来应对

饭小妹说历史
2025-12-24 09:14:17
85年邓小平南下视察,询问一旁的韩培信:江苏赶上台湾有没有把握

85年邓小平南下视察,询问一旁的韩培信:江苏赶上台湾有没有把握

历史甄有趣
2025-12-31 08:20:10
开播整整26年 《海贼王》动画第一季终于在本周完结

开播整整26年 《海贼王》动画第一季终于在本周完结

3DM游戏
2025-12-28 18:22:35
广东今日将“上新”两条高速公路

广东今日将“上新”两条高速公路

财联社
2025-12-31 03:20:05
台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

抽象派大师
2025-12-20 16:56:28
深度揭秘 | 金融“大老虎”于泽的阴阳两面和发迹往事……——一位“鸽王”总裁的坠落轨迹

深度揭秘 | 金融“大老虎”于泽的阴阳两面和发迹往事……——一位“鸽王”总裁的坠落轨迹

一分为三看人生
2025-12-16 00:06:34
赵薇飞抵上海后不再低调,晚上街头遛狗好惬意!这只爱犬价格不菲

赵薇飞抵上海后不再低调,晚上街头遛狗好惬意!这只爱犬价格不菲

娱乐团长
2025-12-30 16:06:57
交流结束,蒋万安闪电离沪,上飞机前通告全岛,台当局捅了马蜂窝

交流结束,蒋万安闪电离沪,上飞机前通告全岛,台当局捅了马蜂窝

影孖看世界
2025-12-30 00:00:47
河南格局太颠覆!东不如西、南不如北,为何除了郑州全是困境?

河南格局太颠覆!东不如西、南不如北,为何除了郑州全是困境?

行走的知识库
2025-12-30 13:29:24
美女老板删光视频拒送车!网友:她家伤天害理 因工致残只赔我4万

美女老板删光视频拒送车!网友:她家伤天害理 因工致残只赔我4万

念洲
2025-12-30 21:46:06
爆了!詹皇票数才西部第9?美媒怒斥有BUG,勒布朗一直都是票王

爆了!詹皇票数才西部第9?美媒怒斥有BUG,勒布朗一直都是票王

嘴炮体坛
2025-12-30 11:56:43
洪森儿媳发声!中方114亿援助物资到柬,王毅有何新要求?

洪森儿媳发声!中方114亿援助物资到柬,王毅有何新要求?

时时有聊
2025-12-29 22:02:43
2025-12-31 09:07:00
数据猿DataYuan incentive-icons
数据猿DataYuan
数据智能产业创新服务媒体
2529文章数 599关注度
往期回顾 全部

科技要闻

估值150亿的智元,开始批量"制造"小独角兽

头条要闻

70后飞行员翻脸将22岁情人告上法庭 让其归还700多万

头条要闻

70后飞行员翻脸将22岁情人告上法庭 让其归还700多万

体育要闻

联盟第一人倒下了!掘金还有底牌吗?

娱乐要闻

林俊杰女友被扒 父亲涉经济案卷款13亿?

财经要闻

朱光耀:美关税政策正使WTO名存实亡

汽车要闻

标配华为乾崑ADS 4 Pro 华境S明年上半年上市

态度原创

本地
时尚
房产
游戏
公开课

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

在这里,我们拍到了雪原上的一抹瑞红

房产要闻

疯了!2025海南拿地榜巨变:榜首狂砸80亿,民企火力全开!

魔坛节奏|魔超联赛S2哈漫喜迎开门红,KK电竞真人秀报名开启

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版