网易首页 > 网易号 > 正文 申请入驻

19岁名校退学投身AI创业,融资1.1亿用赏金猎人模式革新AI数据

0
分享至

“我最近刚满 19 岁,从加拿大滑铁卢大学计算机学院退学(创业),致力于创建最高质量的编码数据引擎,为最强大的大模型提供支持。”不久前,出生于加拿大的亚裔女孩 Serena Ge 在自己的个人网站上写下这段话。


(来源:https://serenage.super.site/)

2025 年 10 月 9 日,她像许多成熟的“大人创业者”一样在领英上官宣了融资一个亿的动态,并一一地手动艾特投资人致以感谢。


(来源:https://www.linkedin.com/feed/update/urn:li:activit)

据了解,她创办了一家名为 Datacurve 的 AI 数据公司,并由她担任 CEO。为了更好地创业,她邀请到同为亚裔的同校校友 Charley Lee 担任联合创始人。该公司此次融资了 1500 万美元(折合 1.1 亿元人民币),力图挑战 Alexander Wang 成为下一个 Scale AI。


(来源:Chemistry VC)

此次融资由 Chemistry VC 的合伙人马克·古德曼(Mark Goldberg)领投,Coinbase 的前 CTO 巴拉吉·斯里尼瓦桑(Balaji Srinivasan)、DeepMind、Vercel、Anthropic 和 OpenAI 的员工也参与了投资。值得注意的是,最近美国越来越流行这样一个趋势,那就是科技巨头的高管们开始以个人名义投资新一代的 95 后和 00 后创业者。

说回 Datacurve 的两位创始人。Serena Ge 曾于 2023 年在 Cohere 公司实习,Charley Lee 曾于 2023 年在谷歌加拿大分公司实习。


(来源:https://serenage.super.site/)

相比另一位创始人,Serena Ge 的经历稍微丰富一些。在高中时代,她非常热衷于攀岩,甚至觉得不能攀岩之时的那种煎熬就像“毒瘾犯了”一样,为此她在家里自制了一面攀岩墙。而为了让个性化攀岩训练更加触手可及,她在高中时研发了一款攀岩 App,这帮助她获得了参加加拿大青少年抱石锦标赛的资格。凭借自己的编程能力,她还在新冠疫情期间组建了一支高中生团队,并和他们一起为疫情隔离区的青少年打造了一款网络应用程序,期间得到了加拿大道明银行的支持。她还曾在加拿大皇家银行担任实习软件工程师,期间构建了一个内部漏洞管理仪表板,处理了超过 90k+ 个漏洞条目。

作为创始人和 CEO,Serena Ge 的创业之旅并非心血来潮或赶时髦。在 Cohere 实习期间,她曾参与十亿参数 SOTA 模型的训练和步骤,期间研究了如何通过监督微调和合成数据来提高模型推理能力,并通过使用 GPU 并行处理 100 万个图像提示,为 Cohere 构建了数据安全过滤器。

她说这次创业始于自己在 Cohere 训练大模型的实习经历,这份经历让她意识到数据质量的重要性,并让她开始觉得大模型之所以存在瓶颈就是因为缺乏丰富的、精心挑选的高质量培训数据。在 Cohere 实习期间,她发现当时人们很难获得专家级的编码数据,因为数据标注在此之前一直都是一个剥削性的低技能工作,往往由来自一些欠发达地区的零工完成。之前,AI 数据公司很难招募到高素质的软件工程师来担任“注释员”。

而她的创业使命便是为了破解这一数据难题,她所创办的 Datacurve 公司通过游戏化平台来收集高质量数据,招募数百名顶尖的外部软件工程师来解决编码难题。据了解,Datacurve 从 Y Combinator 的一个创业项目孵化而来,主要业务为大模型提供高质量数据。

该公司使用类似于“赏金猎人”的机制吸引有经验的软件工程师去打造那些难度较高的数据集,而这些软件工程师会从该 Datacurve 获得报酬,Serena Ge 告诉媒体,截至目前其已经向这些外部软件工程师发放超过 100 万的报酬。

不过,她表示吸引这些软件工程师兼职参与数据集打造的主要原因并不是能够收到这些报酬,因为他们本身所从事的软件开发是高价值服务,相比之下参与数据集打造所带来的报酬甚至远远低于传统工作带来的报酬。而真正吸引这些软件工程师参与打造数据集的动力,在于能给他们带来积极的体验。

Datacurve 并没有将打造数据集当做简单的数据标签操作工作,而是把它当成一款消费产品。随着大模型对于训练后数据需求的日益增加,当前的 AI 产品需要依赖复杂的强化学习环境,这时无法再使用以前的简单数据集,而复杂的强化学习环境需要通过特定且具有战略性的数据收集来构建。正因此,Datacurve 目前正在创建一个用于训练后数据的基础设施。

据了解,Datacurve 能够提供的数据类型是高质量的训练后数据和评估数据。首先,这些数据是能够用于各种编码任务的监督微调数据;其次,这些数据能够为代码评估和验证任务设计强化学习环境;再次,这些数据能够用于循环强化学习与人类反馈中的自定义模型端点。


图 | Datacurve 公司官网截图(来源:https://datacurve.ai/)

在数据用途上:

其一,这些数据能被用于解决大模型训练中的一些算法挑战,这些数据基于大量的原始文档标准化与对齐问题以及 Leetcode 风格的问题而来,能被用于核心算法编码技能训练或评估;

其二,这些数据能被用于代理工作流的跟踪,基于 Datacurve 的自定义集成开发环境捕获的、由软件开发工程师遥测的完整轨迹,比如通过代码执行实现编辑循环、文件导航、执行轨迹和口头想法以及书面想法,客户可以实现软件代理的训练;

其三,这些数据能被用于推理与调试,参与打造数据的软件工程师们基于日常工作中所遇到的问题,贡献出了一些推理密集型任务,这些任务可被用于模拟一些模型难题场景;

其四,可用于私人代码库任务台,即能够在企业应用程序、游戏、系统软件等私有代码库上设计自定义任务,从而能在真实的专有存储库上进行模型训练或评估;

其五,这些数据能被用于多模式界面,即通过游戏、用户体验和用户界面任务教导模型,将静态代码与动态行为联系起来,进而使用提示词、屏幕截图或录音,来训练 AI 对于交互式软件的外观、感觉和功能的跨模式理解。

而在为客户创建大规模的高质量数据,需要经历以下四个步骤:评估、数据创建、质量检查和交付。

在评估这一步骤中,Datacurve 会先识别客户的数据需求。无论客户是带着明确的需求来,亦或是希望和 Datacurve 共同制定策略,Datacurve 都能使用基准测试工具帮助客户了解模型难点和模型弱点,并能针对模型弱点找到对其进行弥补的数据类型、边缘情况和注释格式。

在数据创建这一步骤中,Datacurve 会在其游戏化平台上和外部软件工程师启动数据创建,这一游戏化平台的好处在于可以提高真人在数据生成和数据标记过程中的速度和精准度。Datacurve 在官网写道,这些外部软件工程师来自业内一些顶尖公司和初创公司,他们是在真正地解决 AI 问题,而不仅仅是完成任务。

在质量检查这一步骤中,Datacurve 并不是依赖于单一的检查,而是让每个数据集都经过自动化的一致性检查,并会进行异常检测和人工评估循环,这种混合式的方法可以确保边缘情况的标记以及错误的纠正,无论数据的复杂程度如何,都能确保在交付时符合处于严格的质量阈值之中。

在交付这一步骤中,Datacurve 会使用其“可视化数据集查看器”来检查将要交付的数据,以便进一步地检查这些数据的基准分数和质量指标。对于客户来说,他们将能了解这些数据所能构建的内容、性能表现以及在开发流程中的位置。同时,Datacurve 可以提供不限次数的修改。

当前,AI 发展日渐成熟,对于高质量数据的争夺也成为了业内激战的方向之一,在这一领域除了众所周知的 Scale AI 公司之外,还涌现出了 Surge AI 等公司。随着 Scale AI 的创始人 Alexander Wang 开始将精力放在 Meta 公司的 AI 业务上,让许多投资人看到了 AI 数据这一方向的发展机会,并尤其愿意为那些能够提供优质训练数据收集策略的公司投入资金。值得注意的是,Scale AI 和 SurgeAI 的创始人都是亚裔,而此次 Datacurve 的两位创始人也都是亚裔,这再一次展示了亚裔人士在北美科技圈的力量。

与此同时,Serena Ge 很爱思考甚至对于哲学有着一定热爱。她在个人网站写了不少随笔。在一篇随笔中,她质疑了硅谷流行的“Fake it till you make it”做法,她写道:“我认识一些年轻的创始人,他们习惯于夸大自己的数据、合作伙伴、资金、发展等。我理解管理信誉和机会很重要,但当我们陷入这种恶性循环时,我们必须扪心自问,我们在做什么?这是我们想要实现目标的方式吗?不要忘了你的‘为什么’。”在北美,也许此次 1 亿多人民币的融资并不算多,但这名 00 后女生已经迈出了勇敢且务实的创业步伐。

参考资料:

公司官网https://datacurve.ai/

Datacurve创始人Serena Ge的相关主页https://www.linkedin.com/in/serena-ge-4583731b4/和https://www.instagram.com/serenaa.ge/和https://serenage.super.site/

Datacurve联合创始人Charley Lee的领英主页https://www.linkedin.com/in/charley-lee/

其他报道https://techcrunch.com/2025/10/09/datacurve-raises-15-million-to-take-on-scaleai/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
加拿大前总理特鲁多:和妻子恩爱18年堪比童话,离婚后牵手水果姐

加拿大前总理特鲁多:和妻子恩爱18年堪比童话,离婚后牵手水果姐

照见古今
2025-10-31 17:50:07
对越反击战期间,越南女兵的诡计有多离谱?敢将自己脱得赤条条的

对越反击战期间,越南女兵的诡计有多离谱?敢将自己脱得赤条条的

朝夕说史
2025-11-02 07:05:03
割了双眼皮就判若两人的7位明星,这“动眼”动得也太成功了

割了双眼皮就判若两人的7位明星,这“动眼”动得也太成功了

上官晚安
2025-10-27 05:58:35
千万别被广东人给骗了,他们都是一群“表里不一的人”

千万别被广东人给骗了,他们都是一群“表里不一的人”

起喜电影
2025-10-27 08:24:36
3连胜,湖人击败热火,赛后还有4个好消息,詹姆斯可以放权了

3连胜,湖人击败热火,赛后还有4个好消息,詹姆斯可以放权了

邹维体育
2025-11-03 13:20:00
王家卫要搞金靖:王传君“我不喜欢”的含金量还在上升!

王家卫要搞金靖:王传君“我不喜欢”的含金量还在上升!

八卦疯叔
2025-11-01 10:11:28
毛主席在博物馆内吸烟,陈毅提醒说:这里禁止吸烟,主席回四个字

毛主席在博物馆内吸烟,陈毅提醒说:这里禁止吸烟,主席回四个字

寻途
2025-11-03 10:16:01
太惊喜!16岁“中国C罗”留洋西班牙爆发:2场狂轰4球!

太惊喜!16岁“中国C罗”留洋西班牙爆发:2场狂轰4球!

邱泽云
2025-11-02 13:43:17
边境谈判稳住中国后,趁巴基斯坦打阿富汗,印度或报0:7之仇

边境谈判稳住中国后,趁巴基斯坦打阿富汗,印度或报0:7之仇

第一军情
2025-11-03 11:30:02
2亿乔治如何自处?800万乌布雷场均17+6 赛后更直言轻伤不下火线

2亿乔治如何自处?800万乌布雷场均17+6 赛后更直言轻伤不下火线

颜小白的篮球梦
2025-11-03 11:57:59
“网友的弱智发言能有多癫狂?” 哈哈哈哈哈哈哈哈笑得腹肌痛!!!

“网友的弱智发言能有多癫狂?” 哈哈哈哈哈哈哈哈笑得腹肌痛!!!

不二表姐
2025-10-27 23:48:33
国民党主席位置坐稳,郑丽文摊牌了:两岸若不能回归,其他都免谈

国民党主席位置坐稳,郑丽文摊牌了:两岸若不能回归,其他都免谈

娱乐小可爱蛙
2025-11-03 11:32:04
特朗普刚走,安瓦尔公开表态:如果真怕美国,就不会和中国签约了

特朗普刚走,安瓦尔公开表态:如果真怕美国,就不会和中国签约了

boss外传
2025-11-02 13:30:03
明星也开始失业了?众多明星超一年无戏可拍,中年明星更是堪忧

明星也开始失业了?众多明星超一年无戏可拍,中年明星更是堪忧

银河史记
2025-10-10 15:08:13
东体:亚泰降级是多方共振所致,屡次最后时刻痛失好局运气欠佳

东体:亚泰降级是多方共振所致,屡次最后时刻痛失好局运气欠佳

画夕
2025-11-03 13:55:05
大陆开始清算,12名“台独”被锁定!赖清德急了,赶紧喊话国民党

大陆开始清算,12名“台独”被锁定!赖清德急了,赶紧喊话国民党

起喜电影
2025-11-03 12:50:46
三十万魔咒:中产的破产加速器

三十万魔咒:中产的破产加速器

大道微言
2025-10-31 10:35:47
25岁男子在四川景区身亡!遇难全过程曝光,网友一边倒:死不足惜

25岁男子在四川景区身亡!遇难全过程曝光,网友一边倒:死不足惜

一只番茄鱼
2025-10-30 21:25:33
中国首善李春平离世,13年软饭换268亿遗产,大39岁女星身份曝光

中国首善李春平离世,13年软饭换268亿遗产,大39岁女星身份曝光

壹月情感
2025-10-31 15:08:21
清华大学研究报告:个人养老金没成……

清华大学研究报告:个人养老金没成……

家传编辑部
2025-11-03 12:16:38
2025-11-03 15:28:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15809文章数 514258关注度
往期回顾 全部

财经要闻

马斯克:未来5-6年传统手机与App将消失

头条要闻

美媒:中国正迅速充实石油储备 或与俄油设施遭袭有关

头条要闻

美媒:中国正迅速充实石油储备 或与俄油设施遭袭有关

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

录音彻底揭露知名导演王家卫的体面

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

教育
健康
房产
游戏
公开课

教育要闻

AI时代应该培训小朋友什么能力

核磁VS肌骨超声,谁更胜一筹?

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

《羊蹄山》女主演员自称公主 玩家:你管这叫可爱?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版