网易首页 > 网易号 > 正文 申请入驻

“数据突然成了富矿,我赚到了大模型创业潮的第一桶金”——访八友科技创始人梁斌

0
分享至

本报记者 李静 北京报道

在创立八友科技之前,梁斌曾在金山词霸、搜狗等多家公司工作。

2015年梁斌获得清华大学人工智能博士学位,同年10月创立八友科技。但那个时候人工智能还不够火,最早的八友科技主要是为舆情公司提供数据服务,后来逐渐给需要实时数据的电商公司提供数据需求。

由于每天给各种客户提供各类数据,八友科技每天都会留存大量的数据,“使用过的数据对于客户来说已经没有任何商业价值,所以存储这些数据的活没人愿意干。”八友科技创始人梁斌近日在接受《中国经营报》记者采访表示,“我本身是学习人工智能的,知道数据对于人工智能的价值,也长期免费为高校教师科研提供数据服务,所以这么多年存储数据的事情都是我自己做。”

2022年年底,ChatGPT的问世让国内外人工智能界大为震惊,大语言模型的浪潮开始风靡国内,各类技术企业争相打造自己的大模型,据不完全统计,目前国内已有过百家大模型企业。

要打造大模型,算力和数据量都是重要资源。由于大模型训练需要非常多的语料数据,八友科技曾经放在仓库“积灰”的数据突然之间成了香饽饽,公司也顺势跻身为大模型服务商之列。梁斌对记者透露:“近50%的国内主流大模型厂商都有从我们公司采购数据,半年多时间公司销售数据额已经接近3000万元。”

坚信“数据”的前景

随着移动互联网的发展,人们使用网络的人数规模得到扩大,使用时间也大幅增加,产生的数据规模越来越大。但移动互联网时代“数据孤岛”问题变得更严重,越来越多的数据封闭在一个个独立的App中,对于企业来说采集难度变大,数据逐渐成为独立的社会分工。

例如,某一电商企业需要获悉其他主流电商某一商品的实时售价情况,如果人工一个个搜索效率太低,如果自己开发一个实时比价软件又不太划算,就会找八友科技这类第三方数据服务商购买实时比价服务。

据介绍,目前被八友科技列入销售线索的企业大约有106家,包括主流电商、社交软件等,数据总量非常巨大,国外则主要来自Common Crawl、Laion、Quora,Github,Reddit,电子书等平台。“国内数据比较敏感,我们通过合规的方式去采集数据,如今中文压缩数据掌握了大约100TB,海外数据超过1PB。”梁斌对记者说道。

八友科技之前的客户群主要购买的是实时数据服务,因此公司沉淀了大量的数据,梁斌透露:“以前历史数据没人购买,所以很多同行没有存储这些数据。因为储存数据需要专人管理,还需要购买很多硬盘做多个备份。”

2015年八友科技创办前后,当时还没有大模型,但从事人工智能的学习让梁斌相信大规模数据储备价值很大。他原本想把储存数据的工作交给员工做,但一份不挣钱、做好了也不会有奖励的工作,很难有员工能坚持做好。因为一组数据,如果缺了一天的数据,可能就不完整了,没法为科研服务。所以储存、备份数据的工作一直是梁斌自己亲力亲为。

国内开始大模型竞赛开始后,八友科技是第一波获益的企业之一,很多客户找到梁斌购买数据进行模型训练。“大模型客户购买我们的数据就是用硬盘拷贝数据,对我们来说成本很低,原来堆在仓库不值钱的东西一下子就值钱了。”梁斌透露,公司目前已经有50多个大模型客户,客单价约在50万至60万元,目前公司大模型数据销售收入已接近3000万元。

未来也要做模型

对于一个大模型来说,需要多少的数据量?梁斌介绍,目前他了解到的情况是,大模型参数大概分10B(billion),100B这个参数量级,前者解决一些文史哲数据,或者解决一些理工类数据解决复杂问题。参数的提升意味着数据需要跟着提升,否则就容易过度拟合,从算力提升的趋势看,数据肯定是越多越好。

但需要注意的是,不能只是数据量的提升,数据质量也要跟着提高,否则数据多反而会影响训练效果,低层次的数据反复训练,大模型其实也达不到高水平智能。

“临界点划分目前我知道没有统一标准,目前1TB token都是小模型,玩具型的,随着社会发展需要,10TB甚至100TB token都不算大。”梁斌表示,不同行业数字化水平的不一样,炼就行业大模型需要的数据量也不一样。比如机械行业的数据都在书籍、论文、课本上;消费行业能拿到的线上数据基本来自知乎、小红书上的一些评价型数据,数据量非常小。

梁斌表示,第一波购买八友科技数据的是互联网公司;第二波购买是非互联网的上市公司;第三波是各行各业的2B类公司。

如今除了为大模型提供过往的数据服务外,八友科技还在为他们提供实时数据服务,大模型厂商需要的数据包括国内外的电子书、论文等,还包括图、视频等类型。

“以前一天抓取的数据量加在一起接近1TB,现在一天抓取的数据量已经涨到了十几个TB。”梁斌告诉记者,现在大模型对于实时数据的需求已经越来越强,因为用户在大模型的对话框中不止会提问过往的信息,还有很多实时信息的提问,例如“今天天气怎样?”“推荐一个正在上映的电影,帮忙指定一个旅游计划,住宿酒店等等。”

如果一个大语言模型回答不了实时的问题,意味着它接入的实时数据还不多。未来大模型的实时回答水平,也是衡量大模型能力的一个重要维度,也有助于争抢其他实时应用的接口,有助于提高大模型工具的应用打开率,梁斌也有意识将八友科技的业务重点放在实时数据服务上。“不能说数据行业的天花板很高,但大模型以后,数据行业的天花板已经比以前高出很多,整体行业对数据的出价能力在大幅度提高,至少数据市场容量提高了5倍。”

但历史数据的销售有天花板,客户买完一遍之后不会复购重复数据;加上随着市场的发展,数据集的生意会越来越便宜;另外梁斌判断未来巨头可能也会切入这个市场。

所以梁斌和团队也在思考,如何和大模型结合,打造更具想象力的业务?

“我们希望在垂直行业领域做底座大模型,然后用企业的私有数据训练大模型,再为行业经营服务。”梁斌认为,八友科技是一家有技术但是缺乏场景的公司,可以为有场景的公司提供大模型服务。例如,Llama 2开源模型回答不了法律类的很多问题,八友科技将2亿多法律类的高质量数据放在模型上进行再训练,就能形成一个新的法律类的垂直模型,这个新的模型就属于八友科技,可以提供给法律场景的客户。“最后我们就不是一家卖数据的公司,而是把数据作为燃料,炼就出能服务千行百业的新模型。”

顺福资本创始人、行行AI董事长李明顺也指出,在下一阶段的人工智能发展中,强应用和多模型将成为总趋势。

不过,目前数据集服务已经上升为八友科技的主要业务,销售额已经占到公司总收入的三分之二以上。考虑到数据销售业务还有上升空间,梁斌也担心现有的客户群将八友科技作为竞品,所以在做大模型时他有一个心理预期,即只选择非常小的方向,而不和目前主流客户产生业务冲突。

(编辑:李正豪 校对:翟军)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
真的要变天了…

真的要变天了…

子说一点
2026-04-03 18:15:23
8号楼被占,越南总理来访无法安排,总理怒:让她搬走,不知轻重

8号楼被占,越南总理来访无法安排,总理怒:让她搬走,不知轻重

窥史
2026-04-04 10:00:48
父子传承!李泽钜戴罕有AP规范指针表

父子传承!李泽钜戴罕有AP规范指针表

孤芳自赏的小李
2026-03-30 10:38:07
东北知名设计院脱衣团建,真骚气!

东北知名设计院脱衣团建,真骚气!

黯泉
2026-04-04 22:43:42
太尴尬了!女留学生在相亲市场遭嫌弃,网传苏州已是“有价无市”

太尴尬了!女留学生在相亲市场遭嫌弃,网传苏州已是“有价无市”

火山詩话
2026-04-04 06:41:25
张兰彻底变了!绝口不提亲家半个字,马筱梅叽叽歪歪走上大S老路

张兰彻底变了!绝口不提亲家半个字,马筱梅叽叽歪歪走上大S老路

生性洒脱
2026-04-02 08:47:20
美国就伊朗战事批评欧洲国家,意大利总理表态:这一次,我们不同意

美国就伊朗战事批评欧洲国家,意大利总理表态:这一次,我们不同意

环球网资讯
2026-04-04 10:06:46
张雪评哪吒汽车“5亿Logo”:张雪机车Logo是白送的

张雪评哪吒汽车“5亿Logo”:张雪机车Logo是白送的

三言科技
2026-04-04 17:35:26
惨败宁波队30分,山东男篮人人都是于德豪,想起了范志毅的名言

惨败宁波队30分,山东男篮人人都是于德豪,想起了范志毅的名言

姜大叔侃球
2026-04-04 22:39:48
小天赐,终为父母当年的“冲动”买了单,年仅6岁活得不像个小孩

小天赐,终为父母当年的“冲动”买了单,年仅6岁活得不像个小孩

奇怪的鲨鱼们
2026-03-02 13:11:54
狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

青眼财经
2026-03-17 16:03:09
健身后欲望很大是怎么回事?

健身后欲望很大是怎么回事?

性学研究僧
2026-04-02 20:11:16
张凌赫官媒风波后公开露面,疑似强忍眼泪状态低迷,粉丝直呼心疼

张凌赫官媒风波后公开露面,疑似强忍眼泪状态低迷,粉丝直呼心疼

FancyMusic
2026-04-04 23:33:18
安徽女童失踪后续,作案几分钟,拿手机却无法求救,3大疑点曝光

安徽女童失踪后续,作案几分钟,拿手机却无法求救,3大疑点曝光

天天热点见闻
2026-04-04 04:55:18
太难了!东莞20年工厂停产结业,称连年亏损、会积极解决工资发放

太难了!东莞20年工厂停产结业,称连年亏损、会积极解决工资发放

火山詩话
2026-04-04 06:22:53
宋宁峰出轨对象自曝身份,发文揭男方设局欺骗,怒斥张婉婷双面人

宋宁峰出轨对象自曝身份,发文揭男方设局欺骗,怒斥张婉婷双面人

光辉记
2026-04-04 02:28:11
新能源汽车销量同比降21%,为何电车卖不动了?三个原因制约销量

新能源汽车销量同比降21%,为何电车卖不动了?三个原因制约销量

王五说说看
2026-04-04 12:21:39
特朗普:如失踪的美国飞行员受到伤害,他“无法评论”会发生什么

特朗普:如失踪的美国飞行员受到伤害,他“无法评论”会发生什么

Ck的蜜糖
2026-04-04 14:17:07
男子意外收到7年前捐赠退款:受助人渡过难关后,返还7000人近27万元善款

男子意外收到7年前捐赠退款:受助人渡过难关后,返还7000人近27万元善款

上游新闻
2026-04-03 09:54:07
以军全线崩溃!眼看要被打垮,内塔安排“后事”,必须拉美国下水

以军全线崩溃!眼看要被打垮,内塔安排“后事”,必须拉美国下水

古史青云啊
2026-04-04 11:55:23
2026-04-05 00:23:00
中国经营报 incentive-icons
中国经营报
中国经营报微博由《中国经营报》社有限公司运营,与中国企业同步成长
22933文章数 30220关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

特朗普发文:距离一切灾难降临在伊朗头上仅剩48小时

头条要闻

特朗普发文:距离一切灾难降临在伊朗头上仅剩48小时

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

本地
健康
亲子
数码
家居

本地新闻

跟着歌声游安徽,听古村回响

干细胞抗衰4大误区,90%的人都中招

亲子要闻

孕妇买200元水果被丈夫骂后续:双标到极致,家境曝光,网友劝离

数码要闻

今年新款AirPods Pro、Apple TV值得等吗?升级方向曝光

家居要闻

温馨多元 爱的具象化

无障碍浏览 进入关怀版