网易首页 > 网易号 > 正文 申请入驻

矩阵分解就能击败深度学习!MIT发布时序数据库tspDB:用SQL做机器学习

0
分享至

新智元报道

编辑:LRS

【新智元导读】时间序列预测问题通常比普通机器学习更棘手,不仅需要维持一个增量数据库,还需要实时预测的性能。最近MIT的研究人员发布了一个可以通过SQL创建机器学习模型的数据库,不用再发愁时序数据管理了!

人类从历史中学到的唯一教训,就是人类无法从历史中学到任何教训。

「但机器可以学到。」 ——沃兹基硕德

无论是预测明天的天气,预测未来的股票价格,识别合适的机会,还是估计病人的患病风险,都可能对时间序列数据进行解释,数据的收集则是在一段时间内对观察结果的记录。

但使用时间序列数据进行预测通常需要多个数据预处理的步骤,并且需要用到复杂的机器学习算法,对于非专业人士来说,了解这些算法的原理和使用场景是一件不容易的事。

最近,来自麻省理工学院的研究人员开发了一个强大的系统工具tspDB方便用户处理时序数据,能够在现有的时间序列数据库之上直接整合预测功能。系统包含了很多复杂的模型,即使非专家也能在几秒钟之内完成一次预测。在执行预测未来值和填补缺失数据点这两项任务时,新系统比最先进的深度学习方法更准确、更高效。论文发表在ACM SIGMETRICS会议上。

论文地址:http://proceedings.mlr.press/v133/agarwal21a/agarwal21a.pdf

tspDB性能提升的主要原因是它采用了一种新颖的时间序列预测算法,这种算法在对多变量时间序列数据进行预测时特别有效。多变量指的是数据有一个以上的时间依赖变量,例如在天气数据库中,温度、露点和云量的当前值都依赖于其各自的过去值。

该算法还可以估计多变量时间序列的波动性,以便为用户提供模型预测准确度的confidence

作者表示,即使时间序列数据变得越来越复杂,这个算法也能有效地捕捉到时间序列结构。

文章作者Anish Agarwal博士毕业于麻省理工,主要研究兴趣包括因果推理和机器学习的相互作用;高维统计;数据经济学。2022年1月作为博士后研究员加入加州大学伯克利分校的西蒙斯研究所。

处理时序数据的正确姿势

目前机器学习工作流程的一个主要瓶颈是数据处理太耗费时间,并且中间流程也很容易出错。开发人员需要从数据存储或数据库中先获取数据,然后应用机器学习算法进行训练和预测,这个过程中需要大量的人工来做数据处理。

现在这种情况越来越严重了,因为机器学习需要吞进去的数据越来越多,更不好管理了。尤其是在实时预测领域,特别是在各种时间序列的应用场景中,比如金融和实时控制更需要好好管理数据。

要是能直接在数据库上进行预测,不就省了取数据这步了吗?

但这种在数据库上的预测集成系统不仅需要提供一个直观的预测查询界面,防止重复数据工程;同时还需要确保准确率可以达到sota,支持增量的模型更新,比较短的训练时间和较低的预测延迟。

tspDB就是直接与PostgreSQL集成,内部原生支持多个机器学习算法,例如广义线性模型、随机森林、神经网络,在训练模型的时候也可以在数据库里调节超参数。

和其他数据库不同的是,tspDB的一个重要出发点「终端用户」如何与系统对接来获得预测值。

为了让机器学习的接口更通用,tspDB采用了一种不同的方法:把机器学习模型从用户中抽象出来,争取只用一个单一的界面来响应标准的数据库查询和预测查询,也就是都用SQL来查询。

在tspDB中,预测性查询的形式与标准SELECT查询相同。预测性查询和普通查询的区别就是一个是模型预测,另一个是检索。

比如数据库里只有100条数据,想预测第101天的值,就用PREDICT关键词,WHERE day = 101即可;而WHERE day = 10时就会被解析第10天的股票价格的估算值/去噪值,所以PREDICT还可以用于预测缺失值。

为了实现PREDICT查询,用户需要利用现有的多元时间序列数据先建立一个预测模型。CREATE的关键字可以用于在tspDB中建立预测模型,输入的特征也可以是多个数据列。

tspDB与PostgreSQL DB相比,在标准的多变量时间序列数据集上,在tspDB中创建预测模型所需的时间是PostgreSQL批量插入时间的0.58倍-1.52倍。在查询延迟方面,在tspDB中回答一个PREDICT查询所需的时间是回答一个标准的PREDICT查询的1.6到2.8倍,与回答一个标准的SELECT查询相比,要高出1.6到2.8倍。

从绝对值来看,这相当于回答一个SELECT查询需要1.32毫秒,而回答一个预测查询需要3.5毫秒,回答一个归纳/预测查询需要3.36/3.45毫秒。

也就是说,tspDB的计算性能接近于从PostgreSQL插入和读取数据所需的时间,基本上可以用于实时预测系统。

因为tspDB还只是一个概念的验证,相当于是PostgreSQL的一个扩展,用户可以对单列或多列创建预测查询;在时间序列关系上创建单列或多列的预测查询,并提供预测区间的估计值。最重要的是,代码是开源的。

代码链接:https://github.com/AbdullahO/tspdb

文章中还提出一个基于时间序列算法的矩阵分解算法,通过将多变量时序数据Page Matrix堆叠起来后,使用SVD算法进行分解,在子矩阵中移除最后一列作为预测值,使用线性回归对目标值进行预测即可。

对于不断涌入的时序数据,算法还支持增量的模型更新。

为了对算法进行性能测试,研究人员选择了三个现实世界的数据集,包括电力(Electricity)、交通(Traffic)和金融(Finance)。评价指标采用Normalized Root Mean Square Error (NRMSE)作为准确率。为了量化不同方法的统计准确性,研究人员还加了一个标准Borda Count (WBC)的变体作为评价指标,0.5的值意味着算法的表现和其他算法相比就是平均水平,1代表相比其他算法具有绝对优势,0代表绝对劣势。

将tspDB的预测性能与学术界和工业界最流行的时间序列库如LSTM、DeepAR、TRMF和Prophet进行比较后可以发现,tspDB的表现与深度学习算法(DeepAR和LSTM)相比都相差不多,并且超过了TRMF和Prophet。

当改变缺失值的比例和添加的噪声时,tspDB在50%的实验中是表现最好的方法,在80%的实验中至少是表现第二好的。使用WBC和NRMSE这两个指标,tspDB在电力、金融数据集中的表现优于其他所有算法,而在交通数据集中的表现可与DeepAR和LSTM匹敌。

在方差估计上,因为我们无法获得现实世界数据中真正的基础时变方差,所以研究人员将分析限制在合成数据上。合成数据集II包括了九组多变量时间序列,每组都有不同的时间序列动态加性组合和不同的噪声观测模型(高斯、泊松、伯努利噪声)。

实验结果中可以发现,除了一个实验之外,tspDB在所有的实验中都比TRMF和DeepAR(用于预测)具有更高的性能(>98%)。

总的来说,这些实验显示了tspDB的稳健性,即在估计时间序列的均值和方差时,可以消除部分噪声的影响。

参考资料:

https://news.mit.edu/2022/tensor-predicting-future-0328

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
17分钟进2球!U23国足首夺亚军后首秀:0-2到2-2,买买提江掏2红

17分钟进2球!U23国足首夺亚军后首秀:0-2到2-2,买买提江掏2红

侃球熊弟
2026-03-25 20:17:18
原油短线拉升,现货黄金短线走低

原油短线拉升,现货黄金短线走低

每日经济新闻
2026-03-25 20:38:08
出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

霹雳炮
2026-03-14 22:49:47
U23国足让二追二!无缘开门红,4战泰国不败,延续两大纪录

U23国足让二追二!无缘开门红,4战泰国不败,延续两大纪录

奥拜尔
2026-03-25 21:39:37
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

FM93浙江交通之声
2025-10-28 00:01:43
轻断食再次封神!复旦大学研究证实,让肝脏脂肪在5个月内少20.5%

轻断食再次封神!复旦大学研究证实,让肝脏脂肪在5个月内少20.5%

健康之光
2026-03-24 08:46:34
CBA战报:上海112-80轻取山西取CBA11连胜,李弘权27+2

CBA战报:上海112-80轻取山西取CBA11连胜,李弘权27+2

懂球帝
2026-03-25 21:33:09
重磅!詹姆斯正式转型!NBA历史最离谱的角色球员...

重磅!詹姆斯正式转型!NBA历史最离谱的角色球员...

林子说事
2026-03-25 11:49:04
以军开始追杀了 向以色列城市发射导弹的伊朗小组被打死

以军开始追杀了 向以色列城市发射导弹的伊朗小组被打死

桂系007
2026-03-25 02:50:41
豪门梦破碎后,她居然还能爆红?

豪门梦破碎后,她居然还能爆红?

Yuki女人故事
2026-03-24 17:44:06
张雪峰去世,曾言:“如果有一天我死了,各大平台会有一个热搜,希望能成为一代人的回忆”

张雪峰去世,曾言:“如果有一天我死了,各大平台会有一个热搜,希望能成为一代人的回忆”

神奇故事
2026-03-24 22:38:02
默森:被击溃时枪手几乎没人愿拿球;不敢想巴萨能对其做什么

默森:被击溃时枪手几乎没人愿拿球;不敢想巴萨能对其做什么

懂球帝
2026-03-25 03:45:04
2人被查!山东纪委监委发布通报

2人被查!山东纪委监委发布通报

齐鲁壹点
2026-03-25 18:32:34
CBA综述:山东双杀新疆+上海三杀山西,广东、北京皆主场告捷

CBA综述:山东双杀新疆+上海三杀山西,广东、北京皆主场告捷

烧体坛
2026-03-25 21:53:01
俄国家杜马国防委员会副主席尤里·什维特金因不明原因去世

俄国家杜马国防委员会副主席尤里·什维特金因不明原因去世

山河路口
2026-03-24 17:13:44
特朗普宣布:对伊朗战争已胜利,收到伊朗“价值连城的厚礼,与石油天然气有关”!美国油价1个月暴涨35%,特朗普支持率大跌至36%创新低

特朗普宣布:对伊朗战争已胜利,收到伊朗“价值连城的厚礼,与石油天然气有关”!美国油价1个月暴涨35%,特朗普支持率大跌至36%创新低

每日经济新闻
2026-03-25 12:22:42
余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

快科技
2026-03-24 15:22:21
陈慧琳”太丰满了,穿抹胸都兜不住好身材,我感慨自律女人真美

陈慧琳”太丰满了,穿抹胸都兜不住好身材,我感慨自律女人真美

章眽八卦
2026-03-08 15:36:53
问界M6预售24小时订单突破6万,26.98万起剑指Model Y

问界M6预售24小时订单突破6万,26.98万起剑指Model Y

泡泡网
2026-03-24 17:26:07
BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

星辰大海路上的种花家
2026-03-25 13:08:50
2026-03-25 22:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14813文章数 66720关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

成都宝妈1年买5套"老破小"实现以租养贷:首付100多万

头条要闻

成都宝妈1年买5套"老破小"实现以租养贷:首付100多万

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

本地
游戏
数码
公开课
军事航空

本地新闻

来永泰同安 赴一场春天的约会

提前玩《GTA6》机会来了 R星招聘QA全职测试

数码要闻

经典风味别样演绎,华擎Z890 Taichi太极十周年纪念版主板亮相

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗重申非交战国家船只可安全通过霍尔木兹海峡

无障碍浏览 进入关怀版