网易首页 > 网易科技 > 科技频道 > 正文

亚马逊AWS NoSQL工程团队领导KhawajaShams演讲

0
分享至

主持人:

InfoQ非常荣幸能够跟各位一起在工程师的道路上每日精进。

在演讲开始之前,我想介绍一下上午的三场分享。我们邀请到的三位国际讲师,包括来自亚马逊的研发主管Khawaja Shams,他原来是在NASA工作的。第二位是英国金融时报实验室的Andrew Betts。最后一位是来自霍华德·休斯医学研究所的Jeremy Freeman。

接下来就有请这些在前沿领域的专家跟我们分享他们的观点。首先有请来自亚马逊的Khawaja Shams。

Khawaja Shams:

这是我第六次参加QCon大会,我非常荣幸能够回到北京。首先我希望给大家介绍一个不同的话题。我希望给大家提供一些令人兴奋的消息,让大家比较有激情。在此大家看到的是火星。大家看到火箭能够跨越很长的距离,能够降落到火星表面。当它进入到太空的时候,大家知道,它的温度实在是太高了,温度能够高达6万度。之后有了一个降落伞,使得它的降落速度变慢,它下降了。在旅行了上百万公里之后,之后在火星表面降落。

这个设施的重量高达1吨,它的是由核能进行电力驱动的。这个项目拥有非常先进的设备,能够在火星土壤表面提取样本进行检测分析。这是去年在火星进行的项目。在过去十年,我一直在这个领域工作,我是在NASA的实验室就特定的火箭进行研究,它能够成功地降落在火星的表面。NASA也希望能够和全球通过最新的计算机环境跟全球分享他们在火星的发现。我们在这些方面拥有非常先进的技术。每秒钟可以超过20,数据流可以快速通过,而且可以扩展。所有这一切都是通过DNS能力帮助我们进行平衡,而且我们可以在设计中心进行整合。每秒钟可以达到150,在全球进行数据交流。这不仅是进行公开的,另外一个原因是他们进行特定任务的程序,也就是说从火星上收集到了数据之后,可以把这些数据导入到NASA总部,他们可以进行总体的数据,进行数据的整合。

它看起来并没有实际那么大,实时处理的数据量非常大。在美国,现在最流行的就是进行自拍,就像大家拿手机进行自拍。机器人也可以进行自拍,它把每一部分的自拍图像传给我们,我们进行整合。为什么NASA要收集这些信息呢?因为我们有一个全球的数据库,可以从美国到澳大利亚,在中国、新加坡、日本、南美,很多初创企业认为这些信息是非常有益的,可以通过这些信息找到客户。

有了这个简短的介绍,希望大家可以深入了解NOSQL的内容。在亚马逊,可以使用SQL,也可以提供AWS的服务。

第一部分的内容必须回到2000年,也就是讲一个故事。在2000年,在1万公里的西雅图,亚马逊公司是初创企业,最开始是做零售的。我们有很多相关的业务,有成千上万个不同的。首先我们可以通过它进入到SQL,它是非常强有力的数据库,能够让我们进行非常有意思的工作。查询起来很容易,学习起来很容易。我们认为如果你想使用所有的功能,一定要非常小心。如果不小心,你就会使自己受伤。这就是我们当时面临的类似情况。我们有了一个开发商,有了一个非常昂贵的查询功能,就使整个系统都垮了。如果有很多这样的功能同时进行,可能会降低用户体验。

是的,我们要进行扩张是比较困难的。在这里告诉大家,我们可以在Databasses进行分区,做法非常简单。在开始的时候进行分区是很容易的,可是如果后来进行重新分区就会变得很困难了。因此,我们就意识到Databasses是不够大的。亚马逊给大家提供更大的服务器,每年都会部署大功率的服务器。在每点的第四个季度,亚马逊的工作实在是太繁忙了。因为在12月份的工作量非常大,因为我们是零售业,而我们的工程师在第四季度做的工作就好像是要对我们的硬件进行评估,这样的硬件可以支撑多少分区,而且要使用什么样的硬件,以便可以进行新的迁移。我们也希望能够拥有非常大的数据库,在进行重新的分区以后就没有事情可以做了,只能祈祷系统不要崩溃,因为数据流实在是太庞大了。

另外的问题是RelationalDatabases,你只能通过别的方法找出它的潜力。因此,可用性非常棘手,我们希望能够对数据库进行检测,使得它持续工作。在2005年,很聪明的一群人在亚马逊公司创建了一个机制,我们把它叫做dynamo,我指的是dynamo本身。我们觉得它是一个特殊的工具。我们希望它开始就可以可拓展,它会自动帮助你进行分区,能够掌控最终的表现。

即使有了这样的功能还不是完美的,这跟大家今天看到的Databases是不一样的。这里有一条非常陡的曲线,工程师一方面需要很好的数据库,同时要进行数据挖掘。这个时候,我们认为是一个数据库。

在2012年,dynamo借鉴了Databases的特点。我们得到的是数据库,拓展非常方面,一方面可以进行存储,大家只要写一些编码。

我们的目标,我们觉得它的安全性非常高,耐用性很高,而且可得性很高。现在用不着担心别的问题,只需要担心你写的是什么。在拓展方面,用不着担心dynamo,你只需要关注每秒是多少,每秒钟需要100万个,之后就可以改变标准。使用起来非常的便捷,而且持续性非常高。我们发现有很低的latencies,而且可以在rps方面进行计算,不用增加新的服务器。整个过程非常简单,每秒可能是100万,这个时候就可以进行设定,非常的简洁。

我到一个社交媒体上,用户名和整个登录的过程,这是非常具体的用户,用户名是strider,年龄是33岁,他喜欢的东西,一些基本的信息,最后的登录是这个时间。这些都是非常基本的数据。整个用户的数据库是在一张表格上,每一个用户的数据都是作为一条信息保存,每一条信息都包含各种各样的属性,而每一个属性都自己的关键值。比如说用户的姓名是第一个关键值。比如他的登录名叫strider,这是主键,名和姓是第一个属性。接下来是具体的登录时间。

用户表格是这样的,这就组成了用户姓名的表格。无论hash键怎么样,它都是针对不同的信息,都是基于你所需要的数据。

到底怎么样进行搜索呢?比如说你有主键或者是hash键的获取。我想看这个用户之前上传的所有照片,我想找到这个人在某一个时间拍到的照片,为什么你这样做呢?因为有了hash键,还有不同范围的选择。还有一点,就是NOSQL的能力,可以在不同的数据库中应用。这种持续性并不是附属于一个数据库的,而是从数据库建立的第一天就开始存在。关系数据库如何表现可获得性和耐用性,在不同的数据库中有自己的一致性。

接下来看一下关系型和非关系型数据库之间的比较。在传统的关系型数据库中,有两种简单的系统,写进去的内容,要么是到主键,或者说它进入到待机状态。在这样的情况下,它可能会出现的故障是什么呢?如果网络断开,接下来要绕过主要的,进入第二层。第二层的主要数据库可能已经不行了,接下来就要在新的空间里进行书写。在不同的服务器上都存在这样的数据库才能做到这一点。在关系型数据库,可能要做一个决定,想手工复制到第二个数据库当中。

还有一种方式,使用的是一种算法,这种算法的意思是你有三个不同的数据中心。我第一次写的信息是在第一个replica,再复制到另一个上面。这些数据是非常有意思的,是互为备份。如果说这样一个具体的replica断了或者坏了,会发生什么呢?A和B会直接互相备份,C会选择自己的replica。在这种情况下,客户的数据就进入到两个replica,这是非常典型的,也是客观存在的。为什么我会这样做呢?它会要求我们充分理解将这些基础信息分开,而不是仅仅依赖于某一个数据库。我们并不是想建立一个新的系统,而是把它互为备份的拆开。

我想跟大家讲讲如何才能建立自己的服务,这个服务是在你的现有能力之上的,这些内容都是你们可以学到的,或者说是购买服务时可以考虑的。

首先是关于你的请求,你不希望看到的是当机的或者是故障情况。就算是出现系统故障,你也不会惊讶,因为你有备份或者是第二个选择。你要做各种测试,不仅是单元测试,而且还有故障的预测。在整个数据中心出现问题的时候,要如何做测试。测试是一个终身的过程,就算是做了终身的测试,也没有办法给你百分之百的正确性。一旦在现实生活中使用了这种软件,你一定要想一想如何部署更好的技术、更好的软件,在测试完成以后就会模拟现实中的情况,正确的环境。

我们所做的就是在所有的服务器之下,可能有各种各样的大机器购买进来,我们将不同的数据和信息上传到这些大机器上。在不同的产品周期中,数据的存储如果不是这种情况,就要开始做软件部署。我需要进行的是可用性的周期的建设,这个工作可以持续进行。就算是部署之后,你还要进行的就是服务器的监测,要确保这些服务器都是正常运行的。

你有自己的服务,不仅仅是做单元的测试,同时还要进行实时的服务器的测试。有后台的任务要测试你的服务器,它获得了这些内容,还有就是不的等待时间和不同的用户需求,它的查询时间是多少。所有的这些数据都收集在手上,更为重要的就是你要了解99.99%的用户情况。因为你有非常大的分配系统,这些系统已经能满足大部分用户的搜索需求了,这些都是99%都可以满足了,但仍然会有1%的故障。我们也希望能够把这些系统和数据更快地部署下去,避免相同的错误,我们称为在错误中学习,尤其是当你的服务器出现问题的时候,哪怕是只有的毫秒的延迟,你可能都会觉得这不符合要求。

当然,你还要建立更多的算法和矩阵,让你的系统更加完美。你知道你在寻找什么,当然也要监测服务的使用。比如说大家在召唤你的服务,看一下是否有一些问题,你要知道这些服务对最终用户来说是非常昂贵的。这个系统的期待是很高的。你也要进行调整,同时找到不同服务的规模是什么,独立地把它规模化。

最后也是很重要的,你也必须建立自己的服务,这个服务是可以拓展的,甚至是可以升级的。你的服务不可能只是服务于1千个人、1百万人,你是希望它有可扩展性的。你也要准备好,当有故障出现的时候,你的系统要能够应对这种故障,同时系统具有第二次复活的机会。

最后一点,我想跟大家讲的就是实时数据库和实时的方法。我刚刚讲到了亚马逊的实时服务,还有实时的视频传播。推特每一天的数据量是很大的,每秒钟是4万次,推特的所有数据都要实时监测。你可以看到它的全球数据量,它首先进入到亚马逊的范围里。在几秒钟的时间中,这些字符串全部都有,再进入到两个UP,都是针对这些字符信息的。通过WDB的表格,我们要找到在推特上最流行的词汇是什么。非常有意思的事情这是实时的数据监测。我想查最关心的这些词,我想查在太阳系当中,最活跃的是哪一个字呢,哪一个词的搜索或者使用最多。你看到earth的使用量是最大的,mars是紧随其后的。我们会对字符串进行实时的分析,这是我们的数据仓库,它进行的不仅是实时的数据,而且是之前数据的存储,可以进行非常深入的数据搜索和探寻。像兴趣、NASA,大家在用mars的时候,大家并不是对火星感兴趣,而是美国有一个流行歌手的姓是这个字。更为重要的是,我们会持续加入更多的实时数据。

还有就是非关系型的数据库,可以进行更多的探索。比如像地理、地质的探索,不仅是SQL五的关系型数据库,更多的是NOSQL。不是说SQL不好,而是实时的,更地理位置相关的,正确的工具在正确的场合下使用。大概在十年前,所有人都在谈论DBA,找到数据库,就必须找到DBA,跟它说我是否能够做一张表格,做一个数据库,这是需要有的硬件。今天是完全这些服务,你不希望直接比硬件或者是比软件。我们要考虑的是它的可获得性。你会进来说我想要的表格数据库是非常稳定的,可获得性是非常好的。

最后,也是很重要的,我给大家做另外一个应用的演示,这些非常清晰的火星照片使用的是我们的服务应用。可以火星的不同角度和地质情况,或者是51到500,搜索速度是非常快的。使用WDB,可以成功地购买其他服务,可以更多地进入到数据搜索的支持。

谢谢大家!

相关推荐
热点推荐
我的天呐!日本政府突然宣布了

我的天呐!日本政府突然宣布了

安安说
2025-12-12 10:08:55
好友曝何晴去世细节:做过手术,后癌细胞扩散,双亲均患脑部疾病

好友曝何晴去世细节:做过手术,后癌细胞扩散,双亲均患脑部疾病

手工制作阿歼
2025-12-14 13:27:08
为什么老二总是比老大更聪明?真相扎心了......

为什么老二总是比老大更聪明?真相扎心了......

科普中国
2025-12-14 09:46:18
黄宗泽45岁生日惊喜!剧组送“一比一名牌包蛋糕”引全场爆笑

黄宗泽45岁生日惊喜!剧组送“一比一名牌包蛋糕”引全场爆笑

张例喜欢软软糯糯
2025-12-13 23:49:48
其实吧,大明跟你一点关系都没有,尤其如果你不姓朱的话

其实吧,大明跟你一点关系都没有,尤其如果你不姓朱的话

熊太行
2025-12-12 00:08:15
这就是公开辱华的后果,取消冠军头衔只是开始,职业生涯也全毁了

这就是公开辱华的后果,取消冠军头衔只是开始,职业生涯也全毁了

寒士之言本尊
2025-12-13 20:40:55
向佐回台北和郭碧婷团聚,女儿正脸照曝光,简直是大眼萌!超可爱

向佐回台北和郭碧婷团聚,女儿正脸照曝光,简直是大眼萌!超可爱

杜鱂手工制作
2025-12-14 11:20:07
泽连斯基曝猛料:俄罗斯为延续战争,普京正大规模向中国让渡主权

泽连斯基曝猛料:俄罗斯为延续战争,普京正大规模向中国让渡主权

井普椿的独白
2025-12-13 18:02:43
父母回应向佐痛哭,向太称他是哭自己太笨,向华强:40岁还年轻

父母回应向佐痛哭,向太称他是哭自己太笨,向华强:40岁还年轻

小海娱计
2025-12-13 17:43:12
18岁少年葬于北京闹市,无人敢迁移他的坟墓,火车来了也得绕道

18岁少年葬于北京闹市,无人敢迁移他的坟墓,火车来了也得绕道

浩渺青史
2025-12-14 04:16:36
日本铁了心要和中国开战?俄专家:或遭遇中朝空中联手绞杀

日本铁了心要和中国开战?俄专家:或遭遇中朝空中联手绞杀

Ck的蜜糖
2025-12-14 14:21:13
42岁沈佳妮健身照,腰臀比封神,终于懂朱亚文为啥说生理性喜欢

42岁沈佳妮健身照,腰臀比封神,终于懂朱亚文为啥说生理性喜欢

瓜农娟姐
2025-12-12 20:46:55
大厂员工自爆:985毕业,投百份简历无人问津,一气之下把薪资由2W调为3W,简历改成英文,结果出乎意料!

大厂员工自爆:985毕业,投百份简历无人问津,一气之下把薪资由2W调为3W,简历改成英文,结果出乎意料!

上海约饭局
2025-12-05 19:59:53
银行人说漏嘴:2026年,手里有定期存款的,一定要做好这4个准备

银行人说漏嘴:2026年,手里有定期存款的,一定要做好这4个准备

娱乐八卦木木子
2025-12-14 13:41:00
卢伟:上海队阵容谈不上联盟顶级,今年常规赛目标是挺进前四

卢伟:上海队阵容谈不上联盟顶级,今年常规赛目标是挺进前四

懂球帝
2025-12-14 14:35:17
首都机场掌舵人的极刑之路:下班飞澳门一夜输600万,调公款平账

首都机场掌舵人的极刑之路:下班飞澳门一夜输600万,调公款平账

明月清风阁
2025-11-23 10:45:03
青岛著名烂尾楼,开发商被抓了!

青岛著名烂尾楼,开发商被抓了!

锦晨房产咨询
2025-12-14 08:02:43
最新预测:2025年,中国GDP将突破140万亿元?

最新预测:2025年,中国GDP将突破140万亿元?

王爷说图表
2025-12-13 20:39:11
水均益到泉州女婿家做客,和前妻同框还抱外孙女,对女婿称呼疏离

水均益到泉州女婿家做客,和前妻同框还抱外孙女,对女婿称呼疏离

小椰的奶奶
2025-12-14 14:09:49
得不到就毁掉?荷兰对安世下死手,中国强力护盘,荷兰下不了台

得不到就毁掉?荷兰对安世下死手,中国强力护盘,荷兰下不了台

铁锤简科
2025-12-14 14:39:29
2025-12-14 15:20:49

科技要闻

当人形机器人有了App Store,宇树在赌什么

头条要闻

美媒:中国正全力攻关人类能源"终极方案" 美国政府呢

头条要闻

美媒:中国正全力攻关人类能源"终极方案" 美国政府呢

体育要闻

梅西致谢球迷:荣幸在印度共度这些日子

娱乐要闻

“仙女归班”!演员何晴去世,享年61岁

财经要闻

重大违法强制退市!10人被判刑

汽车要闻

硬核敞篷巴士?掷弹兵Game Viewer 2026年初量产

态度原创

亲子
时尚
家居
房产
军事航空

亲子要闻

一场关于“水漫金山”的医学闯关:8岁朵朵的遗尿康复之路

伊姐周六热推:《长安二十四计》;电视剧《唐诡奇谭》......

家居要闻

温润质感 打造干净空间

房产要闻

车程5分钟价差300万 海棠湾的这个盘要火!

军事要闻

3名美方人员遇袭死亡 特朗普誓言报复

无障碍浏览 进入关怀版
×