![]()
云厂商花了20年让用户二选一,现在AWS说:我全都要。
4月8日,AWS正式上线Amazon S3 Files。这个功能的本质是把文件系统塞进对象存储里,让原本互相看不顺眼的两种数据形态,被迫同居。
为什么用户被逼着"精神分裂"
企业数据管理有个老毛病:文件系统和对象存储各玩各的。
文件系统像你的电脑桌面——文件夹嵌套文件夹,能直接修改文件内容,读写速度快。对象存储更像一个巨型仓库——所有东西扔进同一个"桶"里,靠元数据标签找东西,想更新?只能删了重传。
这两种技术各有死忠。数据库、传统应用偏爱文件系统的灵活性;大数据分析、备份归档则喜欢对象存储的廉价和无限扩展。
结果就是:企业得养两套环境,数据在中间搬来搬去。AWS这次把S3 Files直接做进S3,相当于在仓库里搭了个精装修办公室——你不用再租两间房了。
技术细节:翻译官+高速缓存的双层设计
S3 Files的工作机制可以拆成两步。
应用发来文件系统指令时,S3 Files先当翻译官,把它转成S3能懂的API调用。某些场景下它也会偷懒,直接把请求甩给S3。
读写性能靠一层高速缓存兜底。AWS把热数据拉到高性能存储里处理,号称吞吐量能到每秒数TB。写操作也一样——先落缓存,再异步回刷S3。
AWS开发者布道师Sebastien Stormacq在博客里补充了个细节:「对于不需要高性能存储的大文件顺序读取,S3 Files会自动从S3直接提供服务,最大化吞吐量。对于字节范围读取,只传输请求的字节,最小化数据移动和成本。」
翻译一下:它会自己判断该走高速还是走省道,不让你多花冤枉钱。
谁最可能买账
三类 workload 会被这个改动直接影响。
第一类是传统应用迁移。很多老系统只认文件接口,上云得改代码。现在它们可以直接对着S3 Files读写,假装自己还在本地磁盘上跑。
第二类是混合数据处理。比如一个流水线既要用Spark读对象存储里的日志,又要让某个Python脚本写临时文件——以前得分两步,现在同一个桶里搞定。
第三类是成本敏感型用户。数据复制是云账单里的隐形杀手。S3 Files跳过了文件-对象之间的拷贝环节,存储一份,两种接口访问。
目前S3 Files已在全球34个AWS区域开放,支持EC2、容器和Lambda。没有额外费用,按标准S3定价走。
Google Cloud和Azure也有类似方案,但AWS的牌是"原生集成"——不需要额外服务层,直接长在S3里。这省掉的不只是钱,还有一堆网络跳数和故障排查时间。
对象存储诞生时,设计哲学是"简单、不可变、最终一致"。文件系统则是"复杂、可修改、强一致"。AWS这次把它们焊在一起,是实用主义对原教旨主义的胜利。
唯一的问题是:当用户习惯了这种"无缝"体验,还会愿意回到需要手动搬数据的年代吗?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.