![]()
2023年6月,InterSystems悄悄更新了IRIS数据库的备份文档——把用了十几年的Caché字样全换成IRIS,连链接都没改几个。但真正让VMware管理员坐不住的,是藏在附录里的一个数字:1秒。
这1秒,是虚拟机快照的"stun time"(冻结时间)。超过它,你的主备数据库可能直接 failover。而大多数运维团队,根本不知道自己离事故有多远。
IRIS在线备份:免费,但不够
IRIS安装包自带在线备份功能,零停机,支持增量和累积备份。听起来很美?
问题在于:它只备份数据库文件本身。日志目录、应用代码、外部文件——这些你得自己想办法同步。更麻烦的是,备份输出是个顺序文件,还得再配一套系统级备份把它搬走。
用产品经理的话说:这是"能用的底线",不是"好用的选择"。当你的数据量从GB爬到TB,恢复时间目标(RTO)从小时压缩到分钟,这套方案的性价比会断崖式下跌。
InterSystems的官方建议很明确:规模上去之后,切到External Backup(外部备份),集成快照技术。
快照备份的隐藏陷阱:那1秒的stun time
VMware的快照机制有个副作用。创建快照时,虚拟机需要"冻结"一小段时间,让磁盘状态保持一致。通常不到1秒,用户无感知。
但IRIS数据库有个特性叫Mirroring(镜像)。主节点和备份节点之间有心跳检测,超时未响应就会触发故障转移。这个超时阈值,就是QoS timeout。
![]()
如果stun time > QoS timeout,备份节点会误判主节点宕机,自动接管。等快照完成、主节点恢复,你发现两台机器都在争着当老大。
InterSystems文档里埋了一个关键操作:检查你的stun time历史数据,必要时调大QoS timeout。但没说具体怎么查——得翻VMware的日志,或者看存储层的性能计数器。
freeze/thaw脚本:IRIS给快照打的补丁
External Backup的核心是一组API:Freeze(冻结写入)和Thaw(解冻)。
流程是这样的:快照工具调用Freeze → IRIS暂停物理写盘,但内存中的更新继续 → 快照创建完成 → 调用Thaw,落盘恢复。整个过程用户无感知,数据库完整性有保障。
VMware生态里,这套脚本通常挂在vSphere Storage APIs - Data Protection(VADP)的pre-freeze/post-thaw钩子上。NetBackup、Veeam、Rubrik这些备份软件都支持。
但配置细节是黑洞。IRIS文档只给了接口定义,具体怎么和VMware Tools联动、怎么在Linux guest里放脚本、权限怎么设——得自己趟。
一个常见的坑:脚本路径错了,或者没执行权限,快照照样跑,但IRIS根本没冻结。等你需要恢复,发现数据库文件时间戳对不上,日志链断了。
从Caché到IRIS:换皮不换骨
这篇技术文档最初写于Caché时代,2023年6月才更新为IRIS。作者说"only real change is substituting Caché for IRIS"——翻译一下:核心逻辑十年没变。
![]()
freeze/thaw机制、stun time风险、QoS timeout的权衡,这些在Caché 2010年就存在。IRIS的改进主要在多模型数据引擎和云原生部署,备份这层算是"继承遗产"。
对老用户是好事:迁移成本低。对新用户是坑:文档里的IRIS链接跳过去,有些章节还在用Caché的截图。
更微妙的是命名混乱。IRIS Online Backup、External Backup、System-Level Backup、Snapshot Backup——四个概念在文档里交叉出现,没有清晰的决策树。你得读完半本Backup and Restore Guide,才能理清什么场景该用什么。
性能调优:没有银弹,只有取舍
IRIS文档给了一个关键数字:freeze状态持续时间应该"尽可能短"。
但多短算短?取决于你的存储性能。全闪存阵列能在毫秒级完成快照,混合存储可能需要几秒。IRIS的freeze是全局锁,期间所有物理写排队,内存压力会上升。
另一个变量是数据库大小。IRIS的freeze只锁已分配的数据块,但大库的元数据扫描本身就有开销。有用户报告,TB级库的freeze调用延迟超过5秒,触发了应用层的连接池超时。
调优方向分两头:一是压缩stun time(换更快的存储、用CBT减少快照数据量),二是放宽QoS timeout(牺牲故障检测灵敏度)。没有标准答案,只有和你的RPO/RTO目标对齐。
InterSystems的工程师在文档评论区提过:部分客户把QoS timeout从默认的5秒调到30秒,配合存储层的同步复制,实现了"零误切"。代价是主节点真宕机时,故障转移也会慢25秒。
你的备份窗口里,能容忍多长的"假死"?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.