Synology SHA集群测试全指南:手动切换+故障模拟+数据验证步骤
在部署Synology High Availability(SHA)集群后,很多管理员容易陷入“搭建即可用”的误区,却忽视了关键的SHA测试环节——若不提前验证主备切换、故障恢复能力,当主动服务器真出现断网、硬盘故障或断电时,可能出现切换失败、数据丢失,导致业务中断数小时。实际上,SHA集群的高可用能力需通过“手动切换测试、故障模拟测试、数据一致性验证”三大核心测试来保障,提前暴露配置隐患(如Heartbeat连接异常、存储同步不完整)。本文将从前期准备入手,分步骤拆解SHA集群的关键测试场景,详解操作步骤、验证标准与注意事项,帮你全面验证SHA集群的稳定性,确保真正实现“服务不中断”。
一、前期准备:3大核心前提,避免测试影响业务
SHA测试可能涉及服务短暂切换或故障模拟,需提前做好环境与安全保障,这是官方明确的必要步骤:
1. 确认集群基础状态(必须满足“3正常”)
测试前需确保SHA集群处于健康状态,否则测试结果无参考意义,具体要求:
- 集群状态正常:登录主动服务器DSM→「Synology High Availability→集群」,状态需显示“正常”,无“警告”“故障”标识;
- 数据同步完成:进入「存储」页面,查看“同步状态”为“已同步”,无“同步中”“同步失败”(若有同步任务,需等待完成后再测试);
- 业务服务正常:验证当前依赖SHA的服务(如SMB文件共享、iSCSI存储、DSM管理)均可正常访问,避免因原有服务问题干扰测试结果。
2. 数据备份(测试安全兜底)
即使测试无破坏性,也需提前备份关键数据,防止意外(如切换中断导致数据不一致):
- 备份工具:使用「Hyper Backup」套件,备份目标选择“非SHA集群存储”(如外接USB硬盘、远程Synology NAS);
- 备份内容:重点备份共享文件夹(如业务文档、用户数据)、套件配置(如Hyper Backup、Surveillance Station设置);
- 备份验证:备份完成后,随机抽查1-2个文件,确认可正常恢复,避免备份无效。
3. 测试环境与时间选择(减少业务影响)
- 环境要求:若为生产环境SHA集群,建议先在测试环境(模拟生产配置的SHA集群)验证,再在生产环境测试;若无测试环境,需严格控制生产环境测试范围(如先测手动切换,再测故障模拟);
- 时间选择:必须在业务低峰期测试(如凌晨2-4点、周末),提前通知用户“测试期间服务可能短暂中断(1-5分钟)”,避免影响核心业务(如电商交易、办公文件访问)。
二、核心测试场景1:手动主备切换测试(最基础,必测)
手动主备切换是SHA最基础的测试,验证“正常情况下集群能否平稳转移服务”,无业务风险,适合首次测试,分DSM 7.x与6.2.x版本操作:
步骤1:测试前准备(2项确认)
1. 用客户端(如Windows电脑)通过集群IP(而非物理IP)访问SHA服务,如:
- 打开「文件资源管理器」,输入`集群IP共享文件夹名`(如`192.168.1.20Business`),保持文件夹窗口打开;
- 登录集群IP的DSM管理界面(`https://集群IP:5001`),保持页面在线,观察切换过程是否中断。
2. 记录当前主备状态:进入「Synology High Availability→主机」,记录主动服务器(Active)的IP与名称(如“NAS-IT-01”)、无源服务器(Passive)信息(如“NAS-IT-02”)。
步骤2:执行手动切换(分DSM版本)
| DSM版本 | 手动切换操作步骤 |
|---------|--------------------------------------------------------------------------|
| DSM 7.x | 1. 登录主动服务器DSM(通过集群IP);
2. 打开「Synology High Availability」→「集群」;
3. 点击「管理」按钮(右上角)→选择「切换」;
4. 弹出提示“切换将把服务从主动服务器转移到无源服务器,可能导致短暂中断”,勾选“我已了解相关风险”→点击「确定」;
5. 观察集群状态变为“切换中”,进度条完成后显示“正常” |
| DSM 6.2.x | 1. 登录主动服务器DSM;
2. 打开「Synology High Availability」→「集群管理」;
3. 点击「操作」→「切换主动/无源服务器」;
4. 确认提示后点击「是」,等待切换完成(约2-3分钟,比DSM 7.x略慢) |
步骤3:切换后验证(3大核心要点)
1. 服务连续性验证:
- 客户端文件窗口:确认共享文件夹未断开,可正常读写文件(如新建文本文档,保存后无报错);
- DSM管理界面:若短暂断开,需重新登录,确认登录后可正常操作(如查看存储状态、套件列表);
- 其他服务:若SHA提供iSCSI存储,检查虚拟机是否正常运行(无宕机);若有Surveillance Station,确认摄像机录像未中断。
2. 集群状态验证:
进入「主机」页面,确认原无源服务器(NAS-IT-02)变为“Active”,原主动服务器(NAS-IT-01)变为“Passive”,无“状态异常”标识。
3. 网络验证:
在客户端执行`ping 集群IP -t`,观察切换期间丢包数(正常应≤3个,若丢包过多,需检查Heartbeat连接)。
三、核心测试场景2:主动服务器故障模拟测试(关键,模拟真实故障)
手动切换仅验证正常场景,需模拟真实故障(如断网、断电),测试SHA的自动切换能力,分“网络故障”“电源故障”“存储故障”3类子场景:
子场景2.1:主动服务器网络故障模拟(安全,无硬件风险)
模拟主动服务器因交换机故障、网线松动导致的断网,验证备用服务器是否自动切换:
1. 测试前准备:同“手动切换测试”,保持客户端访问共享文件夹、DSM界面;
2. 执行故障模拟:找到主动服务器(当前Active)连接业务网络的网线(如LAN 2,用于集群连接),轻轻拔出(或在交换机端断开对应端口);
3. 观察自动切换:
- 等待10-30秒(SHA默认故障检测阈值),备用服务器会自动识别主动服务器断网,触发切换,状态从“Passive”变为“Active”;
- 客户端共享文件夹可能短暂断开(约10秒),随后自动重连,无需手动操作;
4. 故障恢复:插回主动服务器网线(或恢复交换机端口),等待5-10分钟,原主动服务器变为“Passive”,集群状态恢复“正常”;
5. 验证:确认数据无丢失(如切换期间新建的文件仍存在),服务均正常。
子场景2.2:主动服务器电源故障模拟(需谨慎,适合测试环境)
模拟主动服务器意外断电(如电源模块故障),仅建议在测试环境或非核心生产环境执行:
1. 安全准备:确保主动服务器无正在执行的高负载任务(如大文件同步、虚拟机迁移),避免断电导致数据损坏;
2. 执行故障模拟:直接按下主动服务器的电源按钮,强制关机(或拔掉电源插头);
3. 观察自动切换:
- 备用服务器在60秒内检测到主动服务器离线,自动切换为“Active”,接管所有服务;
- 客户端通过集群IP访问的服务,中断约20-30秒后恢复(比断网切换略久,因需检测电源故障);
4. 故障恢复:重新启动原主动服务器,等待其接入集群(约5-10分钟),自动变为“Passive”,并同步新主动服务器的数据;
5. 验证:检查存储池状态为“正常”,无“数据不一致”提示,客户端数据完整。
子场景2.3:主动服务器存储故障模拟(模拟硬盘损坏)
模拟主动服务器硬盘故障(如机械硬盘坏道),验证SHA对存储故障的应对能力:
1. 准备工具:若NAS支持热插拔,准备1块与原硬盘同规格的备用硬盘(用于后续恢复);
2. 执行故障模拟:
- 进入「存储管理器→HDD/SSD」,记录主动服务器上“用于存储池”的硬盘(如“硬盘3”);
- 若支持热插拔:直接拔出该硬盘(模拟物理故障);若不支持:需先关闭主动服务器,取出硬盘后重启;
3. 观察集群反应:
- 主动服务器存储池变为“降级”,但服务仍正常运行(因SHA优先保障服务,再触发切换);
- 备用服务器检测到主动服务器存储故障,30秒内自动切换为“Active”,接管服务;
4. 故障恢复:
- 为原主动服务器安装备用硬盘,进入「存储管理器→存储池」,点击「修复」,同步数据(约1-2小时,取决于硬盘容量);
- 修复完成后,原主动服务器变为“Passive”,集群状态恢复“正常”;
5. 验证:确认备用服务器接管期间产生的新数据(如新建文件)已同步到原主动服务器,无数据丢失。
四、测试后必做:3大验证与恢复操作
无论哪种测试场景,结束后需执行以下操作,确保集群回归稳定:
1. 全量服务验证:
逐一检查依赖SHA的所有服务,如SMB、FTP、iSCSI、套件(Hyper Backup、Drive Server),确认均可正常使用,无“服务未启动”提示。
2. 数据一致性验证:
- 选择1-2个关键共享文件夹,在主动服务器与无源服务器上分别统计文件数量、总容量(通过「File Station」右键属性查看),确保完全一致;
- 若有数据库文件(如MySQL),通过客户端连接数据库,执行`SELECT COUNT() FROM 表名`,确认数据行数一致,无损坏。
3. 集群状态恢复:
若测试后需恢复原主备角色(如原主动服务器性能更好),执行“手动切换测试”的步骤,将服务转移回原主动服务器,确认状态正常。
五、关键注意事项:4个禁止与3个推荐
4个禁止操作(避免测试失败或数据损坏)
1. 禁止在业务高峰期测试(如工作日9-18点),避免服务中断影响用户;
2. 禁止同时模拟多个故障(如主动服务器断网+硬盘故障),需逐一测试,避免定位问题困难;
3. 禁止在未备份数据的情况下测试电源故障、存储故障,防止意外导致数据丢失;
4. 禁止对Synology双控制器NAS执行本文测试(双控制器有专属高可用测试方案,需参考对应文档)。
3个推荐操作(提升测试效果)
1. 推荐记录测试日志:每次测试后,记录“测试时间、场景、切换耗时、验证结果”,形成文档,便于后续排查问题;
2. 推荐每季度测试1次:生产环境SHA集群需定期测试,避免因配置变更(如DSM升级、硬盘更换)导致高可用失效;
3. 推荐在测试环境复现问题:若生产环境测试发现切换失败,先在测试环境复现,排查原因(如Heartbeat连接、存储配置),再在生产环境修复。
六、常见问题解答:SHA测试中的5大高频痛点
Q1:手动切换提示“服务正在运行,无法切换”,怎么办?
- 原因:主动服务器正在执行高负载任务(如Hyper Backup备份、虚拟机迁移),SHA禁止在任务中切换;
- 解决:进入「资源监控→任务」,结束正在运行的高负载任务(或等待任务完成),1-2分钟后重新执行切换。
Q2:模拟断网后,备用服务器未自动切换,是什么原因?
- 原因:Heartbeat连接异常(如Heartbeat网线松动、IP冲突),备用服务器未检测到主动服务器故障;
- 解决:
1. 检查主备服务器的Heartbeat网线(如LAN 5)是否插紧,重新插拔;
2. 登录备用服务器,执行`ping 主动服务器Heartbeat IP`(如192.168.200.1),确认能ping通;
3. 若ping不通,检查Heartbeat IP是否冲突(通过「arp -a」查看),修改冲突IP后重新测试。
Q3:测试后数据不一致(主动服务器比无源服务器少1个文件),怎么处理?
- 原因:切换时数据同步未完成,导致新文件未同步;
- 解决:
1. 进入「Synology High Availability→存储」,点击「同步」手动触发数据同步;
2. 同步完成后,重新对比文件数量,确保一致;
3. 若仍不一致,从备份中恢复缺失文件。
七、总结:SHA测试的核心价值与执行逻辑
SHA测试并非“一次性操作”,而是保障高可用能力的长期手段——其核心价值在于“提前暴露隐患”,避免真故障时“高可用变高风险”。执行逻辑需遵循“从安全到风险、从简单到复杂”:先测手动切换(无风险),再测断网(低风险),最后测电源/存储故障(高风险);先在测试环境验证,再在生产环境执行。通过本文的测试方法,可确保SHA集群在真实故障时能平稳切换、数据安全,真正实现“服务不中断”的核心目标。
要不要我帮你整理一份Synology SHA集群测试Checklist?清单包含“测试场景对照表、验证要点、故障恢复步骤、常见问题解决方案”,你可按清单逐一步骤执行测试,避免遗漏关键环节。

地址:北京市海淀区白家疃尚品园 1号楼225
北京群晖时代科技有限公司
