Synology HA集群同时关闭主动被动服务器全指南:DSM操作+手动应急+启动恢复
在维护Synology High Availability(HA)集群时,管理员常需面对“同时关闭主动服务器与被动服务器”的场景——如机房整体断电、硬件检修或迁移设备。但HA集群的双机架构决定了“盲目关闭”会带来严重风险:若数据同步未完成,强行关机可能导致主备数据不一致;若跳过集群状态检查,重启后可能触发集群故障,需耗时数小时修复。实际上,Synology官方提供了“系统自动关闭”与“手动应急关闭”两种安全方案,核心是“先确保数据一致,再统一关闭”。本文将从前期准备入手,分“正常场景(通过DSM操作)”“应急场景(无法登录DSM)”拆解同时关闭的完整步骤,详解关闭后的启动恢复流程与常见问题排查,帮你安全完成HA集群双机关闭,兼顾数据完整性与集群稳定性。
一、核心认知:为什么不能直接手动断电?2大风险必须规避
在学习关闭步骤前,需先明确“盲目操作的危害”,这是官方反复强调的安全前提:
1. 数据不一致风险:同步中断导致主备差异
HA集群的核心是“主动服务器实时同步数据到被动服务器”,若在同步过程中(如传输大文件、LUN更新)直接断电,会导致:
- 主动服务器已写入的数据未同步到被动服务器;
- 被动服务器正在接收的同步数据损坏,形成“脏数据”;
重启后,集群会检测到数据不一致,触发“强制同步”,可能覆盖被动服务器的有效数据,或因数据冲突导致存储池降级。
2. 集群配置损坏风险:状态记录丢失
HA集群的运行状态(如主备角色、同步进度)存储在系统分区,强行断电可能导致状态文件损坏:
- 重启后集群无法识别主备角色,需手动重新配置;
- 存储池与SSD缓存的关联信息丢失,需重建存储结构,严重时导致数据无法访问。
因此,官方优先推荐通过DSM的“关闭集群”功能统一操作,仅在DSM无法登录时才使用手动应急方案。
二、前期准备:4大必做检查,确保关闭安全
无论选择哪种关闭方式,前期准备都是避免风险的关键,需逐一完成:
1. 确认集群核心状态(必须满足“3正常”)
关闭前需确保HA集群处于健康状态,否则需先修复再操作:
| 检查项目 | 检查步骤(以DSM 7.x为例) | 合格标准 |
|-------------------------|--------------------------------------------------------------------------|-----------------------------------|
| 集群整体状态            | 1. 登录主动服务器DSM;
2. 进入「Synology High Availability→集群」 | 状态显示“正常”,无“警告”“故障”“同步中”标识 |
| 数据同步状态 | 进入「Synology High Availability→存储」 | “同步状态”为“已同步”,无“同步失败”“同步暂停” |
| 存储池与存储空间状态 | 打开「存储管理器→存储」 | 存储池、存储空间均显示“良好”,无“降级”“损毁” |
关键提醒:若状态不达标(如“同步中”),需等待操作完成(如大文件同步结束);若“同步失败”,需先排查原因(如网络中断、硬盘故障),修复后再关闭。
2. 通知业务暂停与用户下线
HA集群关闭会中断所有对外服务(如文件共享、iSCSI存储、DSM管理),需提前:
- 通知所有依赖集群的用户(如员工、业务系统管理员)“服务将中断30分钟-2小时”(根据维护需求设定);
- 关闭依赖集群的业务进程(如虚拟机、数据库服务),避免服务异常中断导致数据损坏。
3. 全量数据备份(安全兜底)
即使集群状态正常,也需通过「Hyper Backup」备份关键数据,避免意外(如断电时同步突发中断):
- 备份来源:主动服务器的共享文件夹、套件配置(如Hyper Backup、Surveillance Station设置);
- 备份目的地:选择“非HA集群存储”(如外接USB硬盘、远程Synology NAS),避免备份与集群同时受损;
- 备份验证:备份完成后,随机抽查1-2个文件,确认可正常恢复(右键备份任务→「验证」)。
4. 记录关键信息(便于后续恢复)
关闭前记录以下信息,避免启动时因信息缺失导致操作失误:
- 集群IP地址(如192.168.1.20);
- 主动/被动服务器的物理IP(如主动192.168.1.10、被动192.168.1.11);
- 以太网端口用途(如LAN1=Heartbeat、LAN2=业务网络);
- 存储池配置(如RAID类型、硬盘数量)。
三、正常场景:通过DSM同时关闭主动被动服务器(推荐,安全无风险)
此方法通过DSM的“关闭集群”功能,系统会自动完成“数据同步确认→停止服务→关闭双机”,适用于DSM可正常登录的场景,分DSM 7.x与6.2.x版本操作:
步骤1:登录主动服务器DSM
- 打开浏览器,输入集群IP(如https://192.168.1.20:5001),用“administrators群组”账户(如admin)登录;
- 若无法通过集群IP登录,可直接登录主动服务器的物理IP(如192.168.1.10),确保登录的是“Active”角色的服务器(可在「Synology High Availability→主机」确认)。
步骤2:执行“关闭集群”操作(分DSM版本)
| DSM版本 | 详细操作步骤 | 关键提示 |
|---------|--------------------------------------------------------------------------|-----------------------------------|
| DSM 7.x | 1. 进入「Synology High Availability→集群」;
2. 点击页面右上角「电源按钮」(图标为);
3. 在下拉菜单中选择「关闭集群」;
4. 弹出提示窗口,确认“关闭集群会停止所有服务并关闭两台服务器”,勾选「我已了解相关风险并已做好准备」;
5. 点击「确定」,系统开始执行关闭流程 | 关闭过程中,页面会显示“正在停止服务→正在同步最终数据→正在关闭被动服务器→正在关闭主动服务器”,全程约5-10分钟,不可刷新或关闭浏览器 |
| DSM 6.2.x | 1. 进入「Synology High Availability→集群管理」;
2. 点击页面上方「操作」按钮;
3. 选择「关闭集群」;
4. 确认提示后点击「是」;
5. 等待系统完成服务停止与双机关闭 | DSM 6.2.x关闭速度略慢(约8-15分钟),期间不可断开网络 |
步骤3:确认双机完全关闭
- 观察两台服务器的电源指示灯:从“常亮”变为“熄灭”,或从“闪烁”变为“熄灭”,表示完全断电;
- 若服务器支持“电源状态灯”,确认灯已熄灭(如RS2423(RP)+的电源灯熄灭即代表关闭);
- 关闭后,拔掉电源插头(若需硬件维护),或保持插头连接(仅暂停服务)。
四、应急场景:无法登录DSM时手动同时关闭(仅紧急使用)
当DSM崩溃、网络中断或服务器无响应时,需通过“手动按电源键”关闭双机,但需严格遵循“先确认同步状态,再统一关闭”的原则,降低风险:
步骤1:确认数据同步已完成(关键,减少不一致风险)
无法登录DSM时,通过服务器指示灯判断同步状态(不同型号指示灯含义可能不同,参考设备手册):
- 主动服务器:找到“同步状态灯”(如DS923+的LED灯“SYNC”),若灯为“常亮”(非闪烁),表示数据已同步完成;若“闪烁”,需等待灯常亮后再操作;
- 被动服务器:若“状态灯”(如“STATUS”)为“常亮绿色”,表示无同步任务,可关闭;若“闪烁黄色”,表示正在同步,需等待。
应急妥协方案:若指示灯无法判断,且情况紧急(如机房断电倒计时),可直接执行下一步,但启动后需优先检查数据一致性。
步骤2:手动关闭双机(严格“同时操作”)
- 双手分别按住主动服务器与被动服务器的「电源按钮」(约3-5秒),直到电源指示灯开始闪烁;
- 松开按钮,两台服务器会进入“安全关机流程”(停止服务→保存配置→断电),避免直接拔电源;
- 等待约5-8分钟,确认两台服务器电源灯完全熄灭,关闭完成。
禁忌:禁止先关闭被动服务器,再关闭主动服务器——主动服务器会因检测不到被动服务器,触发“故障转移”,反而延长关机时间,增加数据风险。
五、关闭后的关键操作:正确启动HA集群(避免启动异常)
关闭后重新启动集群,需遵循“先启动被动服务器,再启动主动服务器”的顺序,确保集群正常恢复:
步骤1:启动被动服务器
- 接通被动服务器电源,按下电源按钮;
- 等待服务器启动(约3-5分钟),观察“状态灯”变为“常亮绿色”(表示就绪,无故障);
- 若服务器支持网络唤醒,可通过「Synology Assistant」远程启动,无需现场操作。
步骤2:启动主动服务器
- 被动服务器就绪后(状态灯常亮),接通主动服务器电源并启动;
- 等待主动服务器启动(约3-5分钟),此时HA集群会自动检测双机状态,恢复主备角色与数据同步。
步骤3:验证集群恢复状态
1. 登录验证:通过集群IP(如https://192.168.1.20:5001)登录DSM,确认可正常访问;
2. 集群状态验证:进入「Synology High Availability→集群」,确认状态为“正常”,主备角色正确(原主动为Active,原被动为Passive);
3. 数据同步验证:进入「存储」页面,确认“同步状态”为“已同步”,无“同步失败”;
4. 服务验证:测试业务服务(如访问共享文件夹、启动虚拟机),确认功能正常,无数据丢失。
六、常见问题解答:同时关闭集群的6大高频痛点
Q1:通过DSM关闭集群时,提示“有未完成的同步任务,无法关闭”,怎么办?
- 原因:主动服务器存在未同步到被动的数据(如大文件传输、LUN更新);
- 解决:
1. 进入「Synology High Availability→存储」,查看“同步进度”,等待进度达到100%(同步完成);
2. 若同步长期卡在某进度(如99%),检查网络连接(尤其是Heartbeat与集群连接),排除网线松动或交换机故障;
3. 同步完成后,重新执行“关闭集群”操作。
Q2:手动关闭后,启动集群显示“数据不一致”,如何处理?
- 原因:手动关闭时数据同步未完成,导致主备数据差异;
- 解决:
1. 登录主动服务器DSM→「Synology High Availability→存储」;
2. 点击“数据不一致”提示右侧的「修复」,系统会以主动服务器数据为基准,同步到被动服务器;
3. 修复完成后,集群状态恢复“正常”,验证数据完整性(如文件数量、大小一致)。
Q3:关闭后启动主动服务器,提示“无法找到被动服务器”,怎么排查?
- 原因:Heartbeat连接异常,或被动服务器未正常启动;
- 解决:
1. 检查被动服务器电源是否接通,状态灯是否常亮(确认已启动);
2. 检查Heartbeat端口的网线(如LAN1)是否插紧,交换机对应端口是否正常(可更换网线测试);
3. 登录被动服务器物理IP,确认其DSM正常运行,再重启主动服务器。
Q4:DSM 6.2.x关闭集群时,页面卡住“正在停止服务”,怎么办?
- 原因:部分服务(如Surveillance Station、iSCSI)无法正常停止;
- 解决:
1. 等待10-15分钟,若仍卡住,可直接关闭浏览器(系统后台会继续执行关闭);
2. 观察服务器电源灯,确认最终熄灭;
3. 下次关闭前,先手动停止高耗资源服务(如「套件中心→已安装→Surveillance Station→停止」)。
七、总结:同时关闭HA集群的3大核心原则
1. 同步优先:无论哪种关闭方式,先确认数据同步完成,避免因同步中断导致数据不一致;
2. 系统操作优先:优先通过DSM的“关闭集群”功能,仅在应急场景使用手动关机,降低配置损坏风险;
3. 顺序启动:关闭后启动需遵循“先被动、后主动”,确保集群正确恢复主备角色与同步关系。
通过本文的步骤,管理员可安全完成Synology HA集群主动与被动服务器的同时关闭,兼顾维护需求与数据安全,避免因操作不当导致的业务中断或数据丢失。
要不要我帮你整理一份Synology HA集群同时关闭操作Checklist?清单包含“前期检查项、DSM操作步骤模板、手动应急流程、启动验证要点”,你可按清单逐一步骤执行,避免遗漏关键环节。

地址:北京市海淀区白家疃尚品园 1号楼225
北京群晖时代科技有限公司
