Synology虚拟机故障转移操作指南:从集群冻结到服务恢复的全方案
在使用Synology Virtual Machine Manager(以下简称VMM)管理虚拟机集群时,偶尔会遇到“集群冻结”的突发状况——此时集群无法正常运行,若常规修复手段无效,为避免虚拟机服务长时间中断,手动执行Synology虚拟机故障转移就成为关键解决方案。本文基于Synology官方技术文档,结合VMM操作界面细节,拆解“故障转移执行”与“服务恢复后重新保护”两大核心环节,同时解析关键概念(如Original VM、Replica VM),让运维人员能按步骤高效恢复虚拟机服务。
一、先搞懂:虚拟机故障转移的适用场景与核心概念
在动手操作前,需明确故障转移的适用条件与关键术语,避免因理解偏差导致操作失误:
1. 适用场景:仅用于“集群冻结且无法修复”
Synology虚拟机故障转移并非常规运维操作,仅当满足以下条件时使用:
- 现有Synology集群已“冻结”(集群状态异常,无法正常管理虚拟机);
- 经过重启集群、检查网络连接、修复存储等常规手段后,仍无法恢复集群功能;
- 需紧急恢复虚拟机服务(如业务系统、办公虚拟机),不能等待集群修复完成。
若集群可通过常规手段修复(如重启主机、重新连接存储),建议优先修复集群,而非直接执行故障转移。
2. 核心概念解析:避免混淆关键角色
操作过程中会频繁遇到两个虚拟机角色,需提前区分:
- Original VM(原始虚拟机):集群冻结前正常运行的虚拟机,此时处于“offline(离线)”状态,无法直接启动;
- Replica VM(副本虚拟机):原始虚拟机的同步副本,是故障转移后用于恢复服务的核心载体,故障转移完成后会转为“Online(在线)”状态;
- 新集群(New Cluster):故障转移时需基于当前可用主机创建的独立集群,用于替代冻结的原集群,管理副本虚拟机的运行。
二、第一步:为主机执行虚拟机故障转移(核心操作,恢复服务)
当集群冻结且无法修复时,需通过“强制创建新集群”与“故障转移虚拟机”两步,让副本虚拟机接管服务,具体操作基于Synology DSM与VMM界面展开:
1. 前提准备:确认主机与虚拟机状态
在操作前需完成两项基础检查:
- 确认至少有一台“可用主机”(未因集群冻结完全宕机,可正常登录DSM);
- 在VMM中查看“保护页面”,确认目标虚拟机已存在“Replica VM(副本虚拟机)”(若未创建副本,需先排查同步配置,但集群冻结场景下通常已存在历史副本)。
2. 步骤1:强制创建新的独立集群(管理副本虚拟机)
故障转移的第一步是为可用主机创建新集群,用于承载副本虚拟机,操作步骤如下:
1. 登录可用主机的DSM系统:通过浏览器输入该主机的IP地址,输入具有管理员权限的账号密码(如admin账号),进入DSM桌面;
2. 打开Virtual Machine Manager:在DSM桌面找到“Virtual Machine Manager”图标(蓝色服务器+虚拟机样式),双击打开VMM管理界面;
3. 进入集群管理模块:点击VMM左侧导航栏的“集群”选项,此时会看到原集群“冻结”的提示(如“集群状态异常”);
4. 强制创建新集群:
- 点击界面顶部的“创建”按钮,在下拉菜单中选择“创建独立集群”;
- 在弹出的配置窗口中,选择“当前可用主机”(即正在操作的DSM所属主机),系统会提示“将基于此主机创建新集群,与原冻结集群无关”,点击“确认”;
- 无需额外配置网络或存储(默认沿用主机原有配置),等待集群创建完成——新集群创建后,状态会显示为“正常”,可用于管理虚拟机。
3. 步骤2:执行虚拟机故障转移(启动副本虚拟机)
新集群创建后,需将离线的副本虚拟机“激活”,完成故障转移,具体操作如下:
1. 进入VMM“保护”页面:点击VMM左侧导航栏的“保护”选项,此页面会列出所有虚拟机的“原始机-副本机”对应关系,可看到“Original VM(offline)”与“Replica VM”的状态;
2. 选择目标副本虚拟机:在列表中找到需要恢复服务的虚拟机(如“办公系统VM”“文件服务器VM”),点击该虚拟机所在行,确保选中状态;
3. 触发故障转移操作:
- 点击页面顶部的“管理”按钮,在下拉菜单中选择“故障转移”(英文界面显示为“Failover”);
- 系统会弹出故障转移向导,第一步为“确认虚拟机信息”,需核对“Replica VM”的名称、关联主机(新集群中的可用主机)是否正确,确认无误后点击“下一步”;
- 第二步为“启动设置”,默认勾选“故障转移后自动启动Replica VM”,无需修改(若需手动启动,可取消勾选),点击“下一步”;
- 第三步为“确认操作”,系统会提示“故障转移后,Original VM仍为离线状态,Replica VM将转为在线”,仔细阅读后点击“应用”;
4. 等待故障转移完成:此时VMM会显示进度条(如“故障转移中:30%”),期间不要关闭VMM界面或重启主机;
5. 验证结果:进度条完成后,返回“保护”页面,可看到“Replica VM”的状态变为“Online(在线)”,同时新集群的“虚拟机”页面中,该副本虚拟机已显示“运行中”——至此,虚拟机故障转移完成,服务恢复正常。
三、第二步:恢复服务后,为虚拟机执行“重新保护”(关键收尾)
当故障转移完成、虚拟机服务恢复后,若后续修复了原冻结的集群(或恢复了离线主机),需为虚拟机执行“重新保护”操作——目的是重建“原始机-副本机”的同步关系,避免下次故障时无副本可用。具体步骤如下:
1. 前提:先修复原集群并创建新集群
重新保护的第一步是让离线主机回归管理,操作如下:
1. 修复原离线主机:通过检查硬件、重启服务、修复存储连接等方式,让原集群中“离线的主机”恢复正常(可正常登录DSM,网络能连接新集群);
2. 为修复后的主机创建新集群:
- 登录修复后的主机DSM,打开VMM;
- 重复“强制创建新集群”的操作(参考前文第二步2),基于该修复主机创建另一个“新集群”(暂称为“Repaired Cluster(修复后集群)”);
- 确认新集群状态为“正常”,可正常接收虚拟机管理指令。
2. 步骤1:将修复后的主机导入原单主机集群(可选,优化管理)
若希望将修复后的主机纳入之前创建的“单主机集群”(即故障转移时用的新集群),可执行导入操作(非必须,但能简化集群管理):
1. 登录“故障转移用新集群”的主机DSM,打开VMM;
2. 进入“集群”页面,点击顶部“操作”按钮,选择“导入主机”;
3. 在弹出窗口中,输入“修复后主机”的IP地址、DSM管理员账号密码,点击“下一步”;
4. 系统会验证主机兼容性,确认无误后点击“应用”,等待主机导入完成——导入后,原单主机集群变为“多主机集群”,管理更灵活。
3. 步骤2:执行虚拟机重新保护
导入主机(或确认修复后集群正常)后,开始重建虚拟机同步关系:
1. 再次进入VMM“保护”页面:此时页面中,原“Online的Replica VM”已成为当前运行的“主要虚拟机”,而修复后的主机上可能存在“Original VM(仍离线)”;
2. 选择需重新保护的虚拟机:在列表中找到目标虚拟机(如“办公系统VM”),点击选中;
3. 触发“重新保护”操作:
- 点击页面顶部“管理”按钮,选择“重新保护”(英文界面显示为“Reprotect”);
- 系统弹出重新保护向导,第一步“选择目标集群”:在下拉菜单中选择“修复后创建的新集群”(或导入后的多主机集群),作为“新副本虚拟机(New Replica VM)”的存放集群,点击“下一步”;
- 第二步“配置同步策略”:默认选择“增量同步”(仅同步与当前运行虚拟机的差异数据),若需全量同步可手动修改,设置同步频率(如每小时一次),点击“下一步”;
- 第三步“确认设置”:核对目标集群、同步策略、虚拟机名称是否正确,点击“应用”;
4. 等待重新保护完成:系统会开始创建“New Replica VM(新副本虚拟机)”,并启动数据同步,进度可在“保护”页面查看;
5. 验证同步状态:同步完成后,“保护”页面会显示“当前运行虚拟机(Online)”与“New Replica VM(已同步)”的对应关系,此时虚拟机重新具备“故障备份能力”,重新保护操作收尾。
四、故障转移与重新保护的关键注意事项(避坑指南)
操作过程中若忽略以下细节,可能导致故障转移失败或后续服务异常,需重点关注:
1. 故障转移前:必须确认“副本虚拟机存在”
若VMM“保护”页面中,目标虚拟机无“Replica VM”,则无法执行故障转移——此时需排查:
- 集群冻结前是否已开启“虚拟机保护”(即配置了副本同步);
- 副本虚拟机是否因存储故障、同步中断被删除;
若未创建副本,需先通过其他方式(如虚拟机备份文件)恢复,而非执行故障转移。
2. 故障转移中:不要中断主机或VMM服务
故障转移执行期间(进度条未完成前),需避免:
- 重启正在操作的主机(新集群所在主机);
- 关闭VMM界面或重启VMM服务;
- 断开主机的存储连接(如拔出外接硬盘、中断iSCSI连接);
中断操作可能导致Replica VM损坏,需重新执行故障转移。
3. 重新保护后:验证同步状态,避免“假同步”
重新保护完成后,需额外验证同步有效性:
- 进入“保护”页面,查看“同步状态”是否显示“正常”,而非“同步失败”或“待同步”;
- 手动触发一次“立即同步”,观察同步进度是否正常完成;
- 登录“New Replica VM”所在集群,确认副本虚拟机可正常启动(避免同步后副本无法使用)。
4. 特殊提醒:故障转移后,Original VM仍需处理
故障转移完成后,Original VM(原始虚拟机)仍处于“离线”状态,需根据集群修复情况处理:
- 若原集群可修复:修复后可将Original VM的数据同步至当前运行的Replica VM,或直接删除Original VM(避免资源占用);
- 若原集群无法修复:需确认Original VM所在存储的数据已备份,再格式化存储(避免占用NAS空间)。
五、常见问题解答:解决故障转移中的突发状况
在实际操作中,可能遇到以下问题,可按对应方案快速排查:
1. 问题:点击“故障转移”后,提示“无法找到Replica VM”
原因:副本虚拟机被误删除,或VMM未识别到副本;
解决方案:
- 进入VMM“存储”页面,检查副本虚拟机的存储位置(如共享文件夹、LUN),确认文件是否存在;
- 若文件存在,点击VMM“保护”页面顶部的“刷新”按钮,重新加载虚拟机列表;
- 若文件不存在,需从虚拟机备份中恢复副本,再执行故障转移。
2. 问题:重新保护时,提示“目标集群兼容性不足”
原因:修复后创建的新集群,主机硬件、DSM版本与当前运行虚拟机不兼容;
解决方案:
- 检查目标集群主机的DSM版本,需与当前运行虚拟机所在主机的DSM版本一致(或相差不超过1个小版本);
- 确认目标集群主机的CPU支持虚拟机虚拟化技术(如Intel VT-x、AMD-V),且已在BIOS中开启;
- 若硬件不兼容,更换目标集群主机(选择与当前主机配置相近的设备)。
3. 问题:故障转移后,Replica VM在线但无法访问
原因:虚拟机网络配置未适配新集群;
解决方案:
- 进入VMM“虚拟机”页面,右键点击Online的Replica VM,选择“编辑设置”;
- 查看“网络适配器”配置,确认“连接的虚拟交换机”在新集群中已启用,且IP地址未与其他设备冲突;
- 重启Replica VM的网络服务(或重启虚拟机),重新测试访问。
总结:故障转移操作的“核心逻辑”与流程回顾
Synology虚拟机故障转移的本质,是“放弃冻结的原集群,基于可用主机创建新集群,让副本虚拟机接管服务”,后续重新保护则是“重建副本关系,恢复故障备份能力”。整个操作的核心流程可简化为:
1. 集群冻结且无法修复→强制创建新集群;
2. 保护页面选Replica VM→执行故障转移→服务恢复;
3. 修复原主机→创建新集群(或导入主机);
4. 保护页面选运行中的VM→执行重新保护→重建副本。
按此逻辑逐步操作,即可在集群冻结场景下快速恢复虚拟机服务,最大程度减少业务中断时间,同时保障后续运维的安全性。

地址:北京市海淀区白家疃尚品园 1号楼225
北京群晖时代科技有限公司
