一、先理清核心逻辑:脑裂与保留双机数据的影响
处理前需明确 “脑裂成因” 与 “保留数据的后果”,避免因认知偏差导致操作失误:
1. 脑裂错误的本质与数据差异成因
HA 集群正常运行时,仅 Active 节点对外提供服务,Passive 节点通过心跳线同步数据。当以下两种连接同时中断,脑裂必然发生:
- 心跳连接中断:Passive 节点无法检测 Active 节点状态;
 
此时双节点均认为对方故障,自动切换为 Active 角色,客户端写入的数据会分别存储在两台服务器中,形成数据差异—— 包括新增文件、修改内容、删除记录的不一致,甚至 iSCSI LUN 的数据块冲突。
2. 选择 “保留双机数据” 的 3 个关键后果
Synology 官方提供 3 种脑裂解决选项,“保留双机数据” 对应 “在集群中保留一台服务器,移除另一台” 或 “移除整个集群”,选择后会产生以下影响:
- 集群临时失效:双节点均脱离集群,恢复为独立服务器,集群 IP 与服务暂停;
 
- 数据双副本独立:两台服务器保留脑裂期间的所有数据,但差异数据未合并;
 
- 重建需全量同步:后续将独立节点加回集群时,需执行全量数据同步(耗时取决于数据量)。
 
3. 必须优先处理的 2 个前置任务
在比对数据前,需完成以下准备工作,避免二次故障:
- 恢复网络连接:重新部署心跳线(建议用双链路冗余)与集群连接,确保双节点能互通(用ping命令测试节点 IP 连通性);
 
- 暂停客户端写入:通知用户停止向两台独立服务器写入数据,避免差异扩大(可临时关闭 SMB、iSCSI 服务)。
 
二、核心步骤 1:数据差异比对(官方推荐第三方工具实操)
Synology DSM 无自带数据比对工具,官方明确建议用第三方软件处理差异,以下以 Beyond Compare 为例,提供分步操作指南:
1. 前期配置:启用 FTP 服务(双节点均需操作)
- 登录独立服务器的 DSM(用节点 IP,而非集群 IP),进入 “控制面板→文件服务→FTP”;
 
- 勾选 “启用 FTP 服务(不加密)”,端口保持默认(21),点击 “应用”;
 
- 验证 FTP 可用性:在电脑上用 FTP 客户端(如 FileZilla)连接节点 IP,确认能访问共享文件夹(避免权限问题导致比对失败)。
 
2. 用 Beyond Compare 比对数据(详细操作)
步骤 1:创建文件夹比对会话
- 在电脑上安装并启动 Beyond Compare,点击左侧 “文件夹比较” 图标;
 
- 点击左侧文件夹图标,选择 “快速连接→FTP 配置文件”;
 
- 输入第一台服务器信息:
 
点击 “连接”,选择需比对的目标文件夹(如 “共享文件夹 / 业务数据”),点击 “确定”。
步骤 2:连接第二台服务器
- 点击右侧文件夹图标,重复步骤 2-3,输入第二台服务器的节点 IP(如 192.168.1.202)及 credentials;
 
- 选择与左侧相同的目标文件夹,点击 “确定”,软件自动开始比对(大文件需等待,可按 “暂停” 分批次比对)。
 
步骤 3:识别数据差异类型
比对完成后,软件用不同颜色标识差异,对应 Synology 数据场景的含义如下:
颜色标识  | 差异类型  | 说明(以 A 为保留节点,B 为移除节点为例)  | 
红色  | 内容冲突  | A 与 B 的同一文件内容不同(如文档修改时间或内容差异)  | 
蓝色  | 仅 A 有文件  | 脑裂期间仅 A 新增 / 保留的文件  | 
绿色  | 仅 B 有文件  | 脑裂期间仅 B 新增 / 保留的文件  | 
灰色  | 已删除文件  | 其中一台服务器删除,另一台仍保留的文件  | 
3. 大文件 / 海量数据的优化方案
若数据量超过 10TB 或文件数超 10 万,直接比对会耗时过久,可采用以下官方推荐方法:
- 按业务模块拆分比对:先比对核心数据(如财务文件),再比对非核心数据(如备份日志);
 
- 用户自主确认差异:将两台服务器的共享文件夹映射给相关用户,由用户标记需保留的文件版本;
 
- 借助命令行辅助:在 DSM 的 “终端机” 中用rsync --dry-run命令预检查差异(需启用 SSH 服务),命令示例:
 
rsync --dry-run -avz root@192.168.1.201:/volume1/数据/ root@192.168.1.202:/volume1/数据/
(注:--dry-run仅显示差异,不实际复制)。
三、核心步骤 2:数据冲突解决策略(按场景分类处理)
比对出差异后,需根据 “数据重要性”“修改时间”“业务规则” 确定保留方案,以下是官方认可的分类处理方法:
1. 共享文件夹数据冲突解决(最常见场景)
按差异类型执行对应操作,确保合并后数据完整:
直接复制到目标节点:在 Beyond Compare 中右键点击 “仅存在于 A 的文件”,选择 “复制到右侧”(或反之),保留所有新增数据。
优先保留 “最新修改” 版本:右键点击冲突文件,选择 “打开文件比较”,查看修改时间(以 DSM 文件属性为准),保留更新的版本;若均为关键修改,需人工合并内容(如文档合并段落)。
确认删除合理性:若删除是误操作(如用户误删),从另一节点恢复;若为正常清理(如过期日志),同步删除目标节点的文件。
2. iSCSI LUN 数据冲突解决(存储场景重点)
脑裂期间 iSCSI LUN 的写入会导致数据块不一致,处理需更谨慎:
- 查看官方差异日志:登录任一节点,进入 “Synology High Availability→Split-brain” 标签页,查看 “iSCSI Target 连接信息”,确定脑裂期间的写入来源;
 
- 优先保留 “业务写入节点” 数据:若 LUN 用于虚拟机存储,保留虚拟机运行的节点数据(可通过 Hypervisor 的磁盘读写日志确认);
 
- 强制覆盖同步:若无法判断,将保留节点的 LUN 完整复制到移除节点(用 “存储管理器→LUN 备份” 功能),覆盖冲突数据。
 
3. 系统配置与套件数据冲突解决
除文件外,套件配置(如 Synology Drive 同步任务)也可能存在差异:
- 登录保留节点,进入 “控制面板→备份与还原→配置备份”,导出当前配置;
 
- 重启套件(如 Drive、Photos),确保双节点配置一致。
 
4. 冲突解决后的验证(关键步骤)
- 重复 “数据比对” 流程,确认所有差异已处理(Beyond Compare 显示 “无差异”);
 
- 在两台节点的 DSM 中打开 “File Station”,随机抽查 10-20 个文件,核对大小、修改时间、内容是否一致;
 
- 测试服务可用性:在移除节点上临时启动 SMB 服务,用客户端访问,确认能正常读写合并后的数据。
 
四、核心步骤 3:重建 HA 集群(保留数据后恢复高可用)
数据一致性确保后,需将独立节点加回集群,恢复 HA 服务,步骤如下:
1. 选择主节点与从节点(决定同步方向)
- 确定主节点:优先选择 “脑裂期间业务持续运行” 的节点(可通过 “系统日志→登录记录” 确认用户访问痕迹);
 
- 标记从节点:将另一台已合并数据的服务器作为从节点,后续将主节点数据全量同步到从节点。
 
2. 移除旧集群配置(若已选择 “移除整个集群”)
- 登录主节点,打开 “Synology High Availability” 套件;
 
- 点击 “集群→管理→移除整个集群”,确认保留数据,等待节点恢复独立状态(约 2-5 分钟);
 
- 对从节点执行相同操作,确保双节点均脱离旧集群。
 
3. 重新创建 HA 集群(主节点操作)
- 在主节点的 HA 套件中点击 “创建集群”,输入从节点的 IP、管理员账号密码,点击 “下一步”;
 
- 集群设置页面:
 
- 心跳连接:选择冗余链路(如双网口绑定),避免再次脑裂;
 
- 确认设置时,系统提示 “将主节点数据同步到从节点”,点击 “应用”,开始全量同步。
 
4. 监控同步进度与状态
- 进入 “Synology High Availability→同步” 标签页,查看进度(如 “已同步 50%,剩余 1 小时”);
 
- 打开 “资源监视器”,确认磁盘读写速率(如 HDD 约 150MB/s,SSD 约 500MB/s)与网络传输速率(心跳网口应接近带宽上限);
 
- 同步完成后,套件提示 “集群创建成功”,从节点自动切换为 Passive 角色。
 
五、关键提醒:脑裂后的风险规避与长期预防
处理完当前问题后,需采取措施避免再次发生脑裂,同时规避后续运维风险:
1. 数据处理的 3 个禁忌操作
- 禁止直接加回集群:未合并数据前加回,会导致从节点数据被主节点覆盖,丢失差异数据;
 
- 禁止重启节点:脑裂未解决时重启,可能导致差异数据被标记为 “无效”,无法比对;
 
- 禁止修改文件权限:比对期间修改权限,可能导致第三方工具无法访问文件,比对失败。
 
2. 脑裂预防的 4 项核心配置(官方推荐)
- 心跳连接冗余:部署双心跳线(如网口 1 和网口 2 分别连接不同交换机),进入 “HA→网络→Heartbeat 接口” 配置;
 
- 启用仲裁机制:对 3 节点集群(需额外设备)启用 “Quorum”,确保少数节点无法成为 Active;
 
- 配置监控告警:在 “控制面板→通知中心” 设置 “心跳连接中断”“集群状态异常” 的邮件 / 短信告警,响应时间≤5 分钟;
 
- 定期测试切换:每月手动触发一次故障切换(“HA→集群操作→手动切换”),验证集群 IP 漂移与数据同步是否正常。
 
3. 长期运维的 2 个检查项
- 每周查看 “Split-brain” 日志:确认无隐性脑裂(短暂断连未触发告警但产生微小差异);
 
- 每月比对关键数据:用 Beyond Compare 抽查核心文件夹,确保增量同步正常(无未同步的差异)。
 
六、常见问题 FAQ(解答用户高频疑问)
Q1:没有第三方工具,能用 Synology 自带功能比对数据吗?
A:目前 DSM 无自带比对工具,但可通过以下替代方案:
- 用 “Hyper Backup” 将双节点数据备份到外部存储,再通过备份文件比对;
 
- 启用节点的 “Rsync 服务”,用rsync --list-only命令列出文件列表,手动对比差异(适合技术型用户)。
 
Q2:加回集群后,从节点的数据会被覆盖吗?
A:会。重建集群时,系统默认将主节点数据全量同步到从节点,因此必须在加回前完成从节点的数据合并,确保从节点已包含所有差异数据,避免覆盖丢失。
Q3:脑裂期间删除的文件,能通过集群恢复吗?
A:需分情况:
- 若仅单节点删除,可从另一节点恢复(比对时复制回来);
 
- 若双节点均删除,需从集群外备份恢复(如 Hyper Backup 的历史版本);
 
Q4:如何判断脑裂期间哪台节点是 “真实 Active”?
A:参考 3 个官方指标:
- “Split-brain” 标签页的 “成为 Active 服务器的时间”:保留先成为 Active 的节点数据;
 
- 客户端访问日志:通过 “控制面板→日志中心→文件服务” 查看,访问量高的节点为真实 Active;
 
- iSCSI 连接记录:若有 LUN,连接数多的节点为业务在用节点。
 
总结
Synology HA 集群脑裂后选择 “保留双机数据”,核心处理逻辑是 “先解决数据一致性,再重建高可用”—— 通过第三方工具精准比对差异,按业务规则合并冲突数据,最后以主节点为基准重建集群,实现服务恢复。关键在于避免 “未比对直接同步” 的致命错误,同时通过心跳冗余、监控告警等配置预防脑裂复发。
本文的操作步骤严格遵循 Synology 官方指南,覆盖从比对到重建的全流程,可直接用于生产环境实操。若你需要针对 “海量 LUN 数据比对”“跨机房 HA 集群脑裂处理” 等特殊场景补充细节,或获取工具配置模板,欢迎随时告知。