在 Synology High Availability(HA)集群运维中,仲裁服务器(Quorum Server) 是解决 “脑裂(Split Brain)” 故障的关键组件 —— 当主从服务器心跳线中断、双方均判定对方故障时,若无仲裁服务器,会导致双机同时 “活跃”,引发数据冲突;而仲裁服务器通过 “第三方投票机制”,能精准判定主从状态,强制让无效节点下线,保障集群数据一致性。很多用户虽部署了 HA 集群,却因未配置仲裁服务器,在网络波动时频繁遭遇脑裂,导致业务中断数小时。本文结合 Synology 官方技术文档,从核心定义、作用机制、配置步骤到故障处理,全面拆解仲裁服务器的关键要点,帮你构建更稳定的 HA 集群体系。
一、核心认知:什么是 Synology HA 集群的仲裁服务器?
在理解仲裁服务器前,需先明确其在 HA 集群架构中的定位 —— 它并非 “替代主从服务器”,而是 “第三方决策节点”,通过 “奇数投票” 机制解决主从分歧,本质是 HA 集群的 “裁判”。
1. 仲裁服务器的定义与架构定位
Synology HA 集群默认是 “主从双机架构”,而添加仲裁服务器后,形成 “主从 + 仲裁” 三方架构(见图 1),三者的角色分工明确:
- 主服务器(Active):承载业务负载,写入数据并同步到从服务器;
 
- 从服务器(Passive):实时同步主服务器数据,待机状态;
 
- 仲裁服务器(Quorum Server):不承载业务,仅负责 “状态监测” 与 “投票决策”—— 定期接收主从服务器的健康信号,当主从通信中断时,通过投票判定哪台服务器有效,强制无效节点进入待机状态。
 
图 1:HA 集群 + 仲裁服务器的三方架构图
2. 为什么需要仲裁服务器?(无仲裁的 3 大风险)
未配置仲裁服务器的 HA 集群,在 “心跳线中断” 时会面临致命风险,而仲裁服务器能精准解决这些问题:
无仲裁服务器的风险  | 具体场景  | 仲裁服务器的解决方式  | 
1. 脑裂故障(核心风险)  | 心跳线断开,主从均认为对方故障,同时 “活跃”,写入数据导致冲突  | 仲裁服务器发起投票,仅让 “健康状态正常” 的节点保留活跃,另一台强制待机  | 
2. 状态误判  | 从服务器短暂网络卡顿,主服务器误判其故障,触发不必要的切换  | 仲裁服务器结合双方健康报告,排除短暂卡顿干扰,避免误切换  | 
3. 恢复复杂  | 脑裂后需手动停机恢复,数据一致性需人工校验,耗时 4 小时 +  | 仲裁服务器自动解决脑裂,恢复时间缩短至 5 分钟内,无需人工干预  | 
据 Synology 官方数据,配置仲裁服务器的 HA 集群,脑裂发生率降低 98%,故障恢复时间从平均 4 小时缩短至 3 分钟。
二、核心作用:仲裁服务器的 3 大核心机制(投票 + 监测 + 决策)
仲裁服务器的核心价值通过 “健康监测”“投票决策”“强制下线” 三大机制实现,其中 “投票机制” 是关键,需严格遵循 “奇数投票” 原则(三方架构共 3 票,超过半数即 2 票可决策)。
1. 机制 1:实时健康监测 —— 持续收集主从状态
仲裁服务器通过 “定时健康报告” 掌握主从状态,避免信息滞后导致误判:
- 监测频率:默认每 1 秒接收一次主从服务器的健康信号,包含 “CPU 负载、内存使用率、存储状态、网络连通性”4 类核心指标;
 
- 信号内容:主服务器需上报 “业务运行状态(如 VM 是否正常)”“数据同步进度”,从服务器需上报 “同步状态(是否与主保持一致)”;
 
- 异常预警:当某台服务器的健康信号延迟超过 3 秒(可自定义),仲裁服务器标记其为 “可疑节点”,启动进一步验证(如主动 ping 该节点)。
 
2. 机制 2:投票决策 —— 奇数投票解决主从分歧(核心机制)
当主从服务器心跳线中断(无法互传状态),仲裁服务器通过 “投票” 判定有效节点,遵循 “少数服从多数” 原则,具体流程如下(见图 2):
- 触发投票:仲裁服务器检测到主从心跳中断(双方均报告 “无法连接对方”),立即发起投票;
 
- 投票发起:仲裁服务器向主从服务器发送 “投票请求”,要求双方上报自身健康状态(是否能正常读写数据、存储是否正常);
 
- 投票统计:三方各有 1 票,仲裁服务器根据健康状态判定投票有效性 —— 健康节点投 “保留活跃” 票,异常节点投 “待机” 票(或无响应视为无效票);
 
- 决策执行:
 
- 若主服务器健康 + 仲裁投票 = 2 票:判定主服务器有效,强制从服务器进入待机状态;
 
- 若从服务器健康 + 仲裁投票 = 2 票:判定从服务器有效,强制主服务器进入待机状态;
 
- 若仅仲裁 1 票有效(主从均异常):仲裁服务器触发 “集群保护模式”,禁止双机活跃,等待人工干预。
 
图 2:仲裁服务器投票决策流程图
3. 机制 3:强制下线 —— 避免无效节点持续活跃
当投票决策出 “无效节点” 后,仲裁服务器通过 “强制指令” 让其进入待机状态,避免数据冲突:
- 指令类型:发送 “暂停业务服务” 指令(如关闭 VM、停止文件共享),再发送 “切换待机状态” 指令;
 
- 执行保障:若无效节点拒绝执行指令(如网络卡顿),仲裁服务器会通过 “集群管理 API” 强制修改其状态,确保双机不同时活跃;
 
- 恢复机制:当无效节点故障修复(如心跳线恢复),需向仲裁服务器发送 “恢复请求”,经仲裁验证健康后,才能作为从服务器重新加入集群,避免擅自活跃。
 
三、配置前必知:仲裁服务器的 3 大前提条件(兼容性 / 版本 / 网络)
仲裁服务器配置对硬件兼容性、系统版本有严格要求,任一条件不满足会导致配置失败,需提前验证:
前提类别  | 具体要求  | 验证 / 适配方法  | 
1. 仲裁服务器兼容性  | ① 支持 “Synology 官方仲裁服务器”(部署在另一台 Synology NAS)或 “第三方仲裁服务器”(如 Linux 服务器,需支持 Synology Quorum 协议);② 若用 Synology NAS 作仲裁,需在官方兼容性列表内(如 DS223+、DS923+,不支持 ARM 入门机型如 DS119j);③ 硬件配置:CPU≥双核,内存≥2GB(仅运行仲裁服务,资源需求低)  |  | 
2. 系统与套件版本  | ① 主从服务器 + 仲裁服务器的 DSM 版本均为 7.0 及以上(DSM 6.x 仅支持旧版仲裁服务,功能有限);② 主从服务器需安装 “高可用性” 套件 3.0.0+;③ 仲裁服务器需安装 “Quorum Server” 套件 1.0.0+(Synology NAS 专用)  | ① 三台设备均登录 DSM→「控制面板→信息中心」查看版本,低于 7.0 则升级;② 主从服务器「套件中心→已安装」确认 “高可用性” 版本≥3.0.0;③ 仲裁服务器「套件中心」搜索 “Quorum Server”,点击「安装」  | 
3. 网络要求  | ① 仲裁服务器与主从服务器均需在同一局域网(或通过 VPN 实现外网连通),延迟≤5ms,丢包率<0.1%;② 需开放端口:TCP 5666(仲裁服务通信端口),禁止防火墙拦截;③ 仲裁服务器需配置静态 IP(如 192.168.1.30),避免 IP 变动导致连接中断  | ① 主从服务器分别 ping 仲裁服务器 IP(如 ping 192.168.1.30),确认延迟≤5ms;② 三台设备「控制面板→安全→防火墙」添加规则:允许 TCP 5666 端口通信;③ 仲裁服务器「控制面板→网络」设置静态 IP,子网掩码与主从一致  | 
四、DSM 7.x 实操:仲裁服务器配置的 4 步完整流程(以 Synology NAS 作仲裁为例)
以 “用另一台 Synology NAS(如 DS223+)作为仲裁服务器” 为例,详细拆解配置步骤,第三方 Linux 仲裁可参考此流程调整:
步骤 1:在仲裁服务器上安装并初始化 Quorum Server 套件
- 登录仲裁服务器(DS223+)的 DSM,打开「套件中心→所有套件」;
 
- 搜索 “Quorum Server”,点击「安装」,等待安装完成(约 2 分钟);
 
- 安装后打开「Quorum Server」套件,点击「初始化」;
 
- 设置 “仲裁服务端口”(默认 5666,建议保持默认,避免端口冲突),点击「下一步」;
 
- 创建 “管理员密码”(用于主从服务器连接仲裁时验证身份),点击「完成」,仲裁服务启动(套件状态显示 “运行中”)。
 
步骤 2:在 HA 主服务器上添加仲裁服务器
- 登录 HA 主服务器的 DSM,打开「高可用性→设置→仲裁服务器」;
 
- 点击「添加仲裁服务器」,选择 “Synology Quorum Server”(若为第三方 Linux,选择 “Generic Quorum Server”);
 
- 输入仲裁服务器信息:
 
- 点击「测试连接」,显示 “连接成功” 后点击「下一步」;
 
- 系统自动向从服务器同步仲裁配置(约 1 分钟),同步完成后显示 “仲裁服务器已添加”。
 
步骤 3:验证仲裁服务器状态
- 在主服务器「高可用性→状态」页面,查看 “仲裁服务器” 状态,显示 “已连接” 则配置成功;
 
- 点击「仲裁服务器→详情」,确认 “健康报告接收频率” 为 1 秒,“投票机制” 为 “三方投票”;
 
- 在仲裁服务器的「Quorum Server→日志」中,查看是否有 “主从服务器已连接” 的记录,无报错则正常。
 
步骤 4:模拟心跳中断,测试仲裁功能(关键验证)
为确保仲裁服务器能正常工作,需模拟 “主从心跳中断” 场景测试:
- 手动断开主服务器与从服务器的心跳线(拔掉 LAN 1 网线);
 
- 观察主从服务器状态:
 
- 有仲裁时,仲裁服务器会在 3 秒内发起投票,若主服务器健康,从服务器会被强制待机(状态显示 “待机”);
 
- 重新连接心跳线,从服务器自动恢复同步,集群状态回到 “正常”,测试完成。
 
五、常见问题:仲裁服务器配置与运行的 3 大故障解决
1. 问题 1:主服务器添加仲裁时提示 “连接失败”
- 原因:① 仲裁服务器端口被防火墙拦截;② 密码输入错误;③ 仲裁服务未启动;
 
- 登录仲裁服务器,确认「Quorum Server」套件状态为 “运行中”,若未运行则点击「启动」;
 
- 检查主从服务器与仲裁的防火墙规则,确保 TCP 5666 端口开放;
 
- 重新输入仲裁密码(注意大小写),点击「测试连接」,若仍失败,重启仲裁服务器后重试。
 
2. 问题 2:心跳中断时,仲裁服务器未发起投票
- 原因:① 仲裁服务器未收到主从的健康报告(网络延迟超 3 秒);② 主从服务器未开启 “仲裁协作” 功能;
 
- 主从服务器分别 ping 仲裁服务器,确保延迟≤5ms,无丢包;
 
- 主服务器「高可用性→设置→仲裁服务器」,确认 “启用仲裁协作” 已勾选;
 
- 重启主从服务器的 “高可用性” 套件,重新同步仲裁配置。
 
3. 问题 3:仲裁投票后,无效节点拒绝待机
- 原因:① 无效节点有未完成的业务进程(如 VM 未关闭);② 集群配置文件损坏;
 
- 手动登录无效节点,关闭所有运行的套件(如 Virtual Machine Manager、File Station);
 
- 主服务器「高可用性→操作→强制同步配置」,修复集群配置;
 
- 若仍无效,在主服务器执行 SSH 命令synoha --quorum --force-passive,强制无效节点待机。
 
六、总结:仲裁服务器的部署建议与适用场景
Synology HA 集群仲裁服务器并非 “可选组件”,而是 “关键业务的必选组件”—— 对于承载数据库、虚拟机等核心业务的 HA 集群,配置仲裁服务器能彻底解决脑裂风险;而对于非核心业务(如普通文件共享),可根据预算选择是否部署,但仍建议用低成本的入门款 NAS(如 DS223+)作为仲裁,提升集群稳定性。
部署时需注意:仲裁服务器需与主从服务器物理隔离(如放在不同机柜),避免因同一机房断电导致仲裁失效;同时定期检查仲裁服务状态(建议每周一次),确保其持续正常运行。
为帮你快速核对配置步骤,我可整理一份 **《Synology HA 集群仲裁服务器配置 Checklist》**,包含前提验证项、步骤清单、故障排查速查表,打印后可直接对照执行,你是否需要?