RedHat高可用集群深度解析与优化

Sally璐璐

于 2025-07-04 13:45:42 发布

阅读量1k

点赞数 25

CC 4.0 BY-SA版权

分类专栏：运维文章标签： linux 网络运维

本文链接：https://blog.csdn.net/weixin_46060074/article/details/149115896

运维专栏收录该内容

34 篇文章

订阅专栏

一、RHCS核心组件深度解析

1. Corosync（消息层）

通信机制改进说明：
Totem协议采用环形令牌传递机制，在10节点以下集群中使用UDP/IP组播（224.0.0.12），超过10节点建议改用UDP/UDP单播。典型配置示例：

totem {
    version: 2
    transport: udpu
    interface {
        ringnumber: 0
        bindnetaddr: 192.168.1.0
        mcastport: 5405
        ttl: 1
    }
    crypto_cipher: aes256  # 新增AES256加密
    crypto_hash: sha1      # 数据完整性校验
}

心跳检测优化建议：

千兆网络：建议心跳间隔1秒，超时3秒
万兆网络：可调整心跳间隔500ms，超时2秒
跨机房部署：需考虑网络延迟，建议设置interval=2s timeout=10s
卫星节点：对于远程灾备节点，建议interval=5s timeout=30s

状态同步增强特性：

消息序列号校验确保无丢包
支持TCP重传机制（重传超时设置retransmits_before_loss_const=5）
自动生成checksum防止数据篡改
支持消息压缩（compress_threshold=2048）

2. Pacemaker（资源管理器）

高级调度策略示例：

# 设置故障转移优先级（带节点权重）
pcs constraint location add prefer-node1 vip node1 100
pcs constraint location add prefer-node2 vip node2 50
pcs constraint location add forbid-node3 vip node3 -INFINITY

# 配置资源粘性（防止频繁切换）
pcs resource meta apache \
    migration-threshold=3 \
    failure-timeout=300s \
    resource-stickiness=100

# 复杂排序约束（数据库先于应用启动）
pcs constraint order start db-server then start app-server kind=Optional

监控机制增强：

进程监控：精确到进程树检测（防止僵尸进程），可设置monitor depth=3
健康检查：支持HTTP(S)/TCP自定义探针，可配置预期响应码和内容匹配
响应超时：可设置grace period避免误判（op monitor timeout=30 interval=60）
资源依赖：支持多级依赖检测（requires=any/all/none）

3. Fence设备（隔离机制）

企业级配置方案：

# 双重fence配置（主备模式）带超时设置
pcs stonith create primary-fence fence_ipmilan \
    params pcmk_host_list="node1 node2" ipaddr=10.0.0.1 \
    login=admin passwd='$secure_pwd' \
    op monitor interval=30s timeout=20s

pcs stonith create secondary-fence fence_apc \
    params pcmk_host_list="node1 node2" ipaddr=10.0.0.2 \
    login=admin passwd='$secure_pwd' \
    op monitor interval=45s timeout=30s \
    meta provides=unfencing

# 延迟隔离配置（给节点自救机会）
pcs property set stonith-timeout=60s
pcs property set stonith-watchdog-timeout=10s

4. GFS2文件系统

性能调优参数：

# 创建时优化（带日志节点指定）
mkfs.gfs2 -p lock_dlm -t mycluster:myfs -j 3 \
    -O -r 512 -b 4096 /dev/vgshared/lv0

# 挂载参数建议（带配额支持）
mount -t gfs2 -o noatime,nodiratime,data=ordered,quota=on \
    /dev/vgshared/lv0 /mnt/gfs2

# 运行时调优（内存缓存设置）
echo "vm.gfs2.glocks_limit=25000" >> /etc/sysctl.conf
echo "vm.gfs2.lru_limit=1000" >> /etc/sysctl.conf

二、部署实施指南

1. 环境准备

详细硬件规范：

节点配置：
- 生产环境：建议64GB+内存，16+物理核心
- 关键业务：建议128GB内存，32核心，NVMe本地缓存
存储网络：
- FC SAN：双8Gbps HBA卡，多路径配置（mpath）
- iSCSI：25GbE网络，TCP offload引擎支持
心跳网络：
- 建议双万兆网卡bonding（mode=active-backup）
- 专用交换机，VLAN隔离
- 物理隔离：建议使用独立网段（如192.168.100.0/24）

软件要求：

操作系统：RHEL 8.4+ with HA附加组件
内核版本：4.18.0-305.el8.x86_64+
SELinux：建议使用targeted模式

2. 配置流程

高级资源配置示例：

# 带依赖关系的资源组（带健康检查）
pcs resource create db-fs Filesystem \
    device="/dev/mapper/vg-db" \
    directory="/var/lib/mysql" \
    fstype="xfs" \
    op monitor interval=20s timeout=40s \
    --group db-group

pcs resource create db-server mysql \
    config="/etc/my.cnf" \
    pid="/var/run/mysqld/mysqld.pid" \
    op monitor interval=10s timeout=20s \
    op start timeout=120s \
    op stop timeout=300s \
    --group db-group

# VIP资源带ARP检测
pcs resource create web-vip IPaddr2 \
    ip=192.168.1.100 \
    cidr_netmask=24 \
    arp_count=5 \
    arp_interval=200 \
    --group web-group

三、性能优化策略

1. 网络优化

生产级网络配置：

# 网卡bonding配置（带MTU优化）
nmcli con add type bond con-name bond0 ifname bond0 \
    mode=802.3ad \
    miimon=100 \
    lacp_rate=fast \
    xmit_hash_policy=layer3+4

nmcli con modify bond0 802-3-ethernet.mtu 9000
nmcli con add type bond-slave ifname eth1 master bond0
nmcli con add type bond-slave ifname eth2 master bond0

# Corosync多网卡配置
pcs cluster setup --name mycluster \
    --transport udpu \
    --addr0 192.168.100.0 --netmask0 24 \
    --addr1 192.168.101.0 --netmask1 24 \
    --node node1-addr=192.168.100.101,192.168.101.101 \
    --node node2-addr=192.168.100.102,192.168.101.102

2. 存储优化

GFS2高级参数：

# 动态调整参数（根据负载自动调节）
echo "demote_secs = 60" > /sys/fs/gfs2/volname/tune
echo "incore_log_blocks = 1024" > /sys/fs/gfs2/volname/tune

# 日志节点优化（指定专用节点）
gfs2_tool journals /mnt/gfs2
gfs2_tool freeze /mnt/gfs2
gfs2_tool add -j 2 -J node1 /mnt/gfs2
gfs2_tool unfreeze /mnt/gfs2

# 预读优化（针对顺序读写场景）
blockdev --setra 8192 /dev/mapper/vg-shared

四、企业级应用案例

案例3：证券交易所订单系统

关键配置：

网络架构：
- 主集群：采用RDMA网络（RoCE v2）实现μs级延迟
- 灾备集群：DWDM光纤直连，延迟<2ms
定制开发：
- Pacemaker插件处理金融级事务（两阶段提交）
- 订单状态同步中间件（每秒处理50万+消息）
运维保障：
- 每交易日自动执行故障切换演练
- 交易时段禁止自动故障转移（维护窗口控制）
- 实时性能监控（Prometheus+Granfana看板）

五、技术对比分析

扩展对比维度：

对比项	RHCS优势	Kubernetes优势
状态型应用支持	强一致性保证<br>支持共享存储<br>传统中间件兼容性	最终一致性模型<br>无状态应用优化<br>声明式API
硬件利用率	物理机级资源分配<br>NUMA感知<br>SR-IOV支持	细粒度容器调度<br>混部能力<br>弹性伸缩
运维复杂度	成熟的管理工具链<br>稳定可靠的API<br>厂商支持	丰富的自动化运维生态<br>CI/CD集成<br>多云支持
适用场景	传统数据库<br>关键业务系统<br>低延迟应用	微服务架构<br>云原生应用<br>快速迭代业务

六、常见问题解决方案

高级诊断方法：

# 集群状态深度分析（带时间戳记录）
crm_report -f /tmp/cluster-report \
    --from "2023-01-01 00:00" \
    --to "2023-01-02 00:00" \
    --all

# 性能热点检测（带锁争用分析）
gfs2_edit -p show /dev/mapper/vg-shared | \
    grep -A 20 "Lock tables" | \
    awk '/waiters/ {print $0}'

# 实时事件监控
crm_mon -E -1 | tee /tmp/cluster_events.log

灾备恢复方案：

预防性措施：
- 定期备份集群配置：pcs config backup cluster_bak_$(date +%Y%m%d).xml
- 记录资源状态：pcs status --full > cluster_status_$(date +%s).log
- 配置校验：pcs config verify | grep -v "OK"

恢复流程：

# 沙箱测试恢复
crm_shadow --create recovery-test
crm_shadow --commit recovery-test --force

# 节点恢复步骤
pcs cluster stop --all
pcs cluster start --all
pcs resource cleanup --all

# 脑裂后恢复
pcs property set no-quorum-policy=stop
pcs cluster stop --all
pcs cluster start --force

事后分析：
- 收集corosync日志：journalctl -u corosync --since "1 hour ago"
- 分析fence事件：stonith_admin --list-history
- 生成诊断报告：hb_report -f /tmp/heartbeat_report