汪瑞阳
【摘要】
Exchange系统在AD域中的稳定性决定了域用户邮箱能否正常使用,在日常运维过程中需要时刻关注Exchange系统状态,包括服务器健康性、数据库挂载、数据库复制、邮件队列等,需要保障Exchange系统从操作系统到用户邮箱的状态稳定。
本文主要是记录一次操作系统层面出现问题故障导致用户邮箱无法正常使用的问题处理过程,因为这个故障点比较意外导致这个问题在处理绕了很大一圈,以此记录分享。
【正文】
1. 接到用户报障,出现Exchange用户邮箱发送邮件可以发送出去,邮件在已发邮件中可以收到,但是在收件箱看不到这封邮件;
2. 进一步排查发现,经过进一步排查发现,用户可以正常登录OWA和Outlook邮箱,所有用户邮箱均为内网邮箱。
1. 登录到两台后端服务器,运行Test-ServiceHealth命令检查邮件服务状态,发现服务正常;
2. 运行Test-ReplicationHealth -Identity MBS01,发现ClusterNetwork和DBCopySuspended测试结果失败;
3. 继续检查两台后端服务器的故障转移群集状态,通过检查群集事件日志记录发现MBS02服务器因为网络连接故障被移出了故障转移群集;
4. 登录ECP检查数据库服务器的副本复制状态,发现复制队列长度非常高;
5. 检查两台后端服务器的网络设备及网卡设备,发现MBS02服务器的心跳网卡被设置成了自动获取IP地址,无法与MBS01的心跳网卡进行正常通信;
6. 考虑到心跳网卡设置的连通性和私有性,参照MBS01的心跳网卡设置,将MBS02的心跳网卡IP设置成指定IP地址;
7. 设置完IP后,重新检查故障转移群集的健康性和DAG的健康状态,发现正常,检查数据库副本的复制队列长度,发现开始趋于正常状态。让用户进行收发邮件测试,发现收发邮件正常,问题解决。
1) Exchange后端服务器的网卡配置要正常,包括生产网卡和心跳网卡;
2) Exchange后端服务器的副本复制状态是否正常会影响到用户邮件流,需要加强关注,保证复制队列长度没有异常偏高。