写点什么

保驾护航,嘉为蓝鲸助力某科技公司 AD 域故障恢复实记

作者:嘉为蓝鲸
  • 2022-12-07
    广东
  • 本文字数:3792 字

    阅读完需:约 12 分钟

01 AD 是什么?


AD 是指微软 Active Directory 活动目录系统,作为目前市面上主流的活动目录产品,AD 在许多企业内部承担着基础架构核心系统的角色,维护这套系统的正常运行是企业内部基础运维的重要课题,需要 IT 人员拥有齐备的技术文档、丰富的社区案例知识以及企业长年的运维服务实践经验。


嘉为长期深耕于 AD 领域,对 AD 的规划、建设、升级、运维管理、灾难恢复、故障处理等均有实践经验,建立起了理念、技术、方案和人才的丰富储备,能够实现 AD 在企业内部的从无到有,从有到优。


然而并非所有企业都能成功建立起了合适的 AD 运维模式,其运维人员也不得不面对一个个“伤筋动骨”的 AD 故障。


本文将通过讲述某科技公司,以非良性 AD 运维模式为诱因,AD 域内所有域控均发生故障,必须进行林恢复的真实案例,与大家共同分享嘉为在 AD 领域的实践经验。


02 案例背景


1 故事的起点——常规恢复手段失效

2022 年 6 月 13 日,该企业 IT 管理员突然发现,在企业内部的无线网络无法正常认证连接,部分服务器的 DNS 无法解析域名。


在经过简单排查后发现,出现异常的客户端,其 DNS 服务器均指向主域控(指 PDC 角色所有者,这台主域控同时也是提供内部证书服务的 CA 服务器),随后 IT 管理员临时将 DNS 服务、应用 LDAP 连接从主域控迁移到同站点同机房的另一台域控制器上,同时临时取消了无线网络的认证规则。


暂时恢复业务后,IT 管理员按照日常方式,重新搭建了域控制器,以此来替代旧服务器,但将新服务器升级为域控时却出现了新的报错,报错中提到新服务器无法加入域,同时 DNS 注册异常。


在将常规手段全部尝试了一遍无果后,管理员开始寻求外部协助。


03 雷厉风行,嘉为迅速介入


1 故障初步排查——提供常见恢复方案

2022 年 6 月 15 日晚,该企业管理员通过集团总部联系到嘉为服务团队,嘉为立即提供了远程支持,通过远程连接到 AD 域环境后,发现以下问题:


  • 主域控认证功能正常,但 DNS 服务异常,LDAP 无法连接,可以通过 AD 远程管理工具访问目录数据。其他域控 DNS 服务正常,认证功能异常,LDAP 可以连接,但无法通过 AD 远程管理工具访问目录数据,同时域控间已无法正常复制。


  • 主域控的 DNS 日志有 4000、4007 事件,此时 DNS 管理器无法加载 DNS 区域,提示“拒绝访问”:


  • 登录其他域控制器,发现 SVSVOL 共享丢失,使用以下命令确认 DFS 复制状态,提示出错(代号 5):


经过上述检查后,嘉为技术人员以业务恢复为第一原则,做出以下判断:


  • 主域控 DNS 异常的原因是 PDC 丢失安全通道,需要重置主域控的计算机密码,在重置完成后 DNS 区域应能正常加载。


  • 修复主域控的安全通道后,需要对主域控执行 DFSR 复制的 SYSVOL 权威还原,对其他域控执行非权威还原,执行完成后其他域控的 SYSVOL 共享应恢复正常并发布为正常提供服务的域控制器。


在拥有良好的 AD 运维管理环境以及将可用 AD 备份的情况下,以上方案有利于故障的快速恢复,但随着嘉为团队对企业实际环境深入了解后,发现问题远比想象中的复杂。


2 尴尬而危险的平衡——更高的恢复要求


2022 年 6 月 16 日凌晨,在提交初步解决方案后,嘉为技术团队与开始域 IT 管理员沟通实施细节,却发现远程实施该方案存在着以下不可预估的风险:


  • 没有健康 AD 的可用备份。

  • 无法对主域控制器执行重启操作,仅有主域控制器能提供认证服务,停机影响过大。


由于当前主要业务功能未受到很大影响,于是约定当日下午到企业现场进行故障处理。经过现场沟通,我们对其 AD 域故障事件的复杂性有了全面的认知:


恢复方案不能中断业务

主域控无法停机,任何涉及重启的修复操作不在考虑范围之内。


恢复方案受复杂环境影响大

AD 域环境混乱,恢复方案需要排除的影响点过多,其中包括:

  1. 环境中域控制器版本横跨 Windows Server 2008 R2 到 Windows Server 2019,且服务器没有定期进行补丁更新,DFS 组件可能存在漏洞;

  2. 网络环境复杂,横跨多个机房,域控间应开启的网络策略并未全部放通,且域控制器皆为物理服务器,人员响应有时空上的困难;

  3. 各地域控制器由不同管理员管理,其上安装了各类服务,存在个别自行下线,元数据残留的域控制器。


恢复方案的时间压力大

618 期间,业务流量大,连续性要求高,当前仅一台域控制器提供认证,随时可能发生业务中断,必须尽快恢复。


既不能停机,又没有 AD 健康备份的保障,再加上参差不齐的服务器配置、复杂难捋的网络环境以及业务高峰的现实压力,此时这套 AD 系统,正处在一个尴尬而危险的平衡点,随时有可能绷断。


在对故障信息有了以上清晰的认知后,嘉为团队提出了一个新的解决方案,用过隔离辅助域控,进行林恢复。


3 新方案的制定——保障业务连续稳健恢复

2022 年 6 月 17 日上午,嘉为团队再一次对企业 AD 域环境进行了深度调研,获取各个域控的基本信息、应用角色以及受损情况。


针对域控上的服务角色,如 DHCP、DPS、CA 等,分别制定了迁移方案,以此形成了服务器信息调研表、拓扑图,故障恢复流程、checklist、恢复备案等合一的 AD 环境故障恢复方案。


同时与企业 AD 管理员、网络管理员、应用管理员等几乎所有相关的 IT 管理员沟通,并组织了多次的方案讨论,最终确定了恢复方案。


服务器信息调研表


拓扑图


在最终确定的恢复方案中,高版本的辅助域控将作为恢复基点,在隔离环境中执行以下操作:


  • 夺取操作主机角色

  • 清理其他域控的元数据

  • 执行 SVSVOL 权威还原


确保林恢复完成后,再进行一系列的域控搭建、服务角色迁移、脱域计算机处理等操作:


4 新方案的执行——些许波折,成功执行

2022 年 6 月 18 日晚。所有人到岗待命,开始执行恢复方案。


然而在准备隔离环境域控制器第一步时,就发生了令气压骤增的情况,原定计划需要使用生产环境的辅助域控进行裸机备份,再将裸机备份还原到隔离环境中,进行修复。


然而,企业整体环境中的虚拟化平台资源极少,大部分服务器均为物理机,在进行裸机备份还原的过程中,客户提供的虚拟机始终无法成功还原备份。


在经过 2 小时的尝试后,嘉为团队决定采用备份还原验证域生产服务器恢复并行的策略,即将备份提供给嘉为,让其使用其他可用环境还原验证,同时将一台生产环境的辅助域控制器进行隔离,进行恢复操作。


这样的决定,虽然稍微提高了对生产环境服务器的风险,但范围可以接受(限定在 1 台辅助域控制器)。终于在次日凌晨 3 点,成功在隔离环境中执行了林恢复,应用接入认证正常,常规域服务功能验证正常。


凌晨 6 点时,其他站点的辅助域控制器进行了替换,服务角色特逐步开始迁移,终于在员工上班前,所有角色完成了迁移并通过了功能验证。完成上述工作后,企业 AD 域的基本业务均已恢复,AD 域的可用性得到保障,所有人都松了一口气。


04 案例示警


针对上述 AD 域故障恢复案例,我们可以提供一些具体的建议或建设范畴:


  • 提高认知:AD 是基础架构核心系统,明晰 AD 运维在企业内部的定位。

  • AD 设计规范:使用什么版本的系统、开通哪些网络端口、何时增加域控、何时增加站点、对接入应用有什么要求等范畴,建议制定相关的规范,以确保 AD 域环境的规范。

  • 灾难恢复演练:做好 AD 备份,定期进行灾难恢复演练,更新灾难恢复文档,制定灾难恢复响应流程。

  • 建设 AD 域服务监控。


正如开头所说,AD 是一套在许多企业内部落地的的基础架构系统,许多事件的参考信息可以很便捷地在网络上查阅,有关特定事件的处理、特定的功能实现也有齐备的文档参考,但这仅仅只能提高运维人员处理特定问题的能力,却无法在 AD 运维的整体逻辑上提供保障。


实际上,我们仍然会一遍又一遍的建议和帮助客户建立起适用于企业的 AD 运维管理规范,它们是围绕 AD 的操作文档、规章制度、流程管理、运维工具和一系列运维实践,是这些要素共同服务于企业 IT 管理理念的产物。对于 AD 而言,健壮的“体魄”,而非“药石”,能更好地避免“伤筋动骨”。


05 嘉为 AD 运维服务


针对企业 AD 运维,嘉为团队提供全面一站式的技术服务,包括:AD 及基础架构实施、AD 域升级与架构优化、AD 安全加固、AD HW 服务等,助企业打造坚如磐石的 IT 系统,为企业信息系统保驾护航。


除此之外,嘉为还提供规划咨询服务、系统建设服务、二线专家服务、系统优化服务、IT 运维整体外包服务、人员派驻等服务,企业可以根据需求自由组合选择使用的服务内容和范围。


06 智能转型——WeOps 一体化运维平台


针对该科技公司 AD 域故障事件,嘉为团队后续推荐了 WeOps 一体化运维平台,持续赋能,帮助企业运维逐步迈向智能化。


嘉为蓝鲸 WeOps,是一款专注于保障企业业务连续性、支持国产化的一站式运维平台,以故障定位和全生命周期管理为核心,融合联动资源中心、健康扫描、监控告警、知识库、数字大屏及自动化运维工具等多项功能。


有关企业 AD 运维,WeOps 平台可从预防和监控故障处理两方面保驾护航:


1 预防

WeOps 平台可针对日常排查时发现的一系列隐患做到及时预防。案例中由于企业 AD 不规范导致系统存在没有备份、没有补丁安装、网络环境负载等隐患,而 WeOPs 平台可通过作业平台定时自动备份、通过补丁安装进行定期安装、通过平台进行网络设备的自动发现,生成拓扑完美解决上述问题。



2 监控故障处理

WeOps 平台中的监控告警系统,可做到持续监控,智能告警,提前发现问题,降低业务影响,一旦发生故障,可通过拓扑图分析关联影响,同时结合资产管理分析资产影响情况,最后采用自动化工具快速解决故障,持续保障企业业务连续性。




嘉为蓝鲸 WeOps 平台满足国产化兼容,支持在国产环境下的一站式运维,自主可控,帮助用户解决工具功能单一、众多 IT 运维对象管理难、自动化程度低、信创生态产品兼容等问题,助力客户安全落地一站式运维场景。


如果您的企业对 WeOps 平台以及嘉为 AD 运维服务感兴趣,以及了解更多相关内容,欢迎关注公众号:嘉为蓝鲸。


用户头像

嘉为蓝鲸

关注

研运至简,无限可为 2020-08-13 加入

蓝鲸智云一级技术合作伙伴,中国领先的研发运营一体化解决方案提供商

评论

发布
暂无评论
保驾护航,嘉为蓝鲸助力某科技公司AD域故障恢复实记_AD_嘉为蓝鲸_InfoQ写作社区