RSS

CASE04 生产环境中惊心动魄的patch安装失败恢复记录

20 Jun

在这个大型的生产环境中,我遵循PM要求的任何补丁都必须首先在虚拟测试环境中测试,并观察几日后,确认没有问题后,写报告给相关人员告知测试结果。等到相关人员确认后,我才能登陆到相关的服务器上进行补丁的安装。可是,我这次假装比较彪悍。大清早的跑到工位上开始了这个让所有同事一起惊心动魄的6小时。

1、使用sccm安装.net 2.0 sp2后,居然没有重启的按钮!安装补丁完后,直接就重启了!这不是问题,关键是我在等到第一台CAS安装70%的时候,觉得没有问题了,所以就随手直接在其余的CAS和HUB上也点击了安装。此刻第一台CAS出现自动重启现象的时候,我才发现安装完不经确认就自动重启的问题。而其时,其他的cas以及hub已经开始进入安装过程了。紧接着老大们,用户们,其他同事开始咆哮了:谁重启服务器了!!!!

2、过了一会相应的服务器都重启好了。服务也都起来了,此刻同事开始问了,cas为何连接不上了?但是我这里的测试发现,没有问题。那么问题在哪里呢?我感觉到一丝凉意:难道传说中的补丁安装失败出现了?我的心里开始压抑起来,紧接着脑袋充血,背后流汗,感觉脑袋上罩了个金钟罩。此时已经忘记要打电话给PM告知问题现象。

3、处理了半天发现,当前cas只有一台是可用的。但是方寸大乱,居然连将不可用的服务器从nlb中挪除这个简单的问题都没有想到。最后还是同事提点,我才想起了这招。

4、单独处理cas无法正确相应问题的时候,我遇到如下错误。owa页面无法访问404错误,后来解决了。总算可以看到owa登陆页面,但是发现owa登陆页面输入用户名密码后,无法登陆邮箱。这个问题也G到了类似的情景,采用了重建虚拟目录的办法。后来PM跑来进行处理,过了会解决问题了。但是又过了会发现,登陆到owa邮箱后,又发现点击其他邮箱tag的时候,出现404无法预料的错误。我此时已经脑袋晕眩,崩溃了。整个人无比的疲惫,居然快要昏睡过去了。后来PM找到解决办法了,最终问题就全部解决了。

5、将cas全部加入到NLB中,现在问题全部解决了。10点~16点一共6小时。

———–

问题的总结:

1、打补丁必须在非工作时间

2、必须遵守已有的工作章程

3、SCCM安装应用程序比如.net 这种类似的需要重启的补丁后会自动重启。但是安装系统补丁的时候,如果需要重启会有重启的确认框。而直接安装系统补丁软件的时候,重启确认框会出现。

4、安装完补丁后,需要进行测试。cas需要测试3点,1登陆界面,2连接邮箱,3邮箱中的标签可以正确的点击。HUB测试smtp服务正常即可。

5、需要准备好各种应急方案。比如NLB节点中的服务器要是服务启动失败,应该先从NLB群集中移出后,单独处理。

6、沟通。沟通是非常重要的,在case04中,我因为没有沟通,导致pm来处理问题的时间变得晚了,同事也崩溃了。

7、冷静。如你看到,我在case04中因为压力的原因,脑袋变得不冷静。因为不冷静,忘记了沟通,忘记了应急方案。

8、分析。其实case04中,cas服务失败的原因是非常简单的。实际上所有的处理仅仅只对照正常的cas的inetmgr配置即可解决问题,改3个小地方就能解决问题。不需要采用重建owa虚拟目录的解决办法。

最终的记录

好好看文档,做事要趁晚上。

可怜的W500使用power saver仅能使用3小时21分。

Advertisements
 
 

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

 
%d bloggers like this: