挨踢达人 发表于 2012-9-10 17:26:58

神州数码ITIL实践之从根本上解决问题(转)

  学习资料: ITIL先锋论坛专家讲堂直播 300期视频回放





公司的邮件系统突然死机了。而此时正是公司邮件的高收发期。这该怎么办呢?按照突发事件处理流程,工程师小王立刻重新启动系统。还好,5分钟后,邮件收发正常了。可是出现死机的原因到底是什么,以后还会不会发生?小王心里却没有底。

  可见,虽然解决突发问题的流程规范了,但这仍然只是事后补救的办法——因为这不能避免同样的问题依然会产生。IT人员是不是只能用跟上次同样的办法来解决呢?

  突发事件管理可以帮助IT部门更加系统、快速地处理突发事件。但是,突发事件管理流程只是规范处理突发事件的过程,以尽快恢复故障。这好比是急诊抢救,不以根本治疗为目的,是一种应急治标的方法。

  为了使对突发事件的管理有质的提高,神州数码还必须找到一种治本的方法。这就是问题管理流程。

  问题是导致一起或多起突发事件的潜在原因。问题管理就是要找到突发事件的根本原因,尽量减少IT基础架构、人为错误和外部突发事件等缺陷或过失对业务造成的影响,并防止他们重复发生。

  问题管理与突发事件管理有明显的不同,突发事件管理是要尽可能快地恢复服务,而问题管理的主要目的是找出突发事件产生的根本原因。更进一步,如果问题管理发现一个或多个突发事件产生的原因,并找到解决这些突发事件的临时措施,就将其升级为已知错误(Known Error),并提交变更请求(Request for Change,RFC)以消除突发事件或问题产生的隐患,并彻底地解决问题。相对于突发事件管理,问题管理是一种治本策略。

  为了让IT系统的管理能够从治标转变到治本,神州数码从三个方面予以落实。

  一是观念的转变。一般来说,IT工程师在面临突发事件时,往往是以解决突发事件、恢复服务正常为主,而很少会想到挖掘突发事件发生的根本原因。因此,从观念上,神州数码强调,在解决突发事件时,需要对突发事件的原因进行记录、分析;而在解决突发事件以后,要向业务部门解释突发事件产生的原因,以及找到避免突发事件再次发生的方法。

  二是建立IT问题库。这是IT知识的积累、汇集地。IT工程师每月要对突发事件进行总结,归纳为IT常见问题和操作手册,发布到IT问题库中进行更新。IT工程师可以在IT问题库中进行学习,了解员工日常工作中常见的IT问题。同时,发布的IT常见问题解答和IT操作手册也成为客户自学、提高IT技能的重要渠道。当然,整理、归纳以后的IT知识也会及时补充到IT培训教材中。

  三是建立问题管理流程,并将它与突发事件管理和变更管理流程集成在一起。在确定问题发生的根本原因以后,问题转变为“已知错误”。为解决“已知错误”,提出变更请求(RFC),执行变更管理,以彻底解决问题,杜绝突发事件的再次发生。

daisy8 发表于 2012-9-10 17:32:28

看过 神州数码 deITIL实践,是在不错。

nilewole2008 发表于 2012-9-11 09:17:44

:lol 楼主是神州数码的?欢迎多分享。。。

Boban 发表于 2012-9-11 12:50:09

我们公司就存在问题管理薄弱的问题,永远都是在救火,没有静下心来分析事件发生的原因,心态也容易浮躁,不利于管理

sailor.liu 发表于 2012-11-16 13:47:43

页: [1] 2
查看完整版本: 神州数码ITIL实践之从根本上解决问题(转)