本帖最后由 monicazhang 于 2015-11-6 11:22 编辑  
 
20151106 淡然 续上  
 
 
 
3.4   运维支撑3.4.1                现状描述 除了ITSM流程管理系统外,支撑某公司IT运维工作的还包括监控平台和自动化运维平台,以“集中交易系统”为例,其集中监控平台: n  集成标准监控指标和自定义的业务监控指标;                                  ITSS考试  n  事件以文字、颜色、声音报警,通过短信通知等方式发送给当事人; n  以多种维度进行组合视图展示; n  性能记录在数据库,便于分析和改进。 图 3.6 集中交易系统——集中监控平台  
其自动化运维平台: n  操作自动化:开闭市流程一键执行、定时自动执行任务、批量升级打系统补丁等、系统批量重启等,同时将执行结果的成功或失败信息以图形化的形式展现; n  健康检查:手工批量或自动地对应用的所有关键环节进行巡检,可以生成检查记录和报告; n  应急管理:管理应急过程的自动化脚本、动作录制等,提供主备快速一键式切换功能,提高切换的质量和效率; n  模拟业务检查:发送正常的业务操作,检查业务是否结果正常(主要是用测试账号做查询或废单业务等); n  统一门户:可集成在公司的门户网站、VPN或IT运营平台等,可统一登录和认证; n  展示大屏:对执行过程,应用状态直观显示,如仪表盘等显示方法。 图 3.7 集中交易——自动化运维平台  
3.4.2                关键发现 在前期的访谈调研中,有集中交易系统管理员担心“有的系统管理员对自动化报警缺乏关心,系统已报警,短信邮件推出后,仍不处理。”同时,对于自动化系统而言,“自动化系统控制系统较多,当自动化系统故障时,所有系统需恢复手工操作,需各系统管理员有应急手段,并定期演练手工启动。”在访谈过程中,我们对集中交易系统的自动化运维任务也做了相关统计:                  ITSS认证  表 3‑4 自动化运维任务统计 [td] 任务名称  
 | 执行时间  
 | 手动操作文档  
 | 与实际步骤一致  
 | 手动执行时间  
 | 及时更新操作文档  
 | 操作成败标志  
 |  开市业务  
 | 7:54-9:14  
 | 有  
 | 是  
 | 110min  
 | 是  
 | 是  
 |  闭市业务  
 | 3:14-17:05  
 | 有  
 | 是  
 | 110min  
 | 是  
 | 是  
 |  日常维护  
 | 视任务不同而不同  
 | 有  
 | 是  
 | N/A  
 | 是  
 | 是  
 |  巡检报表  
 | 5分钟  
 | 有  
 | 是  
 | 25min  
 | 是  
 | 是  
 |  系统升级  
 | 15分钟,视升级不同而不同  
 | 有  
 | 是  
 | 120min  
 | 是  
 | 是  
 |  业务模拟  
 | 一般在5分钟内执行完毕  
 | 有  
 | 否  
 | 15min  
 | 是  
 | 是  
 |  定时任务  
 | 视任务不同而不同  
 | 有  
 | 否  
 | N/A  
 | 是  
 | 是  
 |  应急切换  
 | 基本单个切换在5分钟之内  
 | 有  
 | 是  
 | 15min  
 | 是  
 | 是  
 |  
 通过上表可以看出,在自动化系统无法完成任务时,手动执行确实需要花费较多时间,在手动操作文档完备并及时更新的条件下,管理员的操作熟练程度将是应对此类风险的关键。                                       ITSS培训  
 
 
 
 
 
 |