本帖最后由 monicazhang 于 2015-11-6 11:22 编辑
20151106 淡然 续上
3.4 运维支撑3.4.1 现状描述 除了ITSM流程管理系统外,支撑某公司IT运维工作的还包括监控平台和自动化运维平台,以“集中交易系统”为例,其集中监控平台: n 集成标准监控指标和自定义的业务监控指标; ITSS考试 n 事件以文字、颜色、声音报警,通过短信通知等方式发送给当事人; n 以多种维度进行组合视图展示; n 性能记录在数据库,便于分析和改进。 图 3.6 集中交易系统——集中监控平台
其自动化运维平台: n 操作自动化:开闭市流程一键执行、定时自动执行任务、批量升级打系统补丁等、系统批量重启等,同时将执行结果的成功或失败信息以图形化的形式展现; n 健康检查:手工批量或自动地对应用的所有关键环节进行巡检,可以生成检查记录和报告; n 应急管理:管理应急过程的自动化脚本、动作录制等,提供主备快速一键式切换功能,提高切换的质量和效率; n 模拟业务检查:发送正常的业务操作,检查业务是否结果正常(主要是用测试账号做查询或废单业务等); n 统一门户:可集成在公司的门户网站、VPN或IT运营平台等,可统一登录和认证; n 展示大屏:对执行过程,应用状态直观显示,如仪表盘等显示方法。 图 3.7 集中交易——自动化运维平台
3.4.2 关键发现 在前期的访谈调研中,有集中交易系统管理员担心“有的系统管理员对自动化报警缺乏关心,系统已报警,短信邮件推出后,仍不处理。”同时,对于自动化系统而言,“自动化系统控制系统较多,当自动化系统故障时,所有系统需恢复手工操作,需各系统管理员有应急手段,并定期演练手工启动。”在访谈过程中,我们对集中交易系统的自动化运维任务也做了相关统计: ITSS认证 表 3‑4 自动化运维任务统计 [td] 任务名称
| 执行时间
| 手动操作文档
| 与实际步骤一致
| 手动执行时间
| 及时更新操作文档
| 操作成败标志
| 开市业务
| 7:54-9:14
| 有
| 是
| 110min
| 是
| 是
| 闭市业务
| 3:14-17:05
| 有
| 是
| 110min
| 是
| 是
| 日常维护
| 视任务不同而不同
| 有
| 是
| N/A
| 是
| 是
| 巡检报表
| 5分钟
| 有
| 是
| 25min
| 是
| 是
| 系统升级
| 15分钟,视升级不同而不同
| 有
| 是
| 120min
| 是
| 是
| 业务模拟
| 一般在5分钟内执行完毕
| 有
| 否
| 15min
| 是
| 是
| 定时任务
| 视任务不同而不同
| 有
| 否
| N/A
| 是
| 是
| 应急切换
| 基本单个切换在5分钟之内
| 有
| 是
| 15min
| 是
| 是
|
通过上表可以看出,在自动化系统无法完成任务时,手动执行确实需要花费较多时间,在手动操作文档完备并及时更新的条件下,管理员的操作熟练程度将是应对此类风险的关键。 ITSS培训
|