您的位置: 网界网 > 网络学院-软件 > 正文

由携程网故障折射IT监控之重要

2015年06月03日 14:36:10 | 作者:佚名 | 来源: | 查看本文手机版

摘要:2015年5月28日,携程网官网因“内部错误操作”宕机瘫痪近12小时,所有业务无法正常办理,这是继前一日支付宝因“光纤被挖断”大规模服务中断后,又一重大网络事件。

标签
携程网
IT监控

2015年5月28日,携程网官网因“内部错误操作”宕机瘫痪近12小时,所有业务无法正常办理,这是继前一日支付宝因“光纤被挖断”大规模服务中断后,又一重大网络事件。5月29日,携程网官方通报称:对于28日携程官网和移动APP瘫痪的原因,经其技术部门排查,确认此次事件是由于内部员工错误操作而删除了生产服务器上的执行代码导致。

这次事故,无疑让企业信誉和经济都遭受到巨大损失。互联网+时代,业务连续性就是企业的生命线,而它在如此简单的故障面前竟脆弱至此,这充分暴露出了企业对信息化监控管理重视不足,缺乏科学有效的管理手段和方法。本文无意针对携程揣摩是非,只是探讨从携程事件折射出的信息化监控管理问题。现代企业的信息化管理必须拥有连贯性和持续性,每一个环节出现问题都会造成灾难性后果。而携程事件对于越来越依赖网络的企业来说,着实上了深刻的一课,也提醒信息管理者去重[注]视信息化监控管理。

重视监控管理流程

像携程这样的企业,IT运维往往非常复杂,然而出错的地方却是在最简单的环节,这只能说是监控管理和流程方面尚不够完善,缺乏有效的自动化运维支撑。对于一个海量、大规模的信息系统,管理和流程的优化梳理要重于人员的技术和经验,特别是在执行一些日常性的、非决策性判断的工作时,管理机制和自动化监控措施就显得非常重要。现如今,企业的产品迭代速度越来越快,小到一个系统补丁升级的操作流程,大到产品重构的管理,都必须要有高效监控系统的介入,去除人的因素影响,避免人为失误。

建立有效预警措施

携程事件体现在技术层面,企业的业务系统往往会有各种应用以及相应的接口,而对于这方面如果没有严格的管理策略和严密的监控,则很难主动发现问题,比如性能下降、故障隐患等。当然,也缺乏业务系统趋势变化的预警分析。当前基础架构的完备性基本得到保障措施,但这并不代表已经有高级别的安全措施,毕竟没有确保系统发生不测的万全之策。必要的预警、报警技术手段不能忽视,因此,IT监控产品必不可少。针对此次事件,明显是运维安全审计缺失或严重不规范,危险操作没有被立即阻止;而事故发生后也没有立即报警并查明原因(+微信关注网络世界),则又说明追踪系统不明确。

为什么做IT监控

云计算[注]推动了数据中心的建设,也让各行各业开始了数据大集中的规划。以往IT管理者们面对的可能只是一个机房的上百台设备,而如今可能需要管理的是多个“数据中心”的海量设备。同时,应对应用系统的爆发式增长,保障海量应用系统的交付体验,成为摆在每位IT管理者面前的难题。理清业务与IT间的依赖关系,查看到引起业务中断的故障点和业务使用性能瓶颈,可以有效地避免系统宕机、进程僵死。分析IT故障对整个业务系统的影响范围,可以提高管理人员的工作效率,减少业务停顿时间,提高业务系统的可用性。

如何选择IT监控产品

美信科技(www.mxsoft.com)利用高效的开发和部署云监控解决方案,保护和管理企业的基础设施并帮助其优化性能,利用对信息化管理的洞察力最大限度参与到企业业务网络化业务建设过程中,并希望通过对企业应用系统的全方位监控支持推动企业的业务增长与投资回报,最终促进企业成功实现转型。

美信云监控采用自主开发、业界领先的预测式多任务分发技术,把监测密度从分钟级提升到秒级,以保证监测数据的实时性和精确性。企业业务的增加和产品快速升级带来业务系统的复杂性,毫厘之间的疏漏都可能会造成无法挽回的损失。正因如此,美信云监控的快速、灵活和高性能,为客户解决问题赢得了宝贵时间;具备业界最强的预报警系统,智能化故障告警管理,降低预警机制维护难度,杜绝人为错误,保障信息系统的健康稳定。

参考资料

1.云计算:(Cloud Computing)描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。云计算是继1980年代大型计算机到...详情>>

2.重复数据删除:是一种数据缩减技术,通常用于基于磁盘的备份系统,旨在减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复...详情>>

[责任编辑:孙可 sun_ke@cnw.com.cn]