> 数据库 > Oracle >

Oracle运维服务的四根救命稻草

企业信息化系统建设按生命周期可分为IT规划阶段、IT建设阶段和IT运维阶段,其中,IT运维阶段的时间最长,IT运维管理关乎着IT运维的质量、成本和速度,更关乎着IT系统的安全、连续和可用。大数据云计算时代的来临,使Oracle服务商需要集中精力提高运维服务核心竞争力,才能促使运维外包走向更深的发展。

1.数据安全

数据安全是第一位的,Oracle服务商的首要职责必须保证不丢数据,丢掉数据就丢掉了饭碗!

1)在人为误操作的时候(update,insert,delete,drop,alter),能够恢复数据到正确的状态。主要靠备份来保证,因为复制可以容灾,却不可以容错(当然延迟备份在一定程度可以)。
2)在机房,硬件故障或者操作系统,数据库软件故障的时候,能够恢复数据到正确的状态。可能用备份来恢复,也可能直接进行主库或者从库的切换来恢复服务。
3)不丢事务,保证已经入库的数据能够被正确的查询到。采用最高安全级别的数据库软硬件设置以及冗余设备,目标是不丢任何1个事务,因为即使1个事务也可能造成大量金钱的损失,同时造成企业信誉的下降。
4)还要注意到需要保证主从数据库的一致性,否则读写分离的情况下其实在用户看来仍然丢失了数据。

2.无故障(停机)时间

运 维和开发不一样,开发最重要的是保证一定效率的情况下实现功能,同时程序Bug少。运维讲的是提供稳定服务的时间。用术语来说就是几个9,具体含义就是年度不可服务(不管是主动的还是被动的)时间除以全年时间,百分比越高越好(基本可用性:2个9;较高可用性:3个9;具有故障自动回复能力的可用性:4个 9;极高可用性:5个9)。Oracle运维服务的最高境界当然就是5个9了,一年停机时间只有5分钟,这是相当难以达到的目标,往往一个大故障就会把全年的停机时间用完。

多数情况下,网站可用性会是 SLA (Service Level Agreement, 服务水平协议) 中的一个重要度量指标。如果是做第三方托管,需要明确第三方的运维服务能力与责任。否则,IDC 经常断电或者断网,即使自身做的再好也无法保证服务时间了。

但可用性是能够持续改进的东西,运维负责人不可希望一步登天。提高可用性的一些常规策略有消除单点,部署冗余设备等。如果要提供更高的可用性,比如 4 个 9 甚至 5 个9,就不是简单靠硬件就能做到的事情,还需要建立自动化的工具与平台,完善的流程制度与变更机制,7*24小时的专人值班等。

3.响应时间

响应时间是指一条查询或者更新语句从发出请求到接收完数据的时间。因为最大响应时间的不确定性和不可重复性,所以一般使用X%的查询响应时间作为指标。如果 值为95%为10ms,意味着95%的查询会在10ms内返回。对于OLTP查询来说,在50ms内返回是比较理想的结果。超过200ms的查询可以视为 慢查询。

4.成本

在解决了稳定和速度后,就是成本的问题了。成本的构成主要是硬件成本+软件成本+人力成本,因为互联网企业软件以自主开发和开源为主,所以其中主要是硬件和人力成本,硬件成本也包含了机房的机架,带宽,电力成本。Oracle运维工程师的使命的确不仅仅是“完成”功能,如果说完成功能可以有50种方法,那么至少要找出相对较优的几种方法并进行最终的选择。因此Oracle服务商需要提高硬件的使用效率,降低人工运维成本,提高人均产出。 (责任编辑:IT)