在10日上午举行的2010中国金融科技大会---区域性银行信息化发展研讨会上,中国金融电子化公司数据备份中心主任张慧发表了题为“打造中小金融机构灾备服务平台、提供业务连续服务”的演讲。
张慧:各位领导,各位来宾,上午好!我们所面临的,我们想解决的问题就是说像国内外重要的,从911事件到今年4月份玉树地震,所有重大的事件都引起我们对灾备中心建设的思考。
我们面临的是一个非常严峻的问题,在160家左右的城市商行里有80%以上的商业银行是没有灾备中心的,仅有一些简单的数据备份措施,存在较大的系统风险。这就是我们目前中小金融机构异地灾备建设的现状。灾备外包服务中心想解决的问题就是要符合国家政策要求,也就是说GB/T20988所有这些规范和管理的要求。为什么说我们成立这样一个灾备中心,背景是什么?这背景就是说,我们是中国人民银行直属的企业,是人民银行制定标准和规范运输处的重要组成部分,也举办了第17届中国国际金融技术暨设备展览会,也是全国金融评测中心,另外业提供所有金融技术的研究和新技术的研究,等等。目前,我们公司有CMMI国家实验室资质的检测证书,同时也是用IS09001,对整个公司进行质量服务的管理,这些是我们一个服务的背景优势。
我们公司最主要做什么呢?在这种维护金融稳定方面,去协助中国人民银行总行做好提供服务,提供信息安全技术工作。这里主要是金融标准的制定和宣贯,核心系统及接口软件开发等。我们和鞍山市商业银行,和桂林商业银行,和齐鲁银行等等,在灾备服务上,一步一步往前推进。中小金融机构灾备服务中心也接洽了很多领导视察和指示工作,包括总行李东荣行长助理的视察和指示,还有城市商业银行袁伯平主任考察指导工作,都先后到我们中心考察指导工作。
建设的必要性,首先是国家政策要求,对于这种国家经济命脉的金融行业,灾备体系建设是金融机构的业务连续运作的最后一道防线,是金融机构生存的必备条件之一,也是国家防范和化解金融风险的最有效措施之一。这个不用多说,因为国家有多项标准和文件对这项工作有明确的规定。
第二是金融机构的需要,因为金融机构促进的是老百姓的生活和生存,就是金融机构的这种良好IT规划和治理,它的这种业务连续性规划和灾备技术手段都需要专业的指导和规范。这种技术路线也需要一个统一,技术路线方面需要一些标准,需要一些评测,去指导这种技术路线。我们灾备中心的宗旨就是在关键的时候要起到关键作用,也就是说一旦金融机构发生了意外的灾难事件,我们要及时控制不良的局面。
在共享和集约方面,灾备中心、灾备人员和组织,灾备的项目管理方面的共享,这个在一定程度上实现了使大家能够在网络方面、设备方面、人员组织管理方面,还有包括相关的知识库,包括项目实施运维技术进行共享,使这种服务能够术业有专攻,能使这个服务有针对性,能使服务的质量能够最好地提供出来,同时也大大节约了各个金融机构的整体建设成本。
公司整体技术实力,大家也有目共睹。作为人民银行的直属企业,有几十年大型信息系统项目建设的经验,也是有一支成熟可靠的人才队伍。在这个里面,我们还有很多在国内大型的商业银行,还有通过对国外的技术,通过所有的比如做灾备的厂商,他们也是首席工程师和我们进行交流,我们在经验上参考的是国内外最高的经验技术。
在这种理念思路上我们引入的是国内的十个最佳实践,这十个最佳实践不仅仅是做一个系统,而是要做一个业务连续性的东西,就是这个应用怎么及时接过来的,人员意识培养和培训是不是跟进了,还有比如我们做灾备系统,怎么去和支付系统连起来,怎么和银联系统连起来,怎么在灾难的时候能够真正地做起来,能够真正地启动起来,所有的人员是否能够及时到位?这些是我们要用十个最佳实践不断推进和实施的。
在建设流程方面,我们也知道,在从分析评估、架构设计、开发实施、启动管理和后续维护,这是一系列的条件。在分析和评估上怎么做,架构设计,还有开发实施、启动管理,这都是一系列要按照我们的目标和需求,按照我们场景和策略去制定相应的方案,就是说在做这些方案的时候,教你如何按照这种计划、进度安排和管理,更新和维护、审计和评估是不是能够及时到位?这些都是我们关心的问题。
我们在做这种最关键的灾备系统建设的时候,也会按照这些相应的规划设计、实施和运营管理去进行整个灾备系统的建设。
灾难对大家来说,我们把一个灾难了解它的定义,是影响我们企业业务运转的意外的事件,灾难的影响取决于意外发生的时间和涉及范围,我们要减轻灾难造成的影响。恢复的关键在于我们确定对业务生成至关重要的人,还有物,物涉及的范围更广。还有一个组织结构,这些组织结构是不是能够把这些人有趣地把这些灾备系统做好。有一句话,我们要在关键的时间找到关键的人。
我们要做的,国际也好,国内也好,都要做到应用灾备,在异地灾备上,我们至少要做到一个等级三以上,现在所实施的主要是主流的灾备一般是在等级四以上,而且我们尽可能用一个比较少的资金投入,还是要尽可能做到一个灾备等级的五级。
在这里面,我们有几个指标要达到的。在RTO上,我们主要是针对的服务丢失,是指灾难发生后,从IT系统停机导致业务停顿开始,到IT系统恢复可以支持业务恢复运营之时所需要的时间,我们要求尽可能控制在两个小时,为什么是两个小时呢?因为这里面有很多决策方面的问题,还有很多业务就位的问题,人员到场的问题,所以我们把RTO,要把这些系统停机到整个业务的时间定义为RTO。RPO-恢复点目标,主要针对数据丢失,是指发生意外灾难事件时可能丢失的数据量。我们这种数据丢失,让它尽可能小于等于10分钟。目前我们所做到的,我们所有实施的灾备,在RTO、RPO,80%以上的灾备中心建设,都是按照RTO小于2个小时,RPO小于等于10分钟,按照这个标准完成的。
这里面风险分析,识别我们的威胁,研究我们整个生产中心的脆弱性,评估我们面临的风险,对我们企业的资产它的潜在危险的结果,然后来判断我们用什么样的策略。针对不同的场景,比如这个场景,我们面临这些风险,它可能会造成一些什么样的灾难场景呢?是系统故障造成业务停顿,还是机房灾难造成业务停顿?还是整个城市或者区域造成业务停顿?我们会对这个风险场景来分析,评估我们目前整个生产中心要防范的是哪类别的风险,针对哪一类别的风险做灾备中心的建设和业务连续性的建设。
对业务影响也是一样,所有的这些系统都是非常重要的,总有一个先后等级,还有我们优先做什么,什么是我们最关心的?这个是我们研究的把所有的系统做一个评估,评估的什么是关键业务,什么是重要业务,什么是敏感业务?这样可以得到一个灾备系统建设策略,哪些是数据性,哪些必须做应用性,哪些要做到业务性。这样子分级、分层把握,使得我们投入最少。
我们建设的原则,实用性和前瞻性原则,还有这种全局性和节约化的原则,共享性和多元化的原则。建设目标,整个信息系统安全业务连续,业务连续,是我们总体的目标,这里要满足国家政策的要求,建立这种共享的异地灾备中心,然后服务金融机构,在业务连续性体系的建设和标准,还有包括我们在这个基础上能够形成一个,因为数据在这边以后,我们可以形成一个整体,就是在做异地灾备中心的同时,就能够把基础打好。同时,灾备中心也可以做到测试,还有报表分析、预测、评估等等。在三年内会为100家以上的中小金融机构提供异地灾备的服务,五年内200家以上。
这是服务内容,服务内容是一站式服务,从场地提供,从实施,从运维到灾备演练,到灾备接管整个是一站式服务。在一站式服务的基础上还有很多增值服务,比如预测分析,等等。
整个总体建设思路,根据我们银行业面临的灾难,根据我们日常应用系统停机的原因进行分析,然后去分析主要针对的计划外停机引起系统灾难做的针对性工作。这里面,逻辑故障、组件故障、场地问题,我们进行风险防范和场景的分析。得到的是,我们一个灾备体系的建设思路,我们在网络建设方面是要建设一个高可靠的灾备网络,在应用监管能力方面,要建立的是一个全面的应用监管能力。数据复制系统,达到数据及时准确获取。技术支持能力建设,建立全面技术支持团队,要专业、稳定。配套的灾备体系建设,是要相应的流程制度,管理要跟上。
我们面对的中小金融机构在业务和技术方面的综合考虑,针对整个成本的降低,得到一个建设思路,就是说这种全局的网络系统建设,得到组织系统的复制,因为麻雀虽小五脏俱全,应用处理能力的复制,整个数据系统的复制,这个是灾备系统必不可少的。
业务系统分类与两地三中心,比如城市商业银行,是先做同城,有的先做同城,有的先做异地,最后要做到两地三中心,那么哪些我们去做一个,毕竟资源在这儿,我们会对这种业务系统做一个规范,哪些准备,哪些是同城和异地都备的,哪些是你要做到异地备份的,我们都会做一个分析。做完这些备份,还有一个数据的丢失怎么追补,哪些是业务上、应用上能控制的,哪些要通过手工的凭证补录的,这些也是在灾难管理的时候要不断进行的工作。在灾备中心的配置模式上,这些也是我们考虑的内容。
目前,我们对所有这些IT技术和IT恢复指标有一个综合比较,在这个比较之后,我们形成了一系列自己的灾备系统建设的设计方案,得到一个总体的架构。我们这个架构就是说,这种解决方案的特点,我们能够让它达到的是所有灾难全面的防护能力,就是软件、硬件、数据丢失等等。还有一个,容灾和备份的一体化把控,在恢复方面使这些恢复能够做到很短时间内恢复。另外一个,我们在本地和异地做到双重恢复这样一种机制。在带宽上,我们做到一个节省传输带宽,差异比较,能够让这种比如网络中断了,是不是灾备要重新实施?我们说NO。为什么?因为我们有一个差异比较,如果网络中断以后,这个能差多少数据?我们把差异的数据做一个传输。演练也一样,这种演练使您可以在生产系统就可以不停验证灾备系统是不是可以随时使用。管理方面也是简便易行。开放式的架构,使得这种系统扩展成本低,意味的是什么呢?就是您的生产系统、灾备系统可扩展性都很好。比如今天我是惠普主机,明天可以用IBM的主机,这是实施完灾备以后不能把生产系统和灾备系统架构绑定,要让它的结构还是开放性的。
这就是我们刚才说的技术方案的特点。我们在技术原理方面,也能够做到本地和异地的时时快速恢复,异地灾备的远程复制,全面的保护方式。这里面简单介绍一些比较关键的技术。比如这种镜像的技术,比如是快照,可以提供256个时间点的快照,把这些数据隔一段时间做一个照片,就是不仅有生产数据,而且有生产数据之前的半个小时或者几分钟甚至几秒钟之前的数据,由快照和录像的能去做。还有一个,我们这种快照技术里,我们照的并不是把这个数据,为什么在快照节省空间,节省空间的关键秘诀在于什么?我们造的是变化量,我们造的是把这些,比如9点到10点之间变化的是267,这个时候快照照的是267,下一次照的是90,再下一次照的是1和2,存起来的是1和12,这样快照区也很少,占用资源也很少。还有一个,我们在传输方面,就有一个MicroScan技术,这也有很多技术做到,但是很多具体它做到,复制的是32K磁道甚至64K磁道的,但是我们采用目前的技术,可以使带宽真正节省。
我们在本地有一个和生产一模一样的镜像数据,能够做到本地磁盘如果意外,我们镜像数据能够跟上,业务不会中断。在恢复的时候,实际上我们在操作之后,我们的恢复会非常简单,是一个图形界面,使得快照或者灾备的逻辑卷能够很快地提取出来。还有一个我们用的差异比较,差异的传输,我们有多点的快照,使得这种备份功能没有备份窗口。在这里面,还有压缩比方面也是非常优秀的。
实际的效果,就是说RPO改进非常明显,远程的传输带宽节省了85%,总体应用成本和维护成本非常低,管理维护非常简单,不是因为成本降低了,管理复杂了,而是成本降低了,管理还简单了。就是说在这里面,我们统计了一下,在某大型银行,在整个灾备中心建设的时候是几十亿,每一年的维护费用是一亿以上。这个对于我们普通的中小金融机构是无法承受的,所以在这方面我们花很多脑筋去想,去从这方面,如果我是一个城市商行科技部总管我应该怎么想?我们从这个角度做这个方案设计和做风险的评估,做整体的实施。而且在实施过程中,如果发现核心系统整个架构和技术方面的一些问题,我们也会及时和金融机构进行协调。在这里面,我们解决了很多实际当时的一些问题。有一个商业银行,为了节省成本,它的主机系统只用了一个正交换机,分了两个部分,这几个接口用在这个主机,这几个口用在这个主机。我们在架构调整的时候,我们是另外建议这个架构做灾备的时候改进,使这个不稳定因素先降低,作为灾备系统更加能做到备份的功能。我们在一个晚上就把所有的交换机做改造的过程,然后到灾备过程实施,全部完成。
相关的案例介绍,我们在齐鲁银行做了26个系统的灾备实施,应该说效果非常好。在鞍山市商业银行,这种结果,我们做了多个操作系统的应用,都是做了灾备。鞍山市商业银行也是一样,把它的整个核心系统和数据仓库都做了灾备,而且是应用级五级以上。
总体说来,我们目前服务的优势是首先是高等级的灾备中心基础设施,再就是主流、成熟、可靠的灾备技术方案,强大、专业、资深的服务团队,业界先进的方法论,成熟的项目管理体系,在数据、系统的安全方面,我们做到全方位、全过程、持续稳定、高品质、转移灾备服务。我们目前很多商业银行都希望做到全方位、全过程、持续稳定,我希望我们会做得更好,也希望大家支持我们,感谢!