福建农信云
商业新知 07/17
福建省农村信用社联合社(以下简称“福建农信”)成立于 2005 年 7 月 29 日,由 47 家农信社、20 家农商银行组成,拥有营业网点 1900 多个,占全省金融机构网点三分之一,从业人员近 2 万人,金融服务实现全省乡镇全覆盖,并基本实现了基础金融服务“村村全覆盖”。2017 年 9 月末,全省农信系统资产总额达 8191亿元,各项存款余额达 5786 亿元,各项贷款达 3374 亿元,其中,存款增量连续5 年位居全省银行业第一,存款市场份额增幅自 2011 年起连续 4 年位居全省银行业第一,全省 56 个县、市农信社、农商银行的存款市场份额均位居第一。 福建农信贷款投放以“三农”为主,客户主要为广大农户和中小微企业。每年发放的农户贷款和小企业贷款分别占全省 70% 和 40% 以上,被誉为根植大地的银行、遍布城乡的银行、服务三农的银行、造福民生的银行。

近年来,随着福建农信规模不断扩大、业务不断增长,应用系统及设备的数 量、数据中心能耗不断增加,IT 运维面临种种挑战。

一是每个业务系统都需要独立的设备,硬件设备众多,资源利用率低下,造成较 大浪费。

二是众多设备,占用了大量机房空间,用电、制冷等能耗高,无法做到绿色节能。 

三是竖井式的系统建设导致 IT 资源形成孤岛,无法灵活调配。在“双十一”、春 节等业务突发高峰期,部分系统已经资源耗尽,而其他系统还有大量的空闲资源,无法利用。

四是项目开发过程中,资源规划、采购、安装、调试、上线往往要 2 ~ 3 个月甚 至更长时间,极大影响了新业务开发上线的进度。

五是高可用性架构、灾备架构不适应新的要求,建设及改造难度大。 六是运维人员工作压力大,设备维护、可用性问题、环境分配等工作中存在大量的重复劳动,生产安全保障任务艰巨。

 在此背景下,2013 年福建农信启动“福建农信云”项目建设,以解决运维工 作中遇到的以上问题。

一、“福建农信云”的实施

为提高资源利用率及系统效率,实现系统高可用性和业务连续性建设,实现 自动化、自服务及资源的动态调配,实现节能环保等,福建农信启动了“福建农 信云”项目。该项目分为四个实施阶段:第一阶段为高可用性架构梳理、虚拟化 建设项目启动(2013年);第二阶段为虚拟化建设(2014 年);第三阶段为构建 基于云计算的两地三中心架构(2015 年);第四阶段为云管理平台建设(2016 年— 2017 年)。

(一)虚拟化资源池建设

 福建农信根据自身需求,设计制定了福建农信的新一代数据中心架构,实 现网络虚拟化、存储虚拟化、X86服务器器虚拟化、Power 小型机虚拟化的全面 实施。

1. 福建农信对新一代数据中心的理解新一代数据中心建设是一个系统工程,应满足以下条件。

第一,机房建设方面,应以环境合格,重视安全,具备高可用性、高可靠性,节能环保,可扩展,以人为本、安全舒适为建设标准。

第二,绿色环保,达到空间节约、能源节约、资源高效利用。 第三,完成服务器、存储、网络等 IT 基础架构虚拟化建设,降低系统与硬件之间的耦合。

第四,建设全面、体系、高度智能化的监控系统,并建设相应的报警告知系统。 第五,全面建设系统高可用性。 第六,实现资源云管理,人员管理扁平化,高效有序。

图 1—18福建农信网络虚拟化架构

服务器虚拟化能降低运营成本、加速应用部署、提高服务可用性、提升资源 利用率、动态调度资源、实现系统与设备间的低耦合。

X86 服务器虚拟化采用 VMware 虚拟化技术,主要承载 WEB、中间件、应 用等计算资源需求。VMware服务器虚拟化能将不同品牌、不同型号的异构 X86 架构服务器资源管理起来,消除硬件差异,向应用按需提供计算资源。福建农信X86 服务器器虚拟化架构如图 1—19 所示。

图 1—19 福建农信 X86 服务器器虚拟化架构

Power 小型机虚拟化采用的 PowerVM 虚拟化技术,主要承载数据库应用的计 算资源需求。福建农信 Power 小型机服务器虚拟化架构如图 1—20 所示。

服务器虚拟化按照业务分类建成管理、互联网业务、生产业务三个资源池。为保证应用高可用性,三个资源池内部分为若干小资源池,每个应用集群的虚拟机分散于不同的小资源池内,降低设备集中风险。通过服务器虚拟化节约机房空间,利 用虚拟化技术实现单机系统高可用性,简化升级维护工作,资源统一管理等。

4. 存储虚拟化

当前福建农信使用的存储系统分为 SAN(光纤局域网)存储和 NAS(网络到 达存储)存储。SAN 存储主要分为承载虚拟机系统空间需求的系统存储资源池以及承载数据 库空间需求的数据库存储资源池。存储虚拟化架构如图  1—21  所示。

系统存储资源池采用 IBM SVC 存储虚拟化网关加上存储设备的方式实现存储 虚拟化。存储虚拟化网关本身并不提供存储空间,通过接管不同品牌、不同型号 的存储设备,消除存储设备的硬件差异,向应用按需提供存储空间。

数据库存储资源池采用 HDS VSP G1000 存储设备提供的存储虚拟化技术。 HDS VSP G1000 提供的存储虚拟化,也被称为存储联盟,该存储本身提供存储 空间,也能管理不同品牌、不同型号的存储设备按需提供存储空间。同时,HDSVSP G1000 利用虚拟化技术特性,消除存储在空间上(100公里内)的差异,可 用于构建数据库的双活数据中心。

5. 全面的虚拟化架构

网络、服务器、存储虚拟化构成的是一个整体的新一代数据中心整体虚拟化 架构,该架构拓扑结构见图 1—22。

6.应用虚拟化改造

应用虚拟化改造是指将运行于物理设备上的应用系统,改造并迁移到虚拟化 资源池。为了保证生产安全稳定,福建农信采用了拆半迁移方式。首先,通过虚 拟化平台提供的技术将物理服务器的操作系统等克隆到虚拟机上去(称为 P2V)。 其次,将应用物理服务器集群服务停止一半,此时高可用性集群可以保证自动恢 复服务。再次,启用克隆出来的一半虚拟机,和仍在服务的物理设备构成应用集群,接管停止的服务。最后,观察一定时间(通常为 1 周)确定集群稳定运行后, 再停止另一半物理服务器,由剩下克隆的虚拟机接管,并形成完整的虚拟机应用 集群,虚拟化改造完成。

(二)高可用性建设 高可用性是信息系统实现故障状态下自动恢复对外服务的能力。

1. 从数据中心层面全局考虑高可用性架构设计

我们的设计方法是提出高可用性建设需应对的故障情景,通过对情景的分析,提出对应的数据中心高可用性架构。对应的故障情景有单服务器节点故障情景、 物理机硬件故障停机与维护等的计划内停机情景、存储设备故障情景、网络断开 情景以及单个机房水、火问题与大面积电源、制冷系统故障。根据对以上五点故障情景的分析,我们提出如图  1—23   所示的高可用框架。

图 1—23    “福建农信云”高可用性架构图

“福建农信云”高可用性架构包含以下基本要素。

 一是资源池分布于防水、防火、供电、制冷系统相隔离的、具有高可用性的不同机房。

二是资源池由统一的虚拟化管理平台管理,实现自动发布功能。 三是应用系统主机均匀分布于不同机房的资源池,用传统高可用性技术与虚拟化高可用性新技术相结合方式保障高可用性。资源池设计 30% 冗余保障故障迁移需求。四是存储资源池和 SAN 光纤交换网络同样均匀分布于不同机房,存储实现本地 双活。SAN 光纤交换网络实现高可用性冗余互备,并在实现高可用性同时实现吞吐量的倍增。

五是 IP 网络采用安全分区和分模块的设计方式,所有网络节点双机运行,运营 商线路双回路接入主数据中心与同城灾备机房,两中心之间利用高带宽线路互联,保 障数据中心及灾备中心网络的高可用性。

2. 服务器虚拟化架构

服务器虚拟化平台建设时在以下方面考虑高可用性架构:一是网络、流量隔 离,物理网卡硬件级别的冗余性,尽量减少使用板载网口,采用分布式虚拟交换 机,采用不同的网卡负载均衡策略;二是存储采用交叉冗余方式接入,减少主机 等待 SCSI 锁的情况,充分考虑 I/O 性能。

3. 应用系统高可用性设计

应用科技系统高可用性建设以“安全稳定”为最基本要求,以“架构简单, 层次分明,技术成熟,价值最大”为原则,设计应用系统高可用性,根据系统情 况通过负载均衡(F5 设备)、双机热备(PowerHA等)、数据库集群(Oracle RAC 等)、虚拟化高可用性技术(VMware HA 等)等实现系统高可用性架构。

(三)两地三中心建设

福建农信选择“同城双活,异地应用级灾备”的两地三中心战略目标,实现 在生产数据中心灾难情况下异地恢复生产对外服务的能力。

1. 网络容灾架构

如图 1—24 所示,链路一、二为主中心生产主备线路,链路三为异地灾备线 路。线路路由优先级分别从高到低,数据中心之间通过 OSPF 动态路由协议实现互联,数据中心与地市通过 BGP 动态路由协议互联,这样发生链路故障时,网络 可以快速智能切换,福厦两地通过核心区交换机的互联专线进行通信。外联单位 通过主备线路分别接入福州与厦门数据中心,通过静态浮动路由实现灾备,当主 线路故障时,网络自动会切换到备用线路,此时福州主数据中心将通过福厦核心 互联专线以及厦门数据中心外联区建立与外联单位的通信通道。

图 1—24福建农信网络容灾架构示意图

2. 存储容灾架构

HDS VSP G1000 存储通过存储虚拟化技术消除存储在空间上(100 公里内) 的差异,构建了同城双活的架构。并通过 HDS VSP G1000 的 UR 异步容灾技术, 将数据异步复制到异地灾备中心。三点闭环容灾架构如图 1—25   所示。

3. 服务器容灾架构

服务器容灾主要依赖在上线变更时,两地三中心同步上线实现。

4. 应用容灾架构

应用程序容灾有三种途径:一是通过 linux 系统的 rsync 实现多数据中心的同 步,二是通过存储底层同步;三是通过灾备同步上线变更实现。

5. 应用级容灾运维思路

第一,在组织架构上,异地灾备中心保持与生产数据中心同样的建制,但人 员编制减少,统一领导统一管理。第二,两地运维人员采用异地值班制度,并每 半年到一年进行一次应急演练,以保证两地运维人员对异地的环境及预案熟悉。 第三,数据通过存储底层容灾技术进行异地同步,信息科技系统上线、更新须两 地三中心同步进行。并定期进行灾备环境可用性验证。第四,对开发及运维行为 进行规范,要求在开发过程就考虑灾备建设,并提供灾备环境的上线、维护、灾 备切换等方案手册,并实现应用于配置分离、应用与数据分离等。第五,统一运维管理平台进行变更审批及流程控制。第六,统一智能感知及告警系统,展示并 进行自动告知。
(四)云管理平台建设

 在全面虚拟化建设基础上,福建农信搭建了一套统一管理计算和存储等资源 的云管理平台,实现计算和存储等资源的统一编排管理,通过服务目录形式以按 需、自动、自服务式、高效交付用户。

为保障云管理平台建设的全面、标准,福建农信云管理平台建设主要参考了 Gartner 对云管理平台(Cloud Management Platform,CMP)的最新定义。云管理平台主要包含以下能力。

(1)提供开放的接口来整合其他外围系统。云管理平台要能够与针对云上业务的 监控、部署、配置管理系统以及针对基础设施的用户权限管理系统对接,实现信息共 享和交互。

(2)提供多租户、多层次的资源访问管理能力。满足企业多层次、多应用资源 隔离管理需求,适配企业内部的组织结构和管理方式,提供多租户、多层级资源管理 方式。

(3)提供以服务目录为最主要载体的服务管理能力。具有“跨多资源池”“集群 级别自动创建”“内置的应用视角计量计费”等多种运营服务能力。

(4)提供跨平台的编排能力。提供云平台与云管理平台上的流程编排服务,实现 灵活、高效地在不同云平台使用云资源。

(5)提供多基础设施的整合能力。提供基础架构资源异构纳管,实现多类型平台 资源整合。

(6)运维管理能力。福建农信根据运维需要,提出了配置管理、容量管理、报表 功能、机房可视化功能、日志管理等能力。

二、应用效果

至今,“福建农信云”已安全稳定运行了 2 年多,期间承受住了 2016 年、2017 年春节高峰期每日超过400 万笔业务的考验。数据中心实现全面云化,系统 虚拟化率 98.48%,资源使用率提高了 6 倍,IT 建设能力实现如下飞跃。

一是 IT 资源提供周期从原来的 2~3 个月缩短至 2 个小时内。 二是生产服务器数量减少 85%,节省投资。

三是机房服务器空间占用减少了 5 倍。

四是机房能耗减少,每年可节省电费 100 多万元。 

五是福建农信重要信息系统连续 3 年达到可用性 99.99%。 

六是实现 IT 资源的按需获取。

七是在福州到厦门的生产数据中心搬迁过程中,不到3 个月时间实现福州新数据中心从无到有的建设,同时实现容灾架构的建设,并基于容灾架构,在5 次审慎不同层面验证的前提下不到 8 小时实现数据中心整体一次性搬迁切换,搬迁切换过程安全、快速、有序、数据零丢失,系统切换 100% 无差错。


作者:福建省农村信用社联合社 陈宇 雷自武 黄能 邱威
本文由新知号原创发布,转载请注明来源。
联系方式:system@shangyexinzhi.com
2000+知识点 7000+案例
商业新知助力数字化转型
下载