微众银行新一代灾备系统建设与实践
社区小助理  2025-05-15 18:10  发布于中国

文:胡盼盼微众银行 数据库平台负责人

 

一、核心摘要

微众银行作为全国首家数字银行,经过十年发展,已累计服务个人用户超过4亿人次,累计申请贷款的中小微企业用户超过500万家,数据量快速增长。在银行IT系统中,数据备份是至关重要的一环,也是灾难故障场景中的最后一道兜底防线。随着银行业务的快速发展,银行需要创新迭代数据备份与恢复体系,持续降低数据备份存储成本、提升备份数据恢复效率。

为此,微众银行基于自研的备份管控平台与数据归档平台,结合华为OceanProtect存储产品、国产蓝光存储系统等,建设了新一代的面向银行核心系统的超大规模数据库灾备系统。该系统通过原生副本挂载、永久增量备份、专利重删压缩等核心备份技术,实现了备份/恢复效率提升50%2分钟内恢复TB级数据,同时存储空间节省75%;复用灾备系统环境实现准生产信息化实验室,挖掘备份数据业务价值,在业务版本验证、容灾演练、年终结算演练、季度结息等大规模恢复验证场景中,将原本4.57天的恢复时间压缩至1天,效率提升至77%~85%;采用全国产核心数据库及灾备软硬件,率先实现金融灾备系统全栈国产化,保障金融供应链安全。

 

二、数据灾备的背景与需求

1.国家与监管的数据备份要求

金融、政务、电信等关键行业,明确要求企业在信息系统的构建中实施有效的数据保护措施,以保障数据的保密性、完整性和可用性。这包括对灾难恢复和数据备份能力的明确规定,确保在面对紧急情况时,关键数据能够得到迅速和有效的恢复。我国针对灾备建设和数据安全,已建立一套国家标准和法规,主要包括:GB/T20988-2007《信息系统灾难恢复规范》、GB/T22239-2019《信息安全技术信息系统安全等级保护基本要求》、《网络安全法》、《数据安全法》等。这些标准和法规共同构成了我国信息系统灾备和数据安全的基础,旨在加强数据保护,确保关键信息基础设施的安全稳定运行。

同时,金融行业为加强数据安全和整合,按照国家指导,已制定以下关键标准:《金融行业网络安全等级保护实施指引》JR/T0071-2020、《分布式数据库技术金融应用规范灾难恢复要求》JR/T0205—2020、《银行业信息系统灾难恢复管理规范》JR/T0044—2008等。这些规范旨在提高金融业的数据管理和安全防护水平,确保金融数据的安全性和恢复能力。

2.微众银行数据灾备系统的痛点与需求

微众银行数据体量庞大,现有近900+数据库实例,日全量备份数据达600TB,日增量备份数据50TB,日binlog数据规模30T,总体存量备份数据规模达12PB

备份系统如何在紧急情况下,如业务版本验证、日终批量处理、季度结息和年终结算演练等关键操作时刻,较好地满足高可靠性和快速恢复的需求,成了摆在我们面前的挑战。在实际运营中,我们遇到了几个关键痛点:

备份恢复效率无法匹配业务增长:随着业务量的激增,全量备份耗时超20小时,单数据库恢复需2小时以上,容灾演练平均耗时7天,无法满足快速业务版本验证和数据恢复的需求。

备份容量激增导致建设成本居高不下:分布式文件系统CEPH集群三副本策略导致磁盘利用率低下,存储使用率仅为33%,缺乏数据重删能力和有效的冷热数据分离策略,造成空间、能耗、运维等总体拥有成本(TCO)居高不下。

勒索事件频发,缺少系统性防护:近年来,行业内勒索软件攻击案例频繁,数据安全风险较高。微众银行也需要引入包括勒索检测、防篡改、数据加密和自动化响应机制在内的系统性防护措施,以确保数据安全和合规性。

为应对这些挑战,微众银行基于自研的备份管控平台与数据归档平台,结合华为存储产品、国产蓝光存储系统等,建设了新一代的面向银行核心系统的超大规模数据库备份与恢复系统,实现了容灾、备份、归档、安全、数据恢复等全套数据备份与恢复体系,全面提升数据备份与恢复的效率,降低备份存储成本,确保了业务连续性及可恢复性。

 

三、方案架构

1.升级改造前的架构及缺点

如图1所示,在旧的数据备份架构中,我们引入了开源分布式文件系统CEPH,作为备份数据的存储系统,包括采用普通X86服务器与HDDSATA硬盘组建CEPH分布式存储集群,采用三副本存储保障数据的高可靠与高可用性。在备份策略方面,我们每周日进行一次全备,周一至周六进行增备,数据库binlog日志每5分钟进行一次实时备份。在数据保留策略方面,3个月内保留全量的全备/增备数据,以及全量的binlog日志备份,3~6个月内保留每月最后一周的全量备份和全量的binlog日志备份,6个月之前每月保留最后一周全备份。当前,存量的备份数据规模达到12PB,每日增量的备份数据也在数百TB左右,占用多达7CEPH存储集群,服务器资源达数百台。如前文所述,随着备份数据的持续增涨,旧架构系统面临备份恢复效率无法匹配业务增长、备份容量激增导致建设成本居高不下、勒索事件频发缺少系统性防护几大痛点,迫切需要进行重构优化。

 

2.升级改造后的方案架构

在新的数据灾备方案中,如图2所示,我们引入了华为OceanProtect备份集群、归档存储、蓝光存储等专业存储设备与系统,通过我们自研的数据库备份统一管控平台进行统一管理和调度。通过对数据压缩、数据重删、即时挂载、多档分级存储等新技术的应用,升级后的新一代数据灾备系统极大提升了数据备份与恢复的效率,降低了备份数据存储成本;同时,还引入了基于物理隔离机制的安全防勒索系统,实现了数据备份的黄金副本,保障极端场景下的数据安全。

 

核心模块介绍

以下是新一代灾备系统架构各个关键模块简介:

备份管控平台:集成系统关键功能,如备份调度、恢复、归档、策略更新、数据管理、监控和权限控制,通过详尽的备份记录支持监控和报告,助力企业审计合规与规划。实时监控引擎追踪任务,分析性能,预测风险,优化策略。用户界面和API提升操作便捷性,实现高效集成。此方案增强了数据的安全性和备份管理效率。备份管控平台作为整个灾备系统的管理平台,实现全流程数据保护的资源监管、作业调度、安全审计。

数据库容灾集群:是生产数据库集群的跨城灾备集群,负责提供地理冗余和灾难恢复能力。容灾集群内部采用一主一备的架构,容灾主节点在正常操作中提供只读访问,支持查询和报告需求,分担主数据库的负载。备节点负责定期备份数据,确保在需要时可以快速恢复到最新状态。

OceanProtect集群:提供了一系列关键功能来确保数据备份恢复的高性能、高可靠性和高安全。这个集群主要负责数据的高性能备份/恢复,备份副本即时挂载,备份文件重删压缩、加密、防勒索,恢复数据脱敏等,并且自身架构支持横向扩展能力,能通过增加存储节点来横向扩展存储容量和性能,以满足不断增长的数据量需求。

准生产验证环境:是基于TDSQL准生产集群建立的模拟环境,用于安全地进行业务模拟和验证,保障生产数据安全。它支持关键财务活动如年终结算、季度结息和业务大版本验证,确保账目精确合规。通过服务器池化和单节点部署,实验室以低成本实现资源的高效、按需分配,满足非生产环境下的业务需求。

归档存储:是微众银行自研的S3兼容存储解决方案,具备高可用性、耐用性、低成本和可扩展性特点,主要应用于归档访问频率低的温数据,从而有效降低长期存储成本。

蓝光存储:是一种适宜长期冷数据保留和符合监管要求的存储技术,通过将历史数据从对象存储迁移至蓝光光盘,实现成本效益的数据备份。

安全防勒索系统:通过物理隔离AirGap技术,独立存储近一个月的全量备份数据和全量binlog日志备份,实现黄金副本的保留。

分级存储策略介绍

针对需要长期留存的副本数据,系统分级归档到低成本的存储介质,节省备份一体机高性能备份池资源,满足建设成本及安全诉求。

我们在OceanProtect备份存储集群中,保留最近3个月的连续备份快照以及全量的binlog日志备份,借助OceanProtect的高性能以及数据重删和压缩功能,实现成本可控的前提下,保留近三个月连续备份数据,满足较为频繁的快速备份恢复需求。

对于周期36月的备份副本,我们保留每个月的最后一周的全备数据,以及全量的binlog备份数据,通过备份一体机以S3协议分级存储到自研的归档存储中,作为温数据长期备份副本。

对于6个月以上的副本,我们保留每个月的最后一周的全备数据,通过备份一体机和归档存储,分级转存到蓝光存储中,作为冷数据永久备份副本。

准生产验证环境挖掘备份数据业务价值

传统备份软件往往采用私有备份集格式进行数据备份,恢复过程往往耗时数小时,无法满足业务需要,导致备份系统利用率较低,备份数据成为冷数据、死数据,成为彻底的成本中心。为提高备份系统利用率,挖掘备份数据价值,我们采用原生格式副本挂载及副本脱敏技术,实现分钟级恢复业务数据,同时避免用户隐私数据泄露。目前已满足如下应用场景诉求:

生产业务版本验证:原生格式副本挂载,分钟级拉起准生产业务环境,实现重大业务版本、重大日切批量基于生产真实数据的快速重放和验证。

季度/年度/容灾演练:通过数据库自动演练编排功能,实现大批量并行恢复,1天内即可完成全网数据恢复,快速验证备份副本可靠性,输出演练报表,满足安全监管要求。

快速数据恢复:在准生产环境中2分钟内即可恢复因误删除或其他原因丢失的数据,大幅减少业务中断时间,提高数据的即时可用性,确保数据完整性和业务连续性。

 

四、POC上线验证及问题解决

1.POC上线里程碑

①202310月,对市场上的新一代备份解决方案进行深入研究;评估不同供应商的产品、技术性能、成本效益分析以及与现有系统的兼容性;确定最适合当前和未来需求的备份技术。

②202312月,部署行内DB相关的环境版本,完成基于生产业务场景的919项的功能验证。

③20245月,完成对OceanProtect的性能(备份/恢复/即时挂载)、功能(数据缩减/主备切换/数据安全/归档)、可靠性(硬盘/控制器)测试,所有测试项均符合预期。

④20249月,启动OceanProtect在微众银行容灾备份环境的POC上线测试,确保新设备的功能与性能均不能低于已完成的POC效果,且能支持容灾环境一半以上实例(400+)的高性能备份与恢复。

⑤202412月,经过两个多月的紧密工作,完成了OceanProtect备份一体机在容灾环境中的性能和功能适配;顺利接入400+个数据库实例的备份,并成功运行。目前,新旧备份系统属于并轨运行阶段。同步启动第二台OceanProtect设备的上架与部署。

2.核心测试用例

从功能、性能、可用性三个维度,我们总结了919项的核心测试用例,如下表所示:

 

3.关键POC数据

备份写入带宽。备份写入带宽决定了整体的备份效率。微众银行生产环境多达900个数据库实例,需要在24小时内完成全量备份,经过多次测试验证,单台OceanProtect设备平均备份写入带宽满足需求。

数据重删压缩比。对于数据库备份场景,数据文件以增量修改为主,会存在大量的重复数据,所以会有比较高的重复数据比例和压缩效果。经过多次实测,备份数据的重删压缩比为201,符合预期。

备份平均耗时。经实际测试,40个数据库实例,总数据规模约30TB,并发备份完成的平均耗时符合预期。

备份恢复平均耗时。经实际测试,40个数据库实例,总数据规模约30TB,并发备份完成的平均耗时约符合预期。

4.典型问题解决

数据库备份与恢复系统本身是一个较为复杂的系统场景,在微众银行900多个实例大规模备份的场景中,POC过程不可避免会遇到一些问题。在此,列出两个典型的问题进行说明。

问题一:调度模块CPU跑满,导致调度任务出现卡顿

在初始阶段的POC测试中,仅注册了40个数据库实例进行验证,每个实例会部署一个Agent,用于数据库实例和OceanProtect之间的通讯,此时调度任务一切正常;后续,逐渐将注册实例数增加到300个,调度模块CPU冲高,调度模块出现卡顿。

经过和华为研发联合分析,我们确认是因为数据实例的AgentOceanProtect设备的心跳上报太过于频繁(1/分钟),导致调度模块消耗过高,出现类似雪崩的现象。华为研发团队发布补丁版本,优化对CPU影响较高的模块和代码,同时将Agent上报心跳从1min/次调到5min/次,在300+注册实例接入的情况下,调度模块的CPU利用率控制在5%以内。

问题二:数据重删率较低,导致整体备份带宽和备份效率无法达到预期

在接入300多个数据库实例后,每次随机抽取40个实例进行备份,验证备份带宽及备份效率,发现备份数据重删率始终较低(大约在21左右),导致整体备份带宽和备份效率无法达到预期。

经过和华为研发联合分析,我们发现每次随机抽取的40个实例均有所不同,导致大部分实例是第一次做全量备份,同时,由于没有历史备份快照作为重复数据参考,进而导致数据重删率较低,这也是符合预期的正常现象。

后来,为了验证实际场景中的备份效率,我们固定40个数据库实例进行重复备份,最终数据重删率显著提升,备份带宽和备份效率也达到预期目标。

 

五、关键技术创新

1.全栈国产化方案

新一代数据灾备系统采用微众银行自研的备份管控平台、TDSQL分布式数据库、OceanProtect备份一体机、自研S3对象存储、蓝光归档存储、鲲鹏服务器及欧拉操作系统,实现架构、软件、硬件100%全自主国产化建设,全链路保障供应链安全。同时,作为标准化的备份系统架构,系统也具有良好的可复制性和可推广性。

2.原生格式备份与即时挂载技术

OceanProtect原生格式备份将备份数据以应用能识别的数据格式进行存储,将数据的缩减、加密能力下沉到存储底层。增量备份时将增量数据和全量数据进行整合,确保每一个备份副本都是可被应用识别的完整副本,将TB级数据集的恢复时间从以往的2小时显著缩短至仅2分钟,极大提升副本的恢复效率。如图3

 

3.数据重删与压缩技术

通过备份数据预处理(分离备份元数据与数据)、多层在线变长重删、特征压缩算法(根据数据流特征识别进行数据清洗、重排、去冗余)等,相比传统数据缩减技术,备份存储空间占用整体节省75%,降低了行内备份数据的总体拥有成本。

4.数据安全与防勒索技术

新一代数据灾备系统建设方案补齐了传统安全防御体系中长期缺位的数据层防护。当网络层和主机层漏防后,面对勒索软件对存储中数据进行加密时,存储层通过AirGap、数据防篡改、侦测分析技术,实现在一个不被攻击的环境的中,有至少一份不被篡改的黄金副本,并且这个数据是干净可用于安全恢复,将业务系统的损失降为最小。

 

六、落地成果及收益

1.落地成果

经过近一年的调研和POC验证,目前我们已完成新一代灾备系统的并轨运行,成功上线一台OceanProtect备份设备,接入400+数据库实例,完成全量备份、增量备份、binlog日志备份等正常运行,并多次完成数据库即时挂载、批量恢复、全量恢复等业务场景。当前,我们正在筹备第二台OceanProtect备份设备的上线部署与业务,预计在20252季度,完成所有数据库实例的备份接入,实现新旧系统的全面切换。

2.项目收益

新一代灾备系统的建设,较好地解决了原有灾备系统的成本、效率、备份数据利用、数据安全性四大痛点。

成本节省:通过数据压缩、数据重删、数据分级存储等新技术的应用,备份数据的重删压缩比达到201,备份存储空间占用整体节省95%;同时将3~6个月的备份数据放到归档存储,6个月之前备份数据放到蓝光存储,进一步降低存储成本,最终端到端总体拥有成本(TCO)降低50%

效率提升:通过高效的备份统一管控调度和核心数据备份恢复架构,结合即时挂载、数据分级存储等技术,整体备份/恢复效率获得极大提升。全量备份时效从22小时缩短至10小时,全量恢复时效从原本4.57天压缩至1天,效率提升至77%~85%,紧急数据恢复时效从2~4小时缩短至2分钟左右。

进一步提升准生产环境的使用效率,提升备份数据的业务价值:由于即时挂载技术应用以及备份数据恢复的效率提升,准生产环境的业务验证场景得以更快地进行生产数据快照恢复。比如,对于业务大版本准生产环境验证的场景,在旧系统中,需要通过数据拷贝的方式恢复若干个数据库实例的备份数据到准生产环境,由于存在数据解压、数据拷贝等流程,往往需要数个小时。而在新的架构下,采用即时挂载技术,可以在2分钟内完成实例的直接挂载至准生产环境,省去数据解压和拷贝的耗时流程,业务直接可用于版本验证;而对于容灾演练、年终结算、季度结息等需要大规模全量备份数据恢复的场景,由于恢复性能的整体提升,恢复的时效也由7天缩短为1天左右。通过效率的提升,激活备份数据的业务数据价值,赋予备份系统更高价值。

安全性提升与合规性保障:通过建立防勒索数据备份机制,最大可能保留数据的黄金副本,避免了因外部病毒攻击导致的数据丢失或损坏的可能性,避免了潜在财务损失和赔偿成本。系统建设完成后,符合《网络安全法》和《数据安全法》要求,避免因安全风险而产生的罚款和其他额外成本。

 

*本文收录于《话数》用户专刊中文版 2025年1月期

全部回复(
回复
回复
发布帖子
帖子标题
行业分类
场景分类
帖子来源
发送语言版本
可切换语言,在您的个人中心检查译文是否正确
我要投稿
姓名
昵称
电话
邮箱
文章标题
行业
领域

投稿成功

感谢您的精彩投稿!✨我们的编辑团队正在快马加鞭审核中,请稍候~

如有任何修改建议,会第一时间与您联系沟通哒!

发布文章
文章标题
文章分类
发送语言版本
可切换语言,在您的个人中心检查译文是否正确