梁晓|浙江电信大数据中心副总经理
【摘要】AI时代,数据成为促进社会经济增长的关键因素,也是推动新质生产力发展的核心要素。浙江电信通过构建先进的大数据平台并持续升级,打造高质量数据服务,全面激活数据要素价值释放,助力企业数智化转型,推动数字经济发展。
一、项目基本情况
1、 建设背景
浙江电信全面负责浙江省内的电信网络建设、运营和服务,是浙江省重要的通信服务提供商和数字化转型推动者,为个人、家庭、政企客户提供通信、云计算、大数据、AI等综合智能服务。随着用户规模的持续增长,数据规模不断扩大,大规模数据存算资源日趋紧张;同时,浙江电信企业内部数据应用对高效数据供给需求旺盛。因此,浙江电信新型企业级大数据平台建设启动。
2、 功能定位
(1) 响应国家“新质生产力”与数据要素战略要求
浙江电信大数据平台是数据汇聚、治理、流通的基础设施,在支撑企业经营管理、赋能业务发展和云网运营等方面发挥重要作用;同时,通过经验积累与技术迭代,形成整体解决方案,“由内而外”进行输出,赋能各级政府机关单位和大型国央企的数字化转型建设,并在工业互联网、低空经济等领域进行协同创新,推动浙江数字经济高质量发展。
(2)推动数据要素资产化运营与价值释放
国家明确数据为新时代的关键生产要素,数据已经成为国家战略资源。数据可信流通成为数据要素价值释放的关键,大数据平台作为核心数据底座,以此为基础,构建数据可信流通平台、数据资产登记平台、数据要素交易平台以及各类行业数据应用平台,有效支撑数据流通、数据资产化与数据价值变现。
(3)助力人工智能应用研发实现降本增效
数据驱动已成为当前人工智能发展的重要模式,大规模、高质量、多样化的训练数据集,成为前沿人工智能应用的关键,未来人工智能发展是“以数据为中心的人工智能(Data-centric AI)”。通过浙江电信大数据平台,实现多模态数据的高效治理,构建高质量数据集,助力内外部各类人工智能应用创新,已经在客户服务、教育培训、网络运营、反通信欺诈等领域广泛应用。
3、 发展历程
浙江电信大数据平台从2005年启动建设,截止当前已经基本完成大数据基础底座平台、数据中台和数据资产管理平台的建设,构建了完整的数据基础设施体系。
其中,大数据基础底座自研组件占比是65.3%,由两大集群组成,分布在金华、绍兴两地。金华集群主要承载网络类数据的统一汇聚、生产加工和数据应用服务;绍兴是经分集群,使用湖仓一体化架构,核心组件包含:IceBerg、Flink、Doris、Clickhouse等,主要承载经营类数据的统一汇聚、生产加工和数据应用服务。大数据平台整体数据存储规模超30PB,集群规模超1700个节点,日均承载各类数据分析任务超10万个,日均采集数据300TB,峰值流量10GB/s。
二、大数据基础底座平台的建设与演进
作为整个大数据平台的核心基石,大数据基础底座平台基于业务需求和创新技术引领,不断升级优化。
1、 新业务挑战
浙江电信最初采用商用DB2数据库,成功支撑了数百TB级数据分析,其交互式查询能力表现优异。然而,随着数据规模的持续增长,该数据库的计算与存储资源需同步扩容,导致数据存算成本快速上升;此外,单集群的节点数限制也制约了系统的扩展能力,无法支撑数据快速增长带来的数据存算需求。
随着Hadoop兴起,其良好的扩展性和低硬件成本,促使浙江电信大数据平台从DB2逐步向Hadoop演进,构建了接近400节点规模的Hadoop集群。Hadoop采用计算存储一体的模式,采用三副本机制保证数据可靠性。但随着4G到5G时代过渡,数据爆发式增加,这种架构的问题逐渐凸显。
(1)资源利用率不高:浙江电信采购的大数据型服务器,为了平衡容量和性能需求,一般是选择均衡型的12盘位服务器,但存储密度低,且计算和存储利用率不均衡。在现网集群中,当存储资源即将耗尽时,计算资源平均利用率不到20%,浪费了投资。另外,多副本的数据保护策略导致可得容量只是裸容量的1/3,磁盘利用率极低,需要采购大量硬件设备才能满足数据存储需求。以7PB的数据存储需求为例,需要采购300余台服务器,投资超过2000万以上,占用近40个机柜,每年运维成本超过200万,极大的增加了企业数字化转型成本。
(2)性能瓶颈:Hadoop集群数据存储层元数据管理节点是主备模式,而数据文件的增、删、查、改请求均需要通过元数据管理节点,当文件数据超过1.5亿后,性能有接近50%的衰减,限制了数据规模的扩展。在大并发的场景下,甚至可能导致元数据管理节点的崩溃。为了解决元数据管理瓶颈问题,业务部门不得不做业务拆分,新建多套元数据管理节点,将每套元数据管理节点的数据规模控制在一定范围内,但多套元数据管理节点又会带来额外的运维成本开支。
(3)可靠性风险:存算一体的Hadoop建设方案采用的是单集群3副本模式,超过2个节点同时故障,就有数据丢失风险。在数据恢复过程中,由于业务IO和内部IO未分离,数据重构IO也需要占用业务网络资源,影响业务性能。另外,Hadoop是一款纯软件产品,对于硬件缺少监控和预测机制,在每月数十块硬盘故障的情况下,需要频繁的更换硬盘,才能保证系统的稳定性。
浙江大数据中心最初以结构化数据分析应用为核心,随着人工智能技术的快速崛起,文本、视频、音频等非结构化的数据高效治理成为当前热点,用传统技术架构已经无法满足人工智能应用的数据需求。在此背景下,大数据亟需融合人工智能技术,为智能化应用提供底层支撑,打造高质量数据集赋能人工智能应用发展。因此,面向未来升级,需重点考量以下关键因素:
(1)多源异构数据统一管理:支持结构化、半结构化、非结构化数据的统一管理,支持多源异构数据的融合分析。
(2)灵活高可扩展架构设计:支持灵活快速的水平扩容,满足海量数据存储需求,同时,具备分布式高可靠能力,避免硬件故障带来的数据丢失。
(3)原生AI技术嵌入:基于AI技术实现数据优化管理,包含:智能索引构建、自动分层存储、自动故障预测等,大幅提升数据管理效率。
2、 架构升级优化
浙江电信大数据平台数据底座主要包含绍兴经分集群和金华网络集群,其中金华网络集群主要承载网络数据汇聚与分析任务。本次结合前述问题,综合考虑AI方向演进需求,对网络集群数据底座、平台组件等同步进行了升级。具体包括:
(1)存算分离架构,在存储层使用软硬一体的专业分布式存储,具备全对称架构,通过硬盘、节点、系统、方案四级可靠性机制,满足浙江电信级高可靠性要求。通过高密存储与EC14+2纠删码技术,将副本资源占比从33.3%降至12.5%。
(2)通过软缓存技术优化存储层与计算层交互性能,使得计算节点CPU利用率显著提升,流式处理吞吐达20万条/秒,支撑实时位置服务。
(3)基于中国电信自研大数据PaaS组件集(翼MapReduce,简称“翼MR”)升级大数据底座,替换CDH并适配专业存储OceanStor Pacific,实现PaaS组件自主可控。
(4)推进跨IDC协同计算整合,完成全栈国产化(服务器/OS/PaaS),强化平台统一与自主可控。
升级后架构如下图
网络集群基于自研PaaS平台,整体节点数663个,其中对象存储173节点。
资源使用情况:计算资源(Memory:75.14TB、CPU:14362Core),使用率约为77%;对象存储资源12.33PB,使用率约为57.3%。
数据生产和管理情况:汇聚固网和移动网络相关数据,以及集团和外部合作相关数据,进行网络类数据统一汇聚、数仓生产加工和数据应用服务,目前日汇聚数据量超300TB,日处理任务量超22000个。
升级后整体集群平稳运行。目前,即将进行第四期升级建设,基于存算分离架构扩容底层分布式存储,用于承载网信安全相关业务。
3、 升级后的收益
(1)资源优化成效明显:通过存储层原生HDFS语义,将大数据存储和计算剥离,形成按需扩展的存算分离创新架构,可以更加灵活的对存储和计算资源进行扩充。存储层采用大比例商用级EC(纠删码)替代多副本的数据保护技术,大幅度提升了存储空间利用率,显著降低了硬件采购成本、机房空间占用和能耗支出。目前,整体存储节约资源7.07PB,压降硬件和运营成本超500万元,随着深入使用,成效会更加突出;计算资源基于中国电信自研大数据PaaS组件集(翼MR)改造并升级为存算分离架构,目前任务平均性能提升超30%。
(2)性能与成本的双重优化:采用硬件加速的EC纠删码技术,根据实际测算,相比于开源组件EC技术性能更稳定,符合大规模数据存储要求。同时,在保持数据可靠性的同时,吞吐性能比通用服务器提升了3倍以上。5G时代相比4G时代,数据体量大概是3倍的增长,数据存储成本是非常大的挑战。采用新的存算分离架构和EC技术,设备数量从改造之前的1120台下降到改造之后734台,减少34.4%,每年节省约1200万,其中设备费用节省约700万/年,运维费用节省约500万/年。
(3)彻底解决元数据瓶颈、单故障域问题:存算分离架构下,存储层采用全分布式的元数据管理架构,元数据全部打散到节点,元数据的所有处理和查询也分散到所有节点。提升业务访问效率的同时也简化了管理,业务部门不需要拆分业务、管理多套元数据管理节点。另外,相比于服务器,专业分布式存储具备硬盘级、节点级和系统级数据高可用保障设计,支持多故障域设计。本次升级后,将网络集群分成了3个故障域,极端情况下允许6个节点故障,保障数据可靠可用。
(4)原生HDFS,“新老”共存:在大数据存储层构建了HDFS的纳管功能——元数据网关,通过纳管现网已经部署的HDFS,实现了应用层数据访问的统一入口,且支持优先写入存储层HDFS、基于配置选择写入HDFS、负载均衡写入HDFS等多种写入策略,真正做到了业务无感知的平滑演进。
(5)统一数据入湖:为AI奠定高质量数据根基。通过智能分层存储、统一元数据管理等技术实现数据高效入湖,全局数据跨域检索和流动,提升数据管理效率,实现数据智能治理和实时分析,支撑AI训练推理等业务需求。
4、 基于大数据平台的业务创新与实践
(1)业务能力体系
截至目前,浙江电信大数据中心已建成并运营网络大数据平台(金华)和经分大数据平台(绍兴)总计1700余个节点,形成数据基础底座平台、数据治理平台和数据应用平台三大核心板块:
►数据底座平台:以中国电信自研大数据PaaS组件集(翼MR)为核心,包含IceBerg、Doris、Spark、Flink、ClickHouse等多款核心大数据组件,支持海量数据采集、存储与计算的需求;同时,配套自主研发组件管理工具,用于组件运维与资源调度优化。
►数据治理平台:基于中国电信星海数智中台实现数据开发、数据治理、数据资产化运营一体化,构建标准化数据管理流程,打造企业级全域数据资产目录,实现数据资产有效管理和高效供给;同时,还支持数据标注、模型训练、模型推理、模型评估等功能,实现AI模型开发与应用。
►数据应用平台:通过对基础数据进行融合分析,构建丰富的数据应用服务,在反通信欺诈、人群洞察、精准宣发、精准营销等场景中得到广泛应用,得到较好的效果,实现了数据价值的充分释放。
(2)业务创新实践
►智能反诈服务
基于丰富数据资源和人工智能技术,打造智能反诈服务,提供智能来电保护、智能上网保护、智能风险设备识别、智能风险APP识别、智能风险网站识别、智能诈骗预警等多种能力;打造了一整套完整的反通信欺诈管理体系,包含:AI外呼、短信、闪信等主动预警措施和上网过滤、违章停机、主叫拦截等整治处置能力。2024年,浙江电信大数据中心充分发挥数据资源和技术优势,在风险防控领域取得显著成效。通过智能分析平台,全年累计提供精准数据服务超1000例,帮助识别并阻断多起高风险事件,直接避免和挽回经济损失超2000万元。
►精准位置服务
基于精准位置服务开发实时人数统计、区域人流热力、电子围栏等数据,与短信能力结合,实现精准触达,广泛应用于疾病预防、人群疏导、人流预警、灾害预警等社会保障应用场景,尤其是在保障重大活动安全中,精准位置服务发挥了重要作用。当前,精准位置服务日均调用量达30万次、每年发送短信约2.5亿次、服务企业客户超500个。
►画像服务
基于数据分析,构建个人、家庭、企业画像支撑每年超千次的精准营销活动,为用户提供精准推荐产品和服务,提升活动转化率约5-10个百分点,助力提升存量客户服务质量和价值贡献双提升,为企业高质量发展做出重要贡献。
5、 打造下一代AI-Ready的大数据平台
下一阶段,浙江大数据中心将围绕以下5大方向演进,打造下一代安全、智能的大数据平台,进一步赋能数据价值的挖掘和数据要素的高效流通,包括:
全栈国产化:基于当前国产化基础向上延伸,推进重点中间件、应用软件的国产化;
绿色数据底座:引入绿色、全闪高密数据底座,对爆炸式增长的非结构化数据高效长期保存;
数智中台:通过AI技术实现智能数据分类分级、智能元数据补全、智能数据质量问题发现与修复等,显著提升数据治理效率与数据质量,同时依托平台持续提供高质量数据反哺AI训练体系,形成数据治理与AI应用相互促进的良性循环;
AI+运维:探索构建AI驱动的智能调度系统,深度优化存算资源使用,全面提升集群运行效能;构建智能诊断能力,提升故障自治能力和处理及时性;
应用增强:聚焦数据要素流通平台建设,实现数据安全可信流通,推动数据的高效融合与广泛应用,促进数据价值的全面释放。
三、结语
经过多年实践验证,存算分离架构已成为浙江电信大数据平台演进的核心路径。面向数智化新时代,我们将以"数据要素×AI驱动"为战略支点,基于存算分离架构升级到新一代AI数据湖平台,构建企业数智化转型的核心基座。这一平台将持续为人工智能应用提供高质量的数据燃料,更将推动数据资产向生产力转化,助力企业实现从数字化到智能化的跨越式发展。通过打造安全可靠、智能高效的大数据基础设施,我们致力于为千行百业的数字化转型注入新动能,以数据智能服务国计民生,为经济高质量发展构筑坚实的数字基石。
*本文收录于《话数》用户专刊第2期
原文链接:https://www.oceanclub.org/cn/discuss/info/3773