陈致远 | 数据宝数据研究院 高级研究员
—— 本文收录于《话数 · 第3期》
【摘要】数据中心架构已衍生出存算一体与存算分离两大技术路线。相较而言,存算分离架构因其更适应云与 AI 等新型业务场景,在资源调度效率、可靠性与运维成熟度方面更具优势,已成为主流方案。然而,受制于数据产业长期存在的数据治理薄弱、难以合规流通等问题,存算分离架构也难以最大程度发挥其软硬件等基础设施效能,并充分释放数据价值。
为应对这一挑战,本文针对存算分离结构下的存力中心,提出了一种数据要素化改造路径——“可信数据流通中心方案”。该方案融合华为在存力中心全栈技术研发和生态协同的积累,以及数据宝在数据治理与流通等领域的能力和资源,旨在最大化存力中心的“聚数、治数、用数、流通”能力,使其成为“存用一体”的数据运营枢纽。这不仅可以为算力中心供给高质量、安全合规的数据,更能在各种通用及垂直场景中释放数据价值,从而改善数据产业“存得住却用不好”的现状。研究表明,该方案可实现数据处理效率提升 70%,数据产品开发周期缩短 50%,并实现数据开发利用、合规流通的质效提升。
一、存力中心面向数据价值流通的范式转变
当前,数据基础设施建设面临“规模扩张”与“价值提炼低效”的结构性矛盾。数据显示,2024 年全国数据年产量高达 41.06 ZB,而存储总量仅为 2.09 ZB,数据留存率由2023 年的 2.89% 进一步降至 2.80%[1]。另有数据显示,截至 2025 年 6 月底,我国存力规模达 1680 EB,但在数据价值转化环节存在明显短板[2]。更有资料表明,进入 AI 时代,国内高质量数据储备量低,中文数据规模较小,国际主流大模型数据集主要以英文为主,流行的 Common Crawl 数据集项目中文数据只占据 4.8%[3]。这些现象背后是三个深层次问题:其一,大量数据因无法被有效留存而“自然流失”,数据资源化仍面临存力不足的问题;其二,数据资源面临治理困境,而治理的缺位导致原始数据质量低下,制约了后续应用;其三,数据流通开放力度不足,公共数据获取渠道不畅,产业仍存在数据合规流通风险。
趋势表明,存力中心正促进从“存储容器”向“存用一体”的运营中心升级,以解决上述数据基础设施建设中所存在的矛盾与问题,进而改进数据产业现状。资料显示,先进存力中心通过全闪化存力底座、跨域数据编织、存储内生安全、AI 数据湖存储等关键技术,实现“规模聚数、高效治数、安全供数、产业用数”,解决存力不足的问题,并为算力中心持续供给高质量数据资源[8]。另一方面,全国各地均在加快从“存数”到“用数”的转变。中央网信办已指导集成 27 个数据集、总量达 2.7 TB 的中文互联网语料资源平台,为大规模 AI 训练提供基础资源支撑;上海、深圳等数据交易所开设的语料交易专区,则通过合规交易的市场化机制促进语料资源的合规流通与价值释放,初步形成了数据“汇聚、治理、流通、应用”的运营闭环[4][5]。
在产业需求、技术更迭与地方实践的多重趋势下,存力中心的演进路径也逐渐清晰——核心在于构建全链路的数据要素化能力,以直接支撑数据价值流通。
二、存算分离架构下存力中心与合规数据流通的融合路径
当前,国家政策层面正积极引导数据基础设施与合规流通体系的协同建设。《关于促进数据产业高质量发展的指导意见》明确提出,需“强化基础设施支撑”,并“支持企业结合应用场景,推进安全可信的数据基础设施建设”。同时,《国家数据基础设施建设指引》也指出,需“探索采用存算分离架构建设新型智算中心”,并强化“多元异构算力的绿色发展、有机协同”。
在传统存算分离架构下,存力中心的核心发展路径是通过存储资源与计算资源的解耦,实现存储容量的独立弹性扩展与数据的高效共享。然而,单纯的解耦并未完全解决数据“流通难、应用难”的痛点,所以,先进存力中心将进一步融合数据治理、合规保障与安全流通能力,从“存得住”向“管得好、用得活”演进。而要将这一理念落地,关键在于为存力中心构建“数据预处理、合规化封装与可信交付”的能力。
本文提出的“可信数据流通中心方案”,其核心路径是在存储层之上构建“数据治理与流通中间件”。具体来说,存力中心需集成数据分级分类、隐私计算、区块链存证等模块,对原始数据进行“即存即治”和合规化封装,输出为标准化、权属清晰的数据产品或数据集,直接在数据交易所或流通平台登记上架,或直接接入算力中心进行模型训练。当前主要难点在于,资源层面需打破不同存储系统间的“数据孤岛”,技术层面则需解决多源异构数据的融合与跨域流通标准的统一,而底层的软硬件生态则需要前沿的 AI 数据湖、工具链等完成高存储量、计算量、吞吐量的支撑,方能实现跨地区、跨行业、跨机构数据的可信协同工作。
三、可信数据流通中心的技术架构与实践突破
首先,方案通过深度融合数据宝的三级治理引擎(标准化、提质化、商业化)与ModelEngine AI 工具链,构建了面向多源异构数据的智能治理平台。在实际运行中,该联合方案将数据处理综合效率提升 70%,数据产品开发周期从月级压缩至周级,显著加速了高质量数据要素的供给。
1)第一级标准化治理,平台采用可信空间下的智能治理引擎,实现多模态数据的自动化标注与跨源对齐,在消除数据冗余的同时完成多源异构数据的整合,并通过完善元数据标签增强数据的可追溯性,最终达成数据结构化、有序化与标准化;
2)第二级提质化治理,平台基于随机森林、神经网络等机器学习模型自动补全缺失字段,再借助规则引擎及孤立森林、聚类分析等算法识别异常数据并启动修复机制,经由全自动的纠错、补漏、去冗余与合规嵌入流程,实现从原始数据向高质量、安全可靠、合规可控数据资源的转化;
3)第三级商品化治理,平台采用隐私计算为数据“脱敏脱密”,并进行场景化封装,打造出可“积木式”灵活组装的数据产品,在保证数据权属清晰、标注充分且能合规流转、自动交易后,最终形成可上架交易、可商业应用、可资产化、可资本化的数据商品。
其次,方案采用 OceanStor Pacific 先进全闪数据湖架构,为海量数据要素的存储与处理提供高性能、高密绿色底座。该系列存储采用业界领先的最高密设计,可提供超 4PB/2U的极致容量密度。在绿色节能方面,其通过创新的硬件设计与动态节能技术,将设备功耗降至 0.25W/TB[6],显著降低了存力中心的运营成本。该架构支持 EB 级集群扩展与智能数据分级,并具备多协议无损互通能力,可同时满足大规模混合负载的需求,确保热温数据的自动分级存储。
第三,在数据流通环节,通过统一数据空间与可信数据空间(EDS)技术,构建了跨域数据湖资源统一调度能力,实现全局数据资产可视、可管、可用,并通过区块链存证与数字水印技术确保数据交换全程可信、可控、可证。在此基础上,数据宝拥有 ISO 27001(信息安全管理体系认证)、ITSS 4 级(信息技术服务标准)、DCMM 5 级(数据管理能力成熟度评估模型)、DSMM 5 级(数据安全能力成熟度模型)、CMMI 5 级(能力成熟度模型集成)认证,可保证治理后的数据在各机构间安全流通。同时,数据宝更参与建设/代运营九大省级数据交易所,拥有成熟的数据资产登记、合规评估、价值评估、上市交易的全链条服务,可凭专业能力打通数据流通的“最后一公里”。该模式将存力中心的底层流通控制能力与数据宝的合规交易运营资质相结合,形成了从数据治理到资产化,再到多级市场流通的完整闭环。
四、方案价值与核心技术
该联合方案具备独特价值:
一方面,数据宝是全国极少数拥有“大数据资产交易”牌照的企业,该牌照标志着数据宝在数据要素确权、流通、定价等核心环节通过国家合规审计认证,更赋予数据宝搭建政府公共数据与产业需求间“合规中枢”的资质。数据宝在多个行业落地超 100 个数据资产化案例,并通过建设/代运营的 9 大省级数交所,助力企业上架逾千项数据知识产权。
在文旅行业,数据宝已为贵州万峰林景区落地了超 50 余项数据知识产权并在贵阳大数据交易所完成登记确权,并以此为核心资产成功撬动 5000 万元质押融资。同时,根据景区运营数据,打造“消费行为分析模型”“客流预测模型”“联票联动模型”,精准识别淡季客群需求,缓解了“旺季拥堵、淡季闲置”的资源错配问题,使景区淡季游客量同比提升37%,商户营收增长 28%。
在制造业,数据宝为新疆省部级单位新疆生产建设兵团——新疆天业集团落地了数据资产化项目,完成新疆天业集团旗下 6 家子公司、27 家孙公司的数据确权登记,包含互联网数据、危化安全生产平台数据、工业智能管控数据,在优化企业内控实现预测性维护的同时,赋能当地会计事务所、律师事务所,高效培养了新疆本地的数据资产入表生态。

在 AI 前沿应用领域,数据宝已将众多碎片化企业数据资产链接编制成行业数据资产网络,联合打造高质量数据集联盟,供给高质量语料助推 AI 发展,在智能制造领域,已深度服务新疆天业、大西洋焊接等企业,构建智慧车间专用语料库,为具身智能、人形机器人模型训练提供核心语料赋能。
另一方面,存力中心凭借全闪存架构为核心,采用 Flash-Native 设计、软硬协同、DTOE 协议卸载技术、Server NUMA 加速等技术,实现每 TB 数据集群性能从 108 GB/s 提升至 216 GB/s,充分释放全闪存潜能。介质方面,搭载 15.36 TB / 30.72 TB / 61.44 TB 大容量 SSD,通过 2:1 压缩比以及 10+ 压缩算子实现每TB数据降低 88% 空间占用,突破容量极限。以 DME (Omni-Dataverse) 统一数据空间构建面向 AI 的先进数据基础设施,打造多地多中心的数据平台,实现跨地域、跨设备的数据调度、高效检索与可信流动,在硬件性能与软件生态上形成技术壁垒。在为中国联通集团信息化部数据中心落地的数字化转型项目中,基于该存算分离技术建设的运营支撑平台承载了互联网分析、IoT、日志等系统 15 PB 的数据量,实现了联通各省公司 2/3/4G xDR、网络信令、互联网日志、IoT 等数据的接入分析,日导入数据量超过 70 TB,大幅降低采购和运维成本,总 TCO 降低 30%[7],节省千万以上投资。
可信数据流通中心方案,是硬件实力、软件生态、服务能力、数据资源、合规资质与商业模式的生态级协同,与其他方案相比,该联合方案在多个维度表现突出:
五、结语
本文针对数据产业长期存在的“存用脱节”问题,提出了以“存用一体”为核心的存力中心价值升级路径。研究表明,通过将存力中心升级为融合了高性能存储、智能治理引擎与内生合规流通能力的“存用一体”数据要素治理流通枢纽,能够有效破解数据治理薄弱、流通受阻、算力中心无高质量数据资源可用等困境。联合实践已验证了该路径的可行性。“可信数据流通中心”联合方案,不仅实现了 70% 的数据处理效率提升与 50% 的数据产品开发周期缩短,更为算力中心提供了安全合规的数据,证明了“存用一体”模式的可行性。
展望未来,“存用一体”架构的存力中心,其发展必将从技术功能整合迈向更深刻的生态位重塑,核心趋势在于构建与算力中心对等的、以数据资产运营为核心的价值中心。这意味着存力中心将不再仅是算力的支撑配套,而是直接参与 AI 模型训练、智能应用落地的独立价值节点。为实现这一目标,实践方案的优化需聚焦于创造可度量的经济价值闭环,推动数据从成本中心转化为利润中心,以可动态增值的 AI语料为目标,形成从“高质量数据供给”到“场景价值释放”,再到“收益反哺体系发展”的闭环。在存力中心的“聚数、治数、用数、流通”能力得到全面发挥后,便真正解决了数据产业所面临“能存不能用”困境,更可实现高质量数据驱动 AI 发展。
参考文献:
[1] 中国信息通信研究院 . 先进存力中心研究报告(2025 年)[R].2025.
[2] 2025 中国算力大会 .2025 存力发展报告 [R].2025-08-23.
[3] 中国网络空间安全协会 . 中文互联网语料资源平台正式发布 [EB/OL].2025-01-10.
[4] 深圳市人民政府 . 深圳市加快打造人工智能先锋城市行动计划(2025-2026 年)[Z].2025.
[5] 上海数据交易所 . 上海数据交易所语料交易专区运营规则 [Z]. 2024.
[6] Huawei.(2025).OceanStor Pacific 9146 分布式存储 [ 产品页面 ]. 华为企业业务 .[ 在线 ] 获取自 :https://e.huawei.com/cn/products/storage/scale-out-storage/oceanstor-pacific-series/oceanstor-pacific-9146
[7] Huawei.(2025). 大数据存算分离解决方案 [ 解决方案页面 ]. 华为企业业务 .[ 在线 ] 获取自 :https://e.huawei.com/cn/solutions/storage/scale-out-storage/decoupling-storage-and-compute
[8] 张立 . 畅通数据汇聚、供给、利用堵点 凝力推进数据集高质量建设 [EB/OL]. (2025-03-06) https://www.nda.gov.cn/sjj/zwgk/zjjd/0306/20250306143724097100325_pc.html.