束文琦 | 中国城市发展研究院 副院长
—— 本文收录于《话数 · 第3期》
【摘要】在数字经济成为核心增长引擎的今天,数据作为新型生产要素,其战略地位已毋庸置疑。而作为数据要素价值释放的基石——数据存储产业,也迎来了前所未有的发展机遇与变革挑战。“十五五”规划建议中强调的“建设开放共享安全的全国一体化数据市场,深化数据资源开发利用”、“加快人工智能等数智技术创新,强化算力、算法、数据等高效供给”,以及“推进国家战略腹地建设和关键产业备份,加强网络、数据、人工智能、生物、生态、核、太空、深海、极地、低空等新兴领域国家安全能力建设”等关键方向,无不对数据存储的性能、扩展性、安全与智能提出了更高要求。展望未来,先进数据存力的构建必将成为国家竞争力的关键体现和新一轮国际科技供应链竞争的重要战场。
一、“十五五”时期先进数据存力发展趋势展望
近年来,“数据存力”已从单一的基础设施组件概念,升维为与“算力”、“运力”并重的核心数字能力。其发展将呈现以下四大趋势:
-
从“中心化”到“全域融合”:存算分离与边缘存储协同演进
-
云数据中心深化存算分离:为应对海量非结构化数据(如视频、日志、物联网数据)的爆发式增长,传统紧耦合的存算一体架构在扩展性和成本上遭遇瓶颈。“十五五”期间,以对象存储为代表的且可实现多种协议灵活互通的存算分离架构将成为云数据中心的标配,实现存储资源的独立弹性扩展,显著降低总体拥有成本,持续产出高质量数据,做好迎接“人工智能+”时代到来的准备。
-
边缘存储迅猛发展:在工业互联网、自动驾驶、智慧城市等场景下,数据在边缘侧产生并需要实时处理。边缘存储作为“数据第一现场”,将承担起数据缓存、预处理、低延迟访问和安全合规的重任,与云端存储形成“云-边-端”协同的统一数据视图,满足业务对实时性、带宽和隐私的严苛要求。
-
从“冷热分明”到“智能分层”:数据全生命周期自动管理
数据的价值随时间、访问频率和应用场景动态变化。“十五五”时期,基于AI的智能数据管理将成为先进存力的核心。存储系统能够自动学习数据访问模式,实现数据在极速存储(高性能全闪存)、性能存储(如高性价比SSD为介质的全闪存)、容量存储(如以机械硬盘为介质的存储阵列与以磁带为介质的磁带库)之间的无缝、自动迁移。这将使“热温冷冰”数据分级管理从静态策略走向动态智能,在保障性能的同时,实现存储成本的最优化。
-
从“数据安全”到“数据韧性”(Data Resilience):构建可信与高韧性存储体系
对于数据存储而言,安全内涵已从防攻击、防泄漏,扩展到业务连续性和数据持久性。这体现在:
1)勒索软件防护成为刚需:采用“一次写入、多次读取”的不可变快照和空气隔离技术,确保核心数据副本不被篡改,是实现有效数据恢复的关键。同时,通过跨设备联动响应,由主存系统侦测威胁,备份系统联动响应并启动防护,实现从被动恢复向主动防护的提升。
2)全栈可信与隐私计算:从硬件固件、操作系统到软件栈的全栈可信计算,以及与存储紧密结合的隐私计算技术(如联邦学习中的数据安全访问),将确保数据在存储和使用过程中的机密性与完整性。
3)跨地域多活与容灾:为支撑“全国一体化数据市场”和关键业务的“永不宕机”,跨数据中心、跨地域的存储多活与异步容灾技术将得到大规模部署,并且从传统的核心业务数据扩展到以对象存储为代表的新兴业务数据。
-
从“高能耗”到“绿色低碳”:可持续发展成为核心指标
随着数据中心被纳入能耗双控管理,“十五五”期间,数据存储的绿色化、低碳化是必由之路。趋势包括:
1)闪存化:用更低功耗、更高性能、容量密度更高、功耗密度更低的全闪存阵列替代传统机械硬盘阵列,已成为降低PUE(Power Usage Effectiveness,电源使用效率)的直接手段。
2)软件定义节能:存储系统通过智能功耗管理,在业务低峰期自动进入节能模式,动态调整性能与功耗的平衡。
二、“十五五”期间数据存储产业的发展方向分析
面对上述趋势,数据存储产业自身也将发生深刻变革,走向更高质量的发展路径。
-
技术突破:软硬件协同创新,攻坚“卡脖子”难题
硬件层:持续攻坚企业级SSD主控芯片、3D NAND闪存等核心介质技术,协同高密度大容量创新,在单位空间和单位能耗内承载更多数据,打破国外垄断。同时,积极探索SCM、DNA存储、光存储等下一代介质的研发与应用。
软件层:大力发展分布式存储软件(全局文件系统、统一数据空间管理)、存储操作系统、智能数据管理引擎等核心软件,实现“硬件资源池化,软件定义功能”。
架构层:推动DPU(Data Processing Unit,数据处理器)/IPU(Infrastructure Processing Unit,基础设施处理单元)在存储系统中的广泛应用,将存储控制面任务卸载至专用处理器,释放CPU算力,提升整体系统效率。
-
产业生态:从“产品交付”到“服务化运营”
存储即服务大行其道:企业将更倾向于通过订阅模式获取存储能力,国内存储厂商需加速向服务商转型,提供从本地部署到公有云、混合云场景下一致体验的STaaS(Storage as a Service)产品。
与算力、应用深度集成:存储产业不能孤立发展,必须与AI、大数据、云原生等算力平台和应用生态深度融合。
-
市场格局:国产化替代与全球化竞争并存
1)存储产业加速发展:“十五五”规划建议坚定提出:“加大政府采购自主创新产品力度”。在“自主可控”的国家战略指引下,“十五五”将是国产存储品牌在金融、电信、能源等关键行业实现从“可用”到“好用”的攻坚期。存储产业链将进一步聚焦新型储能、芯片制造、数据存储技术等方向,加速形成覆盖设计、制造、应用的完整生态。新质生产力引领下的全行业全领域产业数字化进程,将带来一波对存储效率和安全需求的爆发式黄金增长期。
2)全球化竞争能力提升:具备技术实力的中国存储企业,将凭借在超大规模数据中心、成本控制和敏捷创新方面的优势,更深入地参与全球市场竞争,从“跟跑”逐步迈向“并跑”甚至“领跑”。
三、迎接“人工智能+”时代:数据存力面临的新范式与新征程
“十五五”规划建议明确提出全面实施“人工智能+”行动,抢占人工智能产业应用制高点,全方位赋能千行百业。AI将从“样板间”走向“商品房”,成为普惠性的生产工具。在这一战略导向下,数据作为AI的“燃料”,其存储、管理与应用的方式将发生根本性变革,对数据存力提出了从“量变”到“质变”的系统性新要求。
1.“人工智能+”对数据存力的核心新要求
1)从“数据湖”到“数据工厂”:对数据预处理与吞吐能力的极致要求
挑战:AI模型训练依赖于高质量、规整的标注数据。然而,行业原始数据多为非结构化、多模态(文本、图像、视频、传感器数据)且充满噪声。传统的“数据湖”仅能实现数据堆积,无法满足AI所需的“即取即用”。
新要求:数据存储系统需要与计算框架更紧密地结合,成为一个高效的数据预处理工厂。它必须能支撑海量小文件(如图片、PDF)的高速接入和高并发访问,提供极高的数据吞吐带宽,以便在数据清洗、标注、转换等ETL(Extraction Transformation Loading,数据从来源端抽取、转换、加载至目的端的过程)过程中不形成瓶颈。这意味着存储系统需要具备强大的元数据管理能力和近计算端的处理能力。
2)“AI工作流”驱动:对性能与协议的多维适配
挑战:一个完整的“人工智能+”项目包含数据准备、模型训练、模型推理、A/B测试等多个阶段,每个阶段对存储的性能和协议要求截然不同。
训练阶段:需要极高的顺序读写带宽和高IOPS(每秒读写次数),以加速海量数据集的读取,通常需要高性能的并行文件系统或对象存储。
推理阶段:需要高带宽和稳定的低延迟,以应对线上业务海量的随机读取请求。
新要求:数据存力必须具备场景化适配能力,在同一套存储资源池内,为AI工作流的不同环节提供最合适的性能表现和访问协议(文件、对象、HDFS)等,实现无缝的数据流动,避免因数据迁移带来的效率和成本问题。
3)“千模千态”与敏捷创新:对存储弹性与共享能力的考验
挑战:“人工智能+”意味着各行各业将涌现出海量、碎片化的AI应用场景,催生“行业大模型+场景小模型”的“千模千态”格局。研发团队需要频繁进行数据访问、模型试验和迭代。
新要求:存储基础设施必须提供极致的弹性扩展能力和多租户数据共享能力。研究人员可以像使用云计算资源一样,随时随地按需申请存储空间和性能,并能在团队内安全、高效地共享数据集和模型文件,从而极大加速AI应用的创新周期。
4)“AI原生”存储:智能管理与数据生命周期的重构
挑战:AI工作流会产生大量中间结果(如模型检查点、训练日志)、多个版本的模型和数据集。这些数据价值密度不同,但管理复杂,占用大量存储空间。
新要求:存储系统需要具备“AI原生”的智能数据管理功能,提供全新的AI数据平台能力。例如:
-
高质量数据归集、加工:系统需要具备跨域全局数据统一可视、可流动能力,提供数据目录,数据血缘,数据标签等能力,能够进行高效的向量、标量检索,配套完整的数据处理端到端工具链实现面向AI模型的高质量数据加工。
-
自动化的数据价值链管理:系统能自动识别并分类训练数据、模型文件、推理结果,并执行相应的生命周期策略。
-
与MLOps平台深度集成:通过与机器学习运维平台(MLOps)对接,自动存储和管理每次实验的“数据谱系”,确保模型的可复现性。
-
针对CheckPoint的优化:为模型训练过程中的检查点操作提供极速的快照和恢复能力,减少训练中断带来的时间损失。
-
针对数据的处理能力:可以将传统的“数据”转换为AI可以读懂的“知识”,提供高精准的知识生成与检索能力。
-
依托记忆库,可以记录智能体历史工作数据,沉淀智能体交互过程中的情景记忆与流程经验,支持记忆萃取与召回。
-
基于KV Cache的推理加速:通过持久化KV Cache数据,实现避免重复计算、精简序列长度、后缀智能联想、支持断点续训的关键能力,帮助企业AI大模型推理“推得动”、“推得快”、“推得省”。同时,做好存储与计算的平衡,确保外部存储的高吞吐、低延迟特性,避免成为性能瓶颈;做好动态调度,智能管理缓存分层,避免冷热数据混杂。
2.产业发展的新机遇与方向
面对“人工智能+”的新要求,数据存储产业必须在技术、产品和商业模式上加速进化。
1)大力发展AI存储解决方案:产业方向将从提供通用的存储设备,转向推出面向AI场景的垂直化、一体化解决方案。例如,推出“AI训练一体机”、“自动驾驶数据平台”、“生物信息基因存储方案”等,将存储、计算、网络和管理软件进行深度优化集成,开箱即用,降低企业部署“人工智能+”的技术门槛。
2)构建“存力-算力”一体化调度平台:未来的竞争不再是单纯的存储或算力竞争,而是整体效率的竞争。存储厂商需要与算力平台、云服务商深度合作,推动存算资源的统一编排与协同调度。用户可以通过一个入口,同时申请到匹配的GPU算力和数据存力,实现资源的最优配置。
3)强化数据安全和合规能力:“人工智能+”深入行业,必然涉及大量敏感数据(如医疗、金融、工业数据)。存储产业必须将数据安全、隐私保护(如联邦学习中的存储支持)和行业合规性作为产品的核心竞争力,提供贯穿数据全生命期的安全防护。
4)推动标准与生态建设:积极参与并主导AI数据存储相关标准的制定,推动存储系统与主流AI框架(如TensorFlow、PyTorch)、MLOps工具链的预集成和认证,构建繁荣的“人工智能+存储”应用生态以及丰富多元、聚合赋能的产业生态。
四、结语
“十五五”时期,是中国从“数据大国”迈向“数据强国”的关键五年。先进数据存力,作为数字经济的坚实底座,其发展水平直接关系到新质生产力的培育和数字中国的建设进程。
“人工智能+”行动的全面实施,更是将数据存力从幕后推向前台,使其从被动的基础资源转变为主动赋能AI创新的核心引擎。迎接这一变革,要求我们以“AI原生”的思维重构数据存力体系,使其更智能、更弹性、更融合、更安全。“十五五”时期,谁能率先构筑起支撑“人工智能+”的先进数据存力,谁就将在波澜壮阔的数字化浪潮中占据制高点。
我们应牢牢把握技术趋势,推动产业向融合、智能、可靠、绿色的方向演进,通过持续的科技创新与生态共建,筑牢国家数字经济发展的根基,为构建安全、繁荣、普惠的数字未来提供不竭动力。