存算共生:AI时代的数据存储新纪元
Neil  2026-02-25 20:28   published in China

孙钢 | 中电标协数据存储专业委员会 秘书长

—— 本文收录于《话数 · 第3期》

【摘要】

       回顾过去一年,我与许多同行交流时都有一个强烈的感受:人工智能时代数据存储的深刻变革,已经从技术话题变成了产业核心议题。一个普遍的共识正在形成——数据存储产业,正步入一场由AI原生负载驱动的、根本性的结构化变革。这次远不止是容量或速度的线性升级,而是一场触及系统架构、存算关系乃至产业生态的全方位重构。

我们或许都听过或见过这样的场景:实验室里,训练万亿参数模型的算力集群突然告警,原因并非是GPU不够强大,而是存储系统无法及时“喂饱”它们。这揭示了一个正被广泛认知的真相:在人工智能时代,存储的角色已经发生了根本变化。它正从计算背后沉默的附属设备,转变为参与智能构建的关键基石。(推荐阅读:人工智能大模型为什么需要先进AI存储?[1]

我们确实站在了一个转折点上。AI所驱动的存储变革,挑战着许多传统设计逻辑。当数据规模轻松突破PB级并向EB级迈进[2],当存储系统需要开始理解数据而不仅仅是存储比特,当内存与外存的传统界限变得模糊——我们看到的,是一个全新存储纪元正在开启的曙光。

一、    量变引发质变:EB级时代的架构重构

1.    PBEB:不只是数字的游戏

AI领域,单一大型模型的训练数据量已从TB级跃升至PB级,未来EB级训练集将成为常态。不同于以往任何一次容量跃迁,这个级别的增长已经不是设备容量线性扩展可以应对的挑战,它正在从根本上颠覆存储系统的设计逻辑。

传统存储架构建立在这样一个假设之上: 数据访问存在局部性,系统可以通过缓存、分层等策略优化性能。但在AI负载中,这一假设开始失效。大模型的训练需要近乎随机地访问海量小文件,推理阶段则要维持巨大的动态状态(如KV Cache)。当数据规模达到EB 级,传统基于PCIeI/O外围设备模型便显得力不从心。数据在GPUCPU与存储间需要多次复制和协议转换,如同货物需要在多个中转站间装卸搬运,其固有的高延迟和额外开销成为制约性能的根本瓶颈。

2.    CXL与统一总线:重新定义数据通道

在这样的背景下,CXLCompute Express Link)和类似统一总线架构登上了历史舞台。它利用相同的物理道路(PCIe), 但引入了一套全新的、基于内存语义的高速交通规则。通过提供缓存一致性内存语义, CXL允许CPUGPU和存储设备共享统一 的内存空间,大幅减少了数据复制和格式转换的开销[3],它允许CPU和加速器通过高效的加载/存储指令直接访问对方内存,消除了大量不必要的停车检查环节。这意味着, 存储设备从拓扑结构上被重新定位为系统的内存延伸,而非远端的外设,从而将存储从外围设备重新定位为计算伙伴

想象这样一个场景:在传统架构中,GPU需要某个训练样本时,数据必须从SSD 读取到主机内存,再复制到GPU内存——三次搬运,两次协议转换。而在CXL架构下,GPU可以直接访问SSD上的数据,就像访问自己的内存一样。这种改变带来的性能提升是数量级的,而它仅仅是开始。

3.    统一命名空间的挑战与机遇

随着存储系统规模扩展到EB级,另一个根本性问题浮现:如何管理如此庞大的数据命名空间?传统文件系统和对象存储的目录结构、元数据管理机制在面对数十亿甚至数百亿文件时举步维艰。这不仅仅是性能问题,更是语义问题——当文件数量如此庞大时,传统的层次化命名方式失去了意义。

下一代存储系统正在探索全新的命名空间架构。一些先锋系统放弃了传统的目录树结构,转向基于内容哈希、向量嵌入或知识图谱的寻址方式[4]。在这种范式下,数据不是通过路径找到,而是通过含义连接。例如,一个包含图片的文件可能不再位于 /images/animals/cats/ 下,而是通过其视觉特征向量与所有其他图片直接关联。 这种转变要求存储系统具备基础的内容理解能力[5],这也标志着存储从比特管理者语义理解者的演进。

二、    存算共生:从辅助到主导的角色重塑

1.    训练与推理:存储角色的分化演进

AI工作流的不同阶段,存储扮演着截 然不同却又互补的角色。训练阶段,是主体——数千张GPU卡协同工作,不断调整模型参数。这时,存储的主要任务是高效供给训练数据和保存检查点(CheckPoint)。但看似简单的任务背后是巨大的挑战:如何在不断开训练流程的情况下,将模型状态(可能达TB级)快速保存?这催生了以存强算的新范式——通过智能的检查点策略、增量快照和快速恢复机制,存储系统实际上增强了计算的连续性和韧性。

推理阶段则呈现出另一番景象。这时,模型已经训练完成,重点转向如何高效服务用户请求。存储的角色从数据供给者扩展为状态维持者知识承载者KV Cache(键值缓存)技术典型地体现了这种转变——这好比为对话AI提供了短期记忆本,避免其忘记刚刚说过的内容而重复计算,从而显著提升响应速度:为了加速自回归生成过程,系统需要维护一个庞大的动态缓存,用于存储先前生成的键值对。这个缓存可能高达数百GB,且访问模式高度随机。 传统存储架构对此无能为力,而专为AI设计的存储系统则能通过多层缓存、智能预取、与GPU显存的紧密协同,将这一开销降至最低。

更具突破性意义的是以存代算以查代算的兴起。在某些场景下,直接存储并检索预先计算的结果比实时计算更加高效。例 ,在推荐系统中,用户特征与物品的匹配分数可以预先计算并存储为向量;在代码生成中,常见模式可以缓存并直接复用。这种转变模糊了计算与存储的边界,也重新定义了智能的实现方式。这类似于从每次提问都现场从头计算的心算大师,转变为一位拥有速查手册常用答案库的资深专家。 对于常见问题(如推荐商品),直接翻阅手册 (检索缓存)给出答案,从而将宝贵脑力(算力)专注于解决真正的新问题。

2.    数据流动:从冷热分层到双向激活

传统数据管理遵循--的单向流动模式:新数据是热的,随着时间推移逐渐变冷,最终归档到廉价存储。AI时代颠覆了这一模式,因为它赋予了唤醒冷数据的能力。

考虑这样一个案例:一家电商公司拥有十年的用户购买记录,大部分是冷数据。传统上,这些数据主要用于年度报告和合规审计。但在AI驱动下,这些数据突然变得宝贵——通过分析十年趋势,模型可以预测消费习惯的长期演变;通过连接看似不相关的购买,可以发现潜在的市场机会。于是,存储系统需要支持大规模、高效率的冷数据激活,将PB级的历史数据快速转换为训练可用的形式。

这要求存储系统具备两个新能力:一是跨层数据移动的高度自动化,能够根据训练任务的需求动态调整数据位置;二是数据预热能力,能够预测即将需要的数据并提前将其移动到快速存储层。一些前沿系统甚至引入了数据重要性预测算法,基于数据在历史训练中的贡献度来决定其存储策略。

3.    存储的功能化:无处不在的数据服务

最根本的转变或许是存储从设备功能的重新定义。在AI基础设施中,存储不再局限于具体的硬件盒子,而是成为散布在计算、存储、网络各个环节的能力集合。

华为的UCM(统一缓存管理器,现官方 亦称推理记忆数据管理器)架构为此提供了一个生动的范例[6]UCM的定位不是一个独立的存储设备,而是一个融合多类型缓存加速算法工具的软件套件,它作为跨数据中心工作的缓存协调与调度层,其核心价值在于通过开放的南北向接口,向上对接多样化的AI推理框架,向下纳管从GPU显存(HBM)、主机内存(DRAM)到NVMe SSD乃至更远程存储的异构资源,将它们整合为一个逻辑上连续、物理上分布的统一记忆数据池。

GPU进行大模型推理需要数据时,UCM会根据数据的访问热度与延迟要求,智能地在HBMDRAMSSD等多级介质间动态调度KV Cache等记忆数据。这不仅极大释放了显存压力,更清晰地诠释了在这种架构下,存储不再是一个固定的地方,而是演变为一种可根据计算需求智能编排、无处不在的数据服务——数据所在之处,即为可用的存储。

三、    介质融合:当内存与外存的界限消失

1.    层次模糊化:从金字塔到连续谱系

传统存储架构建立在清晰的层次结构之上:寄存器、缓存、内存、闪存、磁盘、磁带,每一层在速度、容量和成本间取得平衡。 AI工作负载正在模糊这些界限,推动存储层次从离散金字塔连续谱系演变。

最显著的变化发生在内存与外存的交界处。持久内存(PMem)技术如Intel Optane 虽然市场命运多舛,但其揭示的方向却愈加清晰:我们需要既能以接近内存速度访问,又能在断电后保留数据的介质。这类介质不是要取代DRAMSSD,而是在二者之间建立平滑过渡。在AI场景中,这种过渡尤为重要——模型的嵌入表、动态缓存、中间激活值等数据结构,对速度和持久性都有要求,却不一定需要DRAM级的极致性能。

HBM(高带宽内存)的兴起代表了另一方向的融合。传统上,HBM被视为GPU附属内存,但新一代架构正在探索将 HBM作为整个系统的缓存层。通过CXL等互联技术,CPU和其他加速器也可以共享访问HBM,形成一个全局的高带宽存储池。这种架构特别适合AI推理场景,其中模型参数和KV Cache需要极高的带宽支持。

2.    智能分层:让数据找到最佳归宿

介质多样化带来了新的管理挑战,也孕育了新的优化机会。传统的分层存储主要基于访问频率这一简单指标,而AI感知的存储系统 可以采用更加精细的分层策略。

一个先进的AI存储系统可能会考虑以下因素来决定数据位置:

1) 计算亲和性:数据是否会被特定GPU频繁访问?

2)访问模式:数据是顺序读取还是随机访问?是大块IO还是小块IO

3)语义重要性:数据在模型中的角色是什么?是关键的注意力头还是可压缩的冗余参数?

4)生命周期:数据是永久模型参数、临时中间状态,还是即将失效的缓存?

基于这些多维度信息,系统可以进行动态、智能的数据放置。例如,在MoEMixture of Experts,混合专家)模型中,只有少数专家在每次推理中被激活,系统可以将活跃专家的 参数放在HBM或高速SSD中,而不活跃专家则置于大容量QLC SSD甚至HDD中。这种基于语义的分层,比基于简单访问频率的分层效率高出数个量级。

3.    长记忆存储:AI的时间维度

 人类智能的一个重要特征是拥有长期记忆——我们不仅根据当前输入做出反应,还基于数年甚至数十年的经验。当前的AI系统大多缺乏这种长期记忆能力,每次对话都几乎从零开始。改变这一现状需要存储系统的根本创新。

长记忆存储概念应运而生。这旨在为 AI构建一个持续成长的个人传记机构知识库,而不仅仅是记录零散对话的短 期便签。它使AI能够联系长期上下文,形成连贯的个性与深度洞察,更像一位拥有丰富经验和记忆的助手。这种存储不仅保存数据, 还保存数据的访问上下文、关联关系和演化历史。技术上,这可能涉及将向量数据库、图数据库和时间序列数据库的能力融合到存储层; 架构上,这要求存储系统维护复杂的数据关系和元数据;算法上,这需要新的索引结构和检索机制,能够在数TB的记忆中快速找到相关信息。

一个具体的实现可能是这样的:每当AI 系统与用户交互时,交互的要点被提取为向量嵌入,连同时间戳、上下文标签一起存储。当新交互发生时,系统会快速检索相关历史,为模型提供记忆上下文。这种能力需要存储系统在保持极高吞吐的同时,支持复杂的近邻搜索和图遍历,这正是传统存储系统设计的盲区。

四、    语义感知:存储系统的认知革命

1.    比特意义:内容感知存储

传统存储系统对数据内容一无所知——它们存储比特,而不理解这些比特代表什么。在AI时代,这种内容盲的设计越来越成为瓶颈。当稀疏化算法需要知道哪些权重可以安全剪枝时,当知识检索需要理解文档的语义结构时,当数据清洗需要识别并修复损坏样本时——存储系统如果能理解数据内容,就能提供前所未有的优化机会。

内容感知存储(CASContent-Aware Storage)正是这一方向的探索。其核心在于,让存储系统内置或集成轻量级的内容分析引擎,能够在数据写入或管理时自动提取特征、 建立索引。例如,一个存储医疗影像的CAS 系统可以自动识别图像模态(CTMRIX光)、提取关键解剖结构、标注异常区域。而面向企业AICAS方案则更进一步,致力于将非结构化文档(如报告、邮件)自动转换为AI可理解的语义知识。例如,IBMNVIDIA 合作推出内容感知存储方案,便能通过集成AI 微服务,自动从文本、图表中提取信息,并将其转换为向量存储于系统内部。更重要的是, 它能持续感知数据变化,仅对更新的部分进行智能处理,从而确保AI获取的信息始终最新[7]

AI训练中,这种能力尤为重要。大模型训练通常需要复杂的数据流水线,包括清洗、去重、平衡、增强等多个步骤。传统上,这些步骤由专门的预处理集群完成,数据需要在存储和计算间多次搬运。而在CAS 架构下,许多预处理步骤可以在数据存储时或第一次读取时完成,结果被缓存以供后续使用,大幅减少数据移动和重复计算。

2.    专有协议栈:为AI负载量身定制

通用存储协议的设计目标是满足大多数需求,但在AI工作负载中,这种通用性往往意味着性能损失。AI数据访问具有鲜明的模式特征:训练时的大规模顺序读取、检查点时的突发写入、推理时的随机读取和状态更新…… 这些模式催生了AI原生存储协议的发展。

一个典型的例子是大规模分布式训练中的检查点协议。传统方法将检查点视为普通文件 写入,导致数百甚至数千个GPU同时写入存储集群,产生毁灭性的随机IO。新一代协议(如Universal Checkpointing)采用分片转换模式:每个GPU将本地的模型分片写入存储,但不直接合并为单一全局检查点,而是通过一层通用检查点格式来描述分片与全局参数的映射关系。当需要恢复时,系统根据目标并行策略,动态地将分片数据转换并加载到相应的GPU上。这样既减轻了对共享存储的并发压力,又实现了检查点与硬件配置的解耦,为弹性训练、故障恢复等场景提供了根本性的支持[8]

除了为训练过程优化协议,面向推理的检索环节也催生了新的标准化需求,如向量检索协议的标准化。随着RAGRetrieval Augmented Generation,检索增强生成)成为大模型应用的主流范式,向量相似性搜索从专门的数据仓库功能变为存储系统的基础需求。存储系统需要提供高效的向量索引构建、更新和查询接口,这些接口必须与AI框架深度集成,支持流式更新、混合搜索(向量+关键字)、多模态检索等高级功能。

3.    存储微服务:模块化与可扩展性

单体式存储架构正让位于微服务化设计。 在这种新范式下,存储系统不是单一的庞然大物,而是一组协作的微服务:索引服务负责元数据管理,数据服务处理块I/O,缓存服务协调多层次缓存,检索服务提供向量搜索,安全服务处理加密和访问控制等。

这种架构带来了多重优势。首先是可扩展性:每个微服务可以独立扩展,避免了传统架构中为获取某一能力而过度配置整个系统的问题;其次是灵活性:用户可以根据工作负载特点选择并配置所需的服务组合,形成量身定制的存储栈;最重要的是创新速度:新的存储功能可以以微服务形式快速开发、部署和迭代,而不必改动整个存储系统。

以稀疏训练为例,这种技术通过跳过零值计算来加速模型训练,但需要存储系统理解参数的稀疏模式。在微服务架构下,可以开发专门的稀疏感知数据服务,在提供参数数据时同时提供稀疏掩码,甚至直接在存储层进行稀疏数据的压缩和编码。这种深度集成在传统架构中几乎不可能实现。

五、    AI原生安全:存储的免疫系统革命

1.    从边界防御到内生安全

传统数据安全建立在边界防御模型上:将数据放在防火墙后的保险箱中,严格控制谁可以访问。在AI时代,这一模型彻底失效——数据必须流动才能产生价值,模型训练需要海量数据聚合,推理服务需要低延迟访问,多方协作需要数据共享……数据从未如此暴露,也从未如此脆弱。

AI 原生安全采用完全不同的哲学:不是试图防止数据离开系统,而是确保数据无论去往何处都保持安全。这需要将安全能力植入数据本身和存储系统的每个环节,形成内生安全架构。

具体而言,AI原生存储安全包括以下几个层面:

1)数据可追溯性:每个数据单元都携带其来源、变换历史和使用策略,无论被复制多少次、存储在哪里。

2)使用策略执行:安全策略与数据绑定,而非与存储位置绑定。例如,某医疗数据集可能带有仅用于模型训练,不得用于服务用户的策略,这一策略在数据被读取时自动执行。

3)隐私保护计算:存储系统集成同态加密、安全多方计算等技术,使得数据可以在加密状态下被用于训练和推理。

4)对抗性防御:存储层能够检测并抵御针对AI系统的特殊攻击,如数据投毒、模型窃取、成员推断等。

2. 安全计算与可信存储的交汇

硬件安全模块(HSM)和可信执行环境(TEETrusted Execution Environment)等传统安全技术与AI存储的需求结合,催生了新的安全范式。以Intel SGXAMD SEV 为例,这些技术可以创建受保护的执行环境,确保即使云提供商也无法访问其中的代码和数据。在AI场景下,这种能力变得尤为宝贵。

想象一个多方联合训练场景:三家公司希望共同训练一个模型,但都不愿共享自己的数据。传统方法是建立复杂的法律协议和技术隔离,过程繁琐且风险难以完全消除。而在TEE 增强的存储架构下,每家公司的数据保持在自己的存储中,但模型的训练在TEE内进行—— 数据以加密形式送入TEE,在内部解密使用,训练结果(模型)也被加密输出。整个过程中,原始数据从未暴露,甚至模型参数也受到保护。

这种架构要求存储系统与TEE深度集成。存储系统需要理解数据的加密状态,知道哪些数据可以送入TEE,哪些操作需要在TEE内执行。同时,存储系统本身也需要在TEE内 运行关键组件,如访问控制引擎、审计日志服务等,防止存储软件栈被攻击。

3. 对抗AI特有的安全威胁

AI系统面临传统系统未曾遇到的安全威胁,存储系统必须进化以应对这些新挑战。

数据投毒防御:攻击者通过污染训练数据来影响模型行为。存储系统可以通过数据来源追踪、异常模式检测和版本控制来减轻这种威胁。例如,系统可以记录每个训练样本的来源和处理历史,当发现模型行为异常时,可以追溯到可能被污染的数据批次。

模型窃取保护:攻击者通过大量查询推理服务来重建模型。存储系统可以通过监控查询模式、检测异常访问频率、实施速率限制来防御。更高级的方法包括在存储层实现差异隐私,自动为查询结果添加噪声,使模型重建变得困难。

成员推断攻击防御:攻击者判断特定数据是否在训练集中。存储系统可以通过训练数据管理、访问控制和审计来降低风险。例如,系统可以确保训练完成后,原始训练数据无法被直接访问,只能通过特定的审查接口进行受控访问。

六、    结语:存储新纪元——智能基础设施的隐形革命

我们正目睹存储技术自磁盘发明以来最深刻的变革。这场变革不是渐进式的改进,而是结构性的跃迁;不是单一技术的突破,而是架构、角色、介质、智能和安全全方位的重塑。

未来的存储系统将不再只是保存数据的地方,而是智能的承载者、计算的协作者、安全的执行者。它将理解数据的含义而不仅是比特,将参与智能的构建而不仅是支持,将加速数据价值的流动而不仅是存储。

随着存储与计算的界限日渐模糊,数据到知识的转化更为直接,安全与效率的关系也被重新审视,我们看到的不仅是技术的进步,更是智能本身存在方式的改变。存储的新纪元, 正是AI真正成为通用智能的基石。在这条道路上,每一次架构革新、每一次协议优化、每一次安全增强,都是在为机器智能构建更加丰富、更加灵活、更加可靠的记忆与思维基础。

       这场隐形革命正在全球实验室和数据中心悄然发生,它的影响将远超技术范畴,重塑从科学研究到商业创新的每一个角落。而唯一可以确定的是,那些最早理解并拥抱这一变革的组织,将在AI时代掌握不可替代的竞争优势。存储不再仅仅是保存历史数据的场所,更是孕育未来智能的土壤。

*本文收录于《话数 · 第3期》

参考文献

[1] 数据存储专委会公众号,深度解读丨中国工程院院士郑纬民:人工智能大模型为什么需要先进AI存储? https://mp.weixin.qq.com/s/zta0mObf3pSvVXPlgCYOBQ

[2] 《2025 存力发展报告》,报告显示,大模型训练对存储提出毫秒级延迟、TB级带宽、EB级扩展要求,推动全闪化、 AI 数据湖、内生存储安全等技术同步发展。

[3] CXL 联盟,CXL白皮书: https://docs.wixstatic.com/ugd/0c1418_d9878707bbb7427786b70c3c91d5fbd1.pdf

[4] NVDIA 技术博客,借助 NVIDIA cuVS 优化索引和实时检索的向量搜索: https://developer.nvidia.cn/blog/optimizing-vector-search-for-indexing-and-real-time-retrieval-with nvidia-cuvs/ 

[5] Springer Nature Link,Survey of vector database management systems: https://link.springer.com/ article/10.1007/s00778-024-00864-x 

[6] 数据存储专委会公众号,行业洞察丨UCM创新技术发布,加速AI推理成本降低、体验升级: https://mp.weixin.qq.com/s/db-BASpb24PJsJ_-FRy8zw

[7] IBM,New content-aware capabilities help IBM Storage Scale improve AI responses:https://www. ibm.com/new/announcements/new-content-aware-capabilities-help-ibm-storage-scale-improve-ai responses   

[8] Cornell University, Universal Checkpointing: A Flexible and Efficient Distributed Checkpointing System for Large-Scale DNN Training with Reconfigurable Parallelis: https://arxiv.org/abs/2406.18820 

Replies(
Sort By   
Reply
Reply
Post
Post title
Industry classification
Scene classification
Post source
Send Language Version
You can switch languages and verify the correctness of the translation in your personal center.
Contribute
Name
Nickname
Phone
Email
Article title
Industry
Field

Submission successful

We sincerely appreciate your fantastic submission! Our editorial team is working diligently on the review process—please stay tuned.

Should there be any revision suggestions, we'll promptly reach out to discuss them with you!

Contribute
Article title
Article category
Send Language Version
You can switch languages and verify the correctness of the translation in your personal center.