存算共生：AI时代的数据存储新纪元-OceanClub technical community.

存算共生：AI时代的数据存储新纪元

Neil 2026-02-25 20:28 published in China

孙钢 | 中电标协数据存储专业委员会秘书长

—— 本文收录于《话数 · 第3期》

【摘要】

回顾过去一年，我与许多同行交流时都有一个强烈的感受：人工智能时代数据存储的深刻变革，已经从技术话题变成了产业核心议题。一个普遍的共识正在形成——数据存储产业，正步入一场由AI原生负载驱动的、根本性的结构化变革。这次远不止是容量或速度的线性升级，而是一场触及系统架构、存算关系乃至产业生态的全方位重构。

我们或许都听过或见过这样的场景：实验室里，训练万亿参数模型的算力集群突然告警，原因并非是GPU不够强大，而是存储系统无法及时“喂饱”它们。这揭示了一个正被广泛认知的真相：在人工智能时代，存储的角色已经发生了根本变化。它正从计算背后沉默的附属设备，转变为参与智能构建的关键基石。（推荐阅读：人工智能大模型为什么需要先进AI存储？^[1]）

我们确实站在了一个转折点上。AI所驱动的存储变革，挑战着许多传统设计逻辑。当数据规模轻松突破PB级并向EB级迈进^[2]，当存储系统需要开始理解数据而不仅仅是存储比特，当内存与外存的传统界限变得模糊——我们看到的，是一个全新存储纪元正在开启的曙光。

一、 量变引发质变：EB级时代的架构重构

1. 从PB到EB：不只是数字的游戏

在AI领域，单一大型模型的训练数据量已从TB级跃升至PB级，未来EB级训练集将成为常态。不同于以往任何一次容量跃迁，这个级别的增长已经不是设备容量线性扩展可以应对的挑战，它正在从根本上颠覆存储系统的设计逻辑。

传统存储架构建立在这样一个假设之上：数据访问存在局部性，系统可以通过缓存、分层等策略优化性能。但在AI负载中，这一假设开始失效。大模型的训练需要近乎随机地访问海量小文件，推理阶段则要维持巨大的动态状态（如KV Cache）。当数据规模达到EB 级，传统基于PCIe的I/O外围设备模型便显得力不从心。数据在GPU、CPU与存储间需要多次复制和协议转换，如同货物需要在多个中转站间装卸搬运，其固有的高延迟和额外开销成为制约性能的根本瓶颈。

2. CXL与统一总线：重新定义数据通道

在这样的背景下，CXL（Compute Express Link）和类似统一总线架构登上了历史舞台。它利用相同的物理道路（PCIe），但引入了一套全新的、基于内存语义的“高速交通规则”。通过提供缓存一致性内存语义， CXL允许CPU、GPU和存储设备共享统一的内存空间，大幅减少了数据复制和格式转换的开销^[3]，它允许CPU和加速器通过高效的 “加载/存储”指令直接访问对方内存，消除了大量不必要的“停车检查”环节。这意味着，存储设备从拓扑结构上被重新定位为系统的内存延伸，而非远端的外设，从而将存储从“外围设备”重新定位为“计算伙伴”。

想象这样一个场景：在传统架构中，GPU需要某个训练样本时，数据必须从SSD 读取到主机内存，再复制到GPU内存——三次搬运，两次协议转换。而在CXL架构下，GPU可以直接访问SSD上的数据，就像访问自己的内存一样。这种改变带来的性能提升是数量级的，而它仅仅是开始。

3. 统一命名空间的挑战与机遇

随着存储系统规模扩展到EB级，另一个根本性问题浮现：如何管理如此庞大的数据命名空间？传统文件系统和对象存储的目录结构、元数据管理机制在面对数十亿甚至数百亿文件时举步维艰。这不仅仅是性能问题，更是语义问题——当文件数量如此庞大时，传统的层次化命名方式失去了意义。

下一代存储系统正在探索全新的命名空间架构。一些先锋系统放弃了传统的目录树结构，转向基于内容哈希、向量嵌入或知识图谱的寻址方式^[4]。在这种范式下，数据不是通过“路径”找到，而是通过“含义”连接。例如，一个包含“猫”图片的文件可能不再位于 /images/animals/cats/ 下，而是通过其视觉特征向量与所有其他“猫”图片直接关联。这种转变要求存储系统具备基础的内容理解能力^[5]，这也标志着存储从“比特管理者”向“语义理解者”的演进。

二、 存算共生：从辅助到主导的角色重塑

1. 训练与推理：存储角色的分化演进

在AI工作流的不同阶段，存储扮演着截然不同却又互补的角色。训练阶段，“算”是主体——数千张GPU卡协同工作，不断调整模型参数。这时，存储的主要任务是高效供给训练数据和保存检查点（CheckPoint）。但看似简单的任务背后是巨大的挑战：如何在不断开训练流程的情况下，将模型状态（可能达TB级）快速保存？这催生了“以存强算”的新范式——通过智能的检查点策略、增量快照和快速恢复机制，存储系统实际上增强了计算的连续性和韧性。

推理阶段则呈现出另一番景象。这时，模型已经训练完成，重点转向如何高效服务用户请求。存储的角色从“数据供给者”扩展为“状态维持者”和“知识承载者”。KV Cache（键值缓存）技术典型地体现了这种转变——这好比为对话AI提供了“短期记忆本”，避免其忘记刚刚说过的内容而重复计算，从而显著提升响应速度：为了加速自回归生成过程，系统需要维护一个庞大的动态缓存，用于存储先前生成的键值对。这个缓存可能高达数百GB，且访问模式高度随机。传统存储架构对此无能为力，而专为AI设计的存储系统则能通过多层缓存、智能预取、与GPU显存的紧密协同，将这一开销降至最低。

更具突破性意义的是“以存代算”和“以查代算”的兴起。在某些场景下，直接存储并检索预先计算的结果比实时计算更加高效。例，在推荐系统中，用户特征与物品的匹配分数可以预先计算并存储为向量；在代码生成中，常见模式可以缓存并直接复用。这种转变模糊了计算与存储的边界，也重新定义了“智能”的实现方式。这类似于从“每次提问都现场从头计算”的心算大师，转变为一位拥有“速查手册”和“常用答案库”的资深专家。对于常见问题（如推荐商品），直接翻阅手册（检索缓存）给出答案，从而将宝贵脑力（算力）专注于解决真正的新问题。

2. 数据流动：从冷热分层到双向激活

传统数据管理遵循“热-温-冷”的单向流动模式：新数据是热的，随着时间推移逐渐变冷，最终归档到廉价存储。AI时代颠覆了这一模式，因为它赋予了“唤醒”冷数据的能力。

考虑这样一个案例：一家电商公司拥有十年的用户购买记录，大部分是“冷数据”。传统上，这些数据主要用于年度报告和合规审计。但在AI驱动下，这些数据突然变得宝贵——通过分析十年趋势，模型可以预测消费习惯的长期演变；通过连接看似不相关的购买，可以发现潜在的市场机会。于是，存储系统需要支持大规模、高效率的“冷数据激活”，将PB级的历史数据快速转换为训练可用的形式。

这要求存储系统具备两个新能力：一是跨层数据移动的高度自动化，能够根据训练任务的需求动态调整数据位置；二是“数据预热”能力，能够预测即将需要的数据并提前将其移动到快速存储层。一些前沿系统甚至引入了“数据重要性预测”算法，基于数据在历史训练中的贡献度来决定其存储策略。

3. 存储的功能化：无处不在的数据服务

最根本的转变或许是存储从“设备”到 “功能”的重新定义。在AI基础设施中，存储不再局限于具体的硬件盒子，而是成为散布在计算、存储、网络各个环节的能力集合。

华为的UCM（统一缓存管理器，现官方亦称“推理记忆数据管理器”）架构为此提供了一个生动的范例^[6]。UCM的定位不是一个独立的存储设备，而是一个融合多类型缓存加速算法工具的软件套件，它作为跨数据中心工作的缓存协调与调度层，其核心价值在于通过开放的南北向接口，向上对接多样化的AI推理框架，向下纳管从GPU显存（HBM）、主机内存（DRAM）到NVMe SSD乃至更远程存储的异构资源，将它们整合为一个逻辑上连续、物理上分布的统一记忆数据池。

当GPU进行大模型推理需要数据时，UCM会根据数据的访问热度与延迟要求，智能地在HBM、DRAM和SSD等多级介质间动态调度KV Cache等记忆数据。这不仅极大释放了显存压力，更清晰地诠释了在这种架构下，“存储”不再是一个固定的地方，而是演变为一种可根据计算需求智能编排、无处不在的数据服务——数据所在之处，即为可用的存储。

三、 介质融合：当内存与外存的界限消失

1. 层次模糊化：从金字塔到连续谱系

传统存储架构建立在清晰的层次结构之上：寄存器、缓存、内存、闪存、磁盘、磁带，每一层在速度、容量和成本间取得平衡。 AI工作负载正在模糊这些界限，推动存储层次从“离散金字塔”向“连续谱系”演变。

最显著的变化发生在内存与外存的交界处。持久内存（PMem）技术如Intel Optane 虽然市场命运多舛，但其揭示的方向却愈加清晰：我们需要既能以接近内存速度访问，又能在断电后保留数据的介质。这类介质不是要取代DRAM或SSD，而是在二者之间建立平滑过渡。在AI场景中，这种过渡尤为重要——模型的嵌入表、动态缓存、中间激活值等数据结构，对速度和持久性都有要求，却不一定需要DRAM级的极致性能。

HBM（高带宽内存）的兴起代表了另一方向的融合。传统上，HBM被视为GPU的“附属内存”，但新一代架构正在探索将 HBM作为整个系统的缓存层。通过CXL等互联技术，CPU和其他加速器也可以共享访问HBM，形成一个全局的高带宽存储池。这种架构特别适合AI推理场景，其中模型参数和KV Cache需要极高的带宽支持。

2. 智能分层：让数据找到最佳归宿

介质多样化带来了新的管理挑战，也孕育了新的优化机会。传统的分层存储主要基于访问频率这一简单指标，而AI感知的存储系统可以采用更加精细的分层策略。

一个先进的AI存储系统可能会考虑以下因素来决定数据位置：

1) 计算亲和性：数据是否会被特定GPU频繁访问？

2）访问模式：数据是顺序读取还是随机访问？是大块IO还是小块IO？

3）语义重要性：数据在模型中的角色是什么？是关键的注意力头还是可压缩的冗余参数？

4）生命周期：数据是永久模型参数、临时中间状态，还是即将失效的缓存？

基于这些多维度信息，系统可以进行动态、智能的数据放置。例如，在MoE（Mixture of Experts，混合专家）模型中，只有少数“专家”在每次推理中被激活，系统可以将活跃专家的参数放在HBM或高速SSD中，而不活跃专家则置于大容量QLC SSD甚至HDD中。这种基于语义的分层，比基于简单访问频率的分层效率高出数个量级。

3. 长记忆存储：AI的时间维度

人类智能的一个重要特征是拥有长期记忆——我们不仅根据当前输入做出反应，还基于数年甚至数十年的经验。当前的AI系统大多缺乏这种长期记忆能力，每次对话都几乎从零开始。改变这一现状需要存储系统的根本创新。

“长记忆存储”概念应运而生。这旨在为 AI构建一个持续成长的“个人传记”或“机构知识库”，而不仅仅是记录零散对话的“短期便签”。它使AI能够联系长期上下文，形成连贯的个性与深度洞察，更像一位拥有丰富经验和记忆的助手。这种存储不仅保存数据，还保存数据的访问上下文、关联关系和演化历史。技术上，这可能涉及将向量数据库、图数据库和时间序列数据库的能力融合到存储层；架构上，这要求存储系统维护复杂的数据关系和元数据；算法上，这需要新的索引结构和检索机制，能够在数TB的记忆中快速找到相关信息。

一个具体的实现可能是这样的：每当AI 系统与用户交互时，交互的要点被提取为向量嵌入，连同时间戳、上下文标签一起存储。当新交互发生时，系统会快速检索相关历史，为模型提供“记忆上下文”。这种能力需要存储系统在保持极高吞吐的同时，支持复杂的近邻搜索和图遍历，这正是传统存储系统设计的盲区。

四、 语义感知：存储系统的“认知革命”

1. 从“比特”到“意义”：内容感知存储

传统存储系统对数据内容一无所知——它们存储比特，而不理解这些比特代表什么。在AI时代，这种“内容盲”的设计越来越成为瓶颈。当稀疏化算法需要知道哪些权重可以安全剪枝时，当知识检索需要理解文档的语义结构时，当数据清洗需要识别并修复损坏样本时——存储系统如果能理解数据内容，就能提供前所未有的优化机会。

内容感知存储（CAS，Content-Aware Storage）正是这一方向的探索。其核心在于，让存储系统内置或集成轻量级的内容分析引擎，能够在数据写入或管理时自动提取特征、建立索引。例如，一个存储医疗影像的CAS 系统可以自动识别图像模态（CT、MRI、X光）、提取关键解剖结构、标注异常区域。而面向企业AI的CAS方案则更进一步，致力于将非结构化文档（如报告、邮件）自动转换为AI可理解的语义知识。例如，IBM与NVIDIA 合作推出内容感知存储方案，便能通过集成AI 微服务，自动从文本、图表中提取信息，并将其转换为向量存储于系统内部。更重要的是，它能持续“感知”数据变化，仅对更新的部分进行智能处理，从而确保AI获取的信息始终最新^[7]。

在AI训练中，这种能力尤为重要。大模型训练通常需要复杂的数据流水线，包括清洗、去重、平衡、增强等多个步骤。传统上，这些步骤由专门的预处理集群完成，数据需要在存储和计算间多次搬运。而在CAS 架构下，许多预处理步骤可以在数据存储时或第一次读取时完成，结果被缓存以供后续使用，大幅减少数据移动和重复计算。

2. 专有协议栈：为AI负载量身定制

通用存储协议的设计目标是“满足大多数需求”，但在AI工作负载中，这种通用性往往意味着性能损失。AI数据访问具有鲜明的模式特征：训练时的大规模顺序读取、检查点时的突发写入、推理时的随机读取和状态更新…… 这些模式催生了AI原生存储协议的发展。

一个典型的例子是大规模分布式训练中的检查点协议。传统方法将检查点视为普通文件写入，导致数百甚至数千个GPU同时写入存储集群，产生毁灭性的随机IO。新一代协议（如Universal Checkpointing）采用 “分片转换”模式：每个GPU将本地的模型分片写入存储，但不直接合并为单一全局检查点，而是通过一层通用检查点格式来描述分片与全局参数的映射关系。当需要恢复时，系统根据目标并行策略，动态地将分片数据转换并加载到相应的GPU上。这样既减轻了对共享存储的并发压力，又实现了检查点与硬件配置的解耦，为弹性训练、故障恢复等场景提供了根本性的支持^[8]。

除了为训练过程优化协议，面向推理的检索环节也催生了新的标准化需求，如向量检索协议的标准化。随着RAG（Retrieval Augmented Generation，检索增强生成）成为大模型应用的主流范式，向量相似性搜索从专门的数据仓库功能变为存储系统的基础需求。存储系统需要提供高效的向量索引构建、更新和查询接口，这些接口必须与AI框架深度集成，支持流式更新、混合搜索（向量+关键字）、多模态检索等高级功能。

3. 存储微服务：模块化与可扩展性

单体式存储架构正让位于微服务化设计。在这种新范式下，存储系统不是单一的庞然大物，而是一组协作的微服务：索引服务负责元数据管理，数据服务处理块I/O，缓存服务协调多层次缓存，检索服务提供向量搜索，安全服务处理加密和访问控制等。

这种架构带来了多重优势。首先是可扩展性：每个微服务可以独立扩展，避免了传统架构中为获取某一能力而过度配置整个系统的问题；其次是灵活性：用户可以根据工作负载特点选择并配置所需的服务组合，形成量身定制的存储栈；最重要的是创新速度：新的存储功能可以以微服务形式快速开发、部署和迭代，而不必改动整个存储系统。

以稀疏训练为例，这种技术通过跳过零值计算来加速模型训练，但需要存储系统理解参数的稀疏模式。在微服务架构下，可以开发专门的“稀疏感知数据服务”，在提供参数数据时同时提供稀疏掩码，甚至直接在存储层进行稀疏数据的压缩和编码。这种深度集成在传统架构中几乎不可能实现。

五、 AI原生安全：存储的免疫系统革命

1. 从边界防御到内生安全

传统数据安全建立在“边界防御”模型上：将数据放在防火墙后的“保险箱”中，严格控制谁可以访问。在AI时代，这一模型彻底失效——数据必须流动才能产生价值，模型训练需要海量数据聚合，推理服务需要低延迟访问，多方协作需要数据共享……数据从未如此暴露，也从未如此脆弱。

AI 原生安全采用完全不同的哲学：不是试图防止数据离开系统，而是确保数据无论去往何处都保持安全。这需要将安全能力植入数据本身和存储系统的每个环节，形成“内生安全” 架构。

具体而言，AI原生存储安全包括以下几个层面：

1）数据可追溯性：每个数据单元都携带其来源、变换历史和使用策略，无论被复制多少次、存储在哪里。

2）使用策略执行：安全策略与数据绑定，而非与存储位置绑定。例如，某医疗数据集可能带有“仅用于模型训练，不得用于服务用户”的策略，这一策略在数据被读取时自动执行。

3）隐私保护计算：存储系统集成同态加密、安全多方计算等技术，使得数据可以在加密状态下被用于训练和推理。

4）对抗性防御：存储层能够检测并抵御针对AI系统的特殊攻击，如数据投毒、模型窃取、成员推断等。

2. 安全计算与可信存储的交汇

硬件安全模块（HSM）和可信执行环境（TEE，Trusted Execution Environment）等传统安全技术与AI存储的需求结合，催生了新的安全范式。以Intel SGX或AMD SEV 为例，这些技术可以创建受保护的执行环境，确保即使云提供商也无法访问其中的代码和数据。在AI场景下，这种能力变得尤为宝贵。

想象一个多方联合训练场景：三家公司希望共同训练一个模型，但都不愿共享自己的数据。传统方法是建立复杂的法律协议和技术隔离，过程繁琐且风险难以完全消除。而在TEE 增强的存储架构下，每家公司的数据保持在自己的存储中，但模型的训练在TEE内进行—— 数据以加密形式送入TEE，在内部解密使用，训练结果（模型）也被加密输出。整个过程中，原始数据从未暴露，甚至模型参数也受到保护。

这种架构要求存储系统与TEE深度集成。存储系统需要理解数据的加密状态，知道哪些数据可以送入TEE，哪些操作需要在TEE内执行。同时，存储系统本身也需要在TEE内运行关键组件，如访问控制引擎、审计日志服务等，防止存储软件栈被攻击。

3. 对抗AI特有的安全威胁

AI系统面临传统系统未曾遇到的安全威胁，存储系统必须进化以应对这些新挑战。

数据投毒防御：攻击者通过污染训练数据来影响模型行为。存储系统可以通过数据来源追踪、异常模式检测和版本控制来减轻这种威胁。例如，系统可以记录每个训练样本的来源和处理历史，当发现模型行为异常时，可以追溯到可能被污染的数据批次。

模型窃取保护：攻击者通过大量查询推理服务来重建模型。存储系统可以通过监控查询模式、检测异常访问频率、实施速率限制来防御。更高级的方法包括在存储层实现“差异隐私”，自动为查询结果添加噪声，使模型重建变得困难。

成员推断攻击防御：攻击者判断特定数据是否在训练集中。存储系统可以通过训练数据管理、访问控制和审计来降低风险。例如，系统可以确保训练完成后，原始训练数据无法被直接访问，只能通过特定的审查接口进行受控访问。

六、 结语：存储新纪元——智能基础设施的隐形革命

我们正目睹存储技术自磁盘发明以来最深刻的变革。这场变革不是渐进式的改进，而是结构性的跃迁；不是单一技术的突破，而是架构、角色、介质、智能和安全全方位的重塑。

未来的存储系统将不再只是“保存数据的地方”，而是智能的承载者、计算的协作者、安全的执行者。它将理解数据的含义而不仅是比特，将参与智能的构建而不仅是支持，将加速数据价值的流动而不仅是存储。

随着存储与计算的界限日渐模糊，数据到知识的转化更为直接，安全与效率的关系也被重新审视，我们看到的不仅是技术的进步，更是智能本身存在方式的改变。存储的新纪元，正是AI真正成为通用智能的基石。在这条道路上，每一次架构革新、每一次协议优化、每一次安全增强，都是在为机器智能构建更加丰富、更加灵活、更加可靠的记忆与思维基础。

这场隐形革命正在全球实验室和数据中心悄然发生，它的影响将远超技术范畴，重塑从科学研究到商业创新的每一个角落。而唯一可以确定的是，那些最早理解并拥抱这一变革的组织，将在AI时代掌握不可替代的竞争优势。存储不再仅仅是保存历史数据的场所，更是孕育未来智能的土壤。

*本文收录于《话数 · 第3期》

参考文献

[1] 数据存储专委会公众号，深度解读丨中国工程院院士郑纬民：人工智能大模型为什么需要先进AI存储？ https://mp.weixin.qq.com/s/zta0mObf3pSvVXPlgCYOBQ

[2] 《2025 存力发展报告》，报告显示，大模型训练对存储提出毫秒级延迟、TB级带宽、EB级扩展要求，推动全闪化、 AI 数据湖、内生存储安全等技术同步发展。

[3] CXL 联盟，CXL白皮书： https://docs.wixstatic.com/ugd/0c1418_d9878707bbb7427786b70c3c91d5fbd1.pdf

[4] NVDIA 技术博客，借助 NVIDIA cuVS 优化索引和实时检索的向量搜索： https://developer.nvidia.cn/blog/optimizing-vector-search-for-indexing-and-real-time-retrieval-with nvidia-cuvs/

[5] Springer Nature Link，Survey of vector database management systems: https://link.springer.com/ article/10.1007/s00778-024-00864-x

[6] 数据存储专委会公众号，行业洞察丨UCM创新技术发布，加速AI推理成本降低、体验升级: https://mp.weixin.qq.com/s/db-BASpb24PJsJ_-FRy8zw

[7] IBM，New content-aware capabilities help IBM Storage Scale improve AI responses：https://www. ibm.com/new/announcements/new-content-aware-capabilities-help-ibm-storage-scale-improve-ai responses

[8] Cornell University, Universal Checkpointing: A Flexible and Efficient Distributed Checkpointing System for Large-Scale DNN Training with Reconfigurable Parallelis: https://arxiv.org/abs/2406.18820

Replies（）

Sort By

Time

Neil

Articles

Followers

Following

 Follow

Recommended