存算共生:AI时代的数据存储新纪元
Neil  2026-02-25 20:28  发布于中国

孙钢 | 中电标协数据存储专业委员会 秘书长

【摘要】

       回顾过去一年,我与许多同行交流时都有一个强烈的感受:人工智能时代数据存储的深刻变革,已经从技术话题变成了产业核心议题。一个普遍的共识正在形成——数据存储产业,正步入一场由AI原生负载驱动的、根本性的结构化变革。这次远不止是容量或速度的线性升级,而是一场触及系统架构、存算关系乃至产业生态的全方位重构。

我们或许都听过或见过这样的场景:实验室里,训练万亿参数模型的算力集群突然告警,原因并非是GPU不够强大,而是存储系统无法及时“喂饱”它们。这揭示了一个正被广泛认知的真相:在人工智能时代,存储的角色已经发生了根本变化。它正从计算背后沉默的附属设备,转变为参与智能构建的关键基石。(推荐阅读:人工智能大模型为什么需要先进AI存储?[1]

我们确实站在了一个转折点上。AI所驱动的存储变革,挑战着许多传统设计逻辑。当数据规模轻松突破PB级并向EB级迈进[2],当存储系统需要开始理解数据而不仅仅是存储比特,当内存与外存的传统界限变得模糊——我们看到的,是一个全新存储纪元正在开启的曙光。

一、    量变引发质变:EB级时代的架构重构

1.    PBEB:不只是数字的游戏

AI领域,单一大型模型的训练数据量已从TB级跃升至PB级,未来EB级训练集将成为常态。不同于以往任何一次容量跃迁,这个级别的增长已经不是设备容量线性扩展可以应对的挑战,它正在从根本上颠覆存储系统的设计逻辑。

传统存储架构建立在这样一个假设之上: 数据访问存在局部性,系统可以通过缓存、分层等策略优化性能。但在AI负载中,这一假设开始失效。大模型的训练需要近乎随机地访问海量小文件,推理阶段则要维持巨大的动态状态(如KV Cache)。当数据规模达到EB 级,传统基于PCIeI/O外围设备模型便显得力不从心。数据在GPUCPU与存储间需要多次复制和协议转换,如同货物需要在多个中转站间装卸搬运,其固有的高延迟和额外开销成为制约性能的根本瓶颈。

2.    CXL与统一总线:重新定义数据通道

在这样的背景下,CXLCompute Express Link)和类似统一总线架构登上了历史舞台。它利用相同的物理道路(PCIe), 但引入了一套全新的、基于内存语义的高速交通规则。通过提供缓存一致性内存语义, CXL允许CPUGPU和存储设备共享统一 的内存空间,大幅减少了数据复制和格式转换的开销[3],它允许CPU和加速器通过高效的加载/存储指令直接访问对方内存,消除了大量不必要的停车检查环节。这意味着, 存储设备从拓扑结构上被重新定位为系统的内存延伸,而非远端的外设,从而将存储从外围设备重新定位为计算伙伴

想象这样一个场景:在传统架构中,GPU需要某个训练样本时,数据必须从SSD 读取到主机内存,再复制到GPU内存——三次搬运,两次协议转换。而在CXL架构下,GPU可以直接访问SSD上的数据,就像访问自己的内存一样。这种改变带来的性能提升是数量级的,而它仅仅是开始。

3.    统一命名空间的挑战与机遇

随着存储系统规模扩展到EB级,另一个根本性问题浮现:如何管理如此庞大的数据命名空间?传统文件系统和对象存储的目录结构、元数据管理机制在面对数十亿甚至数百亿文件时举步维艰。这不仅仅是性能问题,更是语义问题——当文件数量如此庞大时,传统的层次化命名方式失去了意义。

下一代存储系统正在探索全新的命名空间架构。一些先锋系统放弃了传统的目录树结构,转向基于内容哈希、向量嵌入或知识图谱的寻址方式[4]。在这种范式下,数据不是通过路径找到,而是通过含义连接。例如,一个包含图片的文件可能不再位于 /images/animals/cats/ 下,而是通过其视觉特征向量与所有其他图片直接关联。 这种转变要求存储系统具备基础的内容理解能力[5],这也标志着存储从比特管理者语义理解者的演进。

二、    存算共生:从辅助到主导的角色重塑

1.    训练与推理:存储角色的分化演进

AI工作流的不同阶段,存储扮演着截 然不同却又互补的角色。训练阶段,是主体——数千张GPU卡协同工作,不断调整模型参数。这时,存储的主要任务是高效供给训练数据和保存检查点(CheckPoint)。但看似简单的任务背后是巨大的挑战:如何在不断开训练流程的情况下,将模型状态(可能达TB级)快速保存?这催生了以存强算的新范式——通过智能的检查点策略、增量快照和快速恢复机制,存储系统实际上增强了计算的连续性和韧性。

推理阶段则呈现出另一番景象。这时,模型已经训练完成,重点转向如何高效服务用户请求。存储的角色从数据供给者扩展为状态维持者知识承载者KV Cache(键值缓存)技术典型地体现了这种转变——这好比为对话AI提供了短期记忆本,避免其忘记刚刚说过的内容而重复计算,从而显著提升响应速度:为了加速自回归生成过程,系统需要维护一个庞大的动态缓存,用于存储先前生成的键值对。这个缓存可能高达数百GB,且访问模式高度随机。 传统存储架构对此无能为力,而专为AI设计的存储系统则能通过多层缓存、智能预取、与GPU显存的紧密协同,将这一开销降至最低。

更具突破性意义的是以存代算以查代算的兴起。在某些场景下,直接存储并检索预先计算的结果比实时计算更加高效。例 ,在推荐系统中,用户特征与物品的匹配分数可以预先计算并存储为向量;在代码生成中,常见模式可以缓存并直接复用。这种转变模糊了计算与存储的边界,也重新定义了智能的实现方式。这类似于从每次提问都现场从头计算的心算大师,转变为一位拥有速查手册常用答案库的资深专家。 对于常见问题(如推荐商品),直接翻阅手册 (检索缓存)给出答案,从而将宝贵脑力(算力)专注于解决真正的新问题。

2.    数据流动:从冷热分层到双向激活

传统数据管理遵循--的单向流动模式:新数据是热的,随着时间推移逐渐变冷,最终归档到廉价存储。AI时代颠覆了这一模式,因为它赋予了唤醒冷数据的能力。

考虑这样一个案例:一家电商公司拥有十年的用户购买记录,大部分是冷数据。传统上,这些数据主要用于年度报告和合规审计。但在AI驱动下,这些数据突然变得宝贵——通过分析十年趋势,模型可以预测消费习惯的长期演变;通过连接看似不相关的购买,可以发现潜在的市场机会。于是,存储系统需要支持大规模、高效率的冷数据激活,将PB级的历史数据快速转换为训练可用的形式。

这要求存储系统具备两个新能力:一是跨层数据移动的高度自动化,能够根据训练任务的需求动态调整数据位置;二是数据预热能力,能够预测即将需要的数据并提前将其移动到快速存储层。一些前沿系统甚至引入了数据重要性预测算法,基于数据在历史训练中的贡献度来决定其存储策略。

3.    存储的功能化:无处不在的数据服务

最根本的转变或许是存储从设备功能的重新定义。在AI基础设施中,存储不再局限于具体的硬件盒子,而是成为散布在计算、存储、网络各个环节的能力集合。

华为的UCM(统一缓存管理器,现官方 亦称推理记忆数据管理器)架构为此提供了一个生动的范例[6]UCM的定位不是一个独立的存储设备,而是一个融合多类型缓存加速算法工具的软件套件,它作为跨数据中心工作的缓存协调与调度层,其核心价值在于通过开放的南北向接口,向上对接多样化的AI推理框架,向下纳管从GPU显存(HBM)、主机内存(DRAM)到NVMe SSD乃至更远程存储的异构资源,将它们整合为一个逻辑上连续、物理上分布的统一记忆数据池。

GPU进行大模型推理需要数据时,UCM会根据数据的访问热度与延迟要求,智能地在HBMDRAMSSD等多级介质间动态调度KV Cache等记忆数据。这不仅极大释放了显存压力,更清晰地诠释了在这种架构下,存储不再是一个固定的地方,而是演变为一种可根据计算需求智能编排、无处不在的数据服务——数据所在之处,即为可用的存储。

三、    介质融合:当内存与外存的界限消失

1.    层次模糊化:从金字塔到连续谱系

传统存储架构建立在清晰的层次结构之上:寄存器、缓存、内存、闪存、磁盘、磁带,每一层在速度、容量和成本间取得平衡。 AI工作负载正在模糊这些界限,推动存储层次从离散金字塔连续谱系演变。

最显著的变化发生在内存与外存的交界处。持久内存(PMem)技术如Intel Optane 虽然市场命运多舛,但其揭示的方向却愈加清晰:我们需要既能以接近内存速度访问,又能在断电后保留数据的介质。这类介质不是要取代DRAMSSD,而是在二者之间建立平滑过渡。在AI场景中,这种过渡尤为重要——模型的嵌入表、动态缓存、中间激活值等数据结构,对速度和持久性都有要求,却不一定需要DRAM级的极致性能。

HBM(高带宽内存)的兴起代表了另一方向的融合。传统上,HBM被视为GPU附属内存,但新一代架构正在探索将 HBM作为整个系统的缓存层。通过CXL等互联技术,CPU和其他加速器也可以共享访问HBM,形成一个全局的高带宽存储池。这种架构特别适合AI推理场景,其中模型参数和KV Cache需要极高的带宽支持。

2.    智能分层:让数据找到最佳归宿

介质多样化带来了新的管理挑战,也孕育了新的优化机会。传统的分层存储主要基于访问频率这一简单指标,而AI感知的存储系统 可以采用更加精细的分层策略。

一个先进的AI存储系统可能会考虑以下因素来决定数据位置:

1) 计算亲和性:数据是否会被特定GPU频繁访问?

2)访问模式:数据是顺序读取还是随机访问?是大块IO还是小块IO

3)语义重要性:数据在模型中的角色是什么?是关键的注意力头还是可压缩的冗余参数?

4)生命周期:数据是永久模型参数、临时中间状态,还是即将失效的缓存?

基于这些多维度信息,系统可以进行动态、智能的数据放置。例如,在MoEMixture of Experts,混合专家)模型中,只有少数专家在每次推理中被激活,系统可以将活跃专家的 参数放在HBM或高速SSD中,而不活跃专家则置于大容量QLC SSD甚至HDD中。这种基于语义的分层,比基于简单访问频率的分层效率高出数个量级。

3.    长记忆存储:AI的时间维度

 人类智能的一个重要特征是拥有长期记忆——我们不仅根据当前输入做出反应,还基于数年甚至数十年的经验。当前的AI系统大多缺乏这种长期记忆能力,每次对话都几乎从零开始。改变这一现状需要存储系统的根本创新。

长记忆存储概念应运而生。这旨在为 AI构建一个持续成长的个人传记机构知识库,而不仅仅是记录零散对话的短 期便签。它使AI能够联系长期上下文,形成连贯的个性与深度洞察,更像一位拥有丰富经验和记忆的助手。这种存储不仅保存数据, 还保存数据的访问上下文、关联关系和演化历史。技术上,这可能涉及将向量数据库、图数据库和时间序列数据库的能力融合到存储层; 架构上,这要求存储系统维护复杂的数据关系和元数据;算法上,这需要新的索引结构和检索机制,能够在数TB的记忆中快速找到相关信息。

一个具体的实现可能是这样的:每当AI 系统与用户交互时,交互的要点被提取为向量嵌入,连同时间戳、上下文标签一起存储。当新交互发生时,系统会快速检索相关历史,为模型提供记忆上下文。这种能力需要存储系统在保持极高吞吐的同时,支持复杂的近邻搜索和图遍历,这正是传统存储系统设计的盲区。

四、    语义感知:存储系统的认知革命

1.    比特意义:内容感知存储

传统存储系统对数据内容一无所知——它们存储比特,而不理解这些比特代表什么。在AI时代,这种内容盲的设计越来越成为瓶颈。当稀疏化算法需要知道哪些权重可以安全剪枝时,当知识检索需要理解文档的语义结构时,当数据清洗需要识别并修复损坏样本时——存储系统如果能理解数据内容,就能提供前所未有的优化机会。

内容感知存储(CASContent-Aware Storage)正是这一方向的探索。其核心在于,让存储系统内置或集成轻量级的内容分析引擎,能够在数据写入或管理时自动提取特征、 建立索引。例如,一个存储医疗影像的CAS 系统可以自动识别图像模态(CTMRIX光)、提取关键解剖结构、标注异常区域。而面向企业AICAS方案则更进一步,致力于将非结构化文档(如报告、邮件)自动转换为AI可理解的语义知识。例如,IBMNVIDIA 合作推出内容感知存储方案,便能通过集成AI 微服务,自动从文本、图表中提取信息,并将其转换为向量存储于系统内部。更重要的是, 它能持续感知数据变化,仅对更新的部分进行智能处理,从而确保AI获取的信息始终最新[7]

AI训练中,这种能力尤为重要。大模型训练通常需要复杂的数据流水线,包括清洗、去重、平衡、增强等多个步骤。传统上,这些步骤由专门的预处理集群完成,数据需要在存储和计算间多次搬运。而在CAS 架构下,许多预处理步骤可以在数据存储时或第一次读取时完成,结果被缓存以供后续使用,大幅减少数据移动和重复计算。

2.    专有协议栈:为AI负载量身定制

通用存储协议的设计目标是满足大多数需求,但在AI工作负载中,这种通用性往往意味着性能损失。AI数据访问具有鲜明的模式特征:训练时的大规模顺序读取、检查点时的突发写入、推理时的随机读取和状态更新…… 这些模式催生了AI原生存储协议的发展。

一个典型的例子是大规模分布式训练中的检查点协议。传统方法将检查点视为普通文件 写入,导致数百甚至数千个GPU同时写入存储集群,产生毁灭性的随机IO。新一代协议(如Universal Checkpointing)采用分片转换模式:每个GPU将本地的模型分片写入存储,但不直接合并为单一全局检查点,而是通过一层通用检查点格式来描述分片与全局参数的映射关系。当需要恢复时,系统根据目标并行策略,动态地将分片数据转换并加载到相应的GPU上。这样既减轻了对共享存储的并发压力,又实现了检查点与硬件配置的解耦,为弹性训练、故障恢复等场景提供了根本性的支持[8]

除了为训练过程优化协议,面向推理的检索环节也催生了新的标准化需求,如向量检索协议的标准化。随着RAGRetrieval Augmented Generation,检索增强生成)成为大模型应用的主流范式,向量相似性搜索从专门的数据仓库功能变为存储系统的基础需求。存储系统需要提供高效的向量索引构建、更新和查询接口,这些接口必须与AI框架深度集成,支持流式更新、混合搜索(向量+关键字)、多模态检索等高级功能。

3.    存储微服务:模块化与可扩展性

单体式存储架构正让位于微服务化设计。 在这种新范式下,存储系统不是单一的庞然大物,而是一组协作的微服务:索引服务负责元数据管理,数据服务处理块I/O,缓存服务协调多层次缓存,检索服务提供向量搜索,安全服务处理加密和访问控制等。

这种架构带来了多重优势。首先是可扩展性:每个微服务可以独立扩展,避免了传统架构中为获取某一能力而过度配置整个系统的问题;其次是灵活性:用户可以根据工作负载特点选择并配置所需的服务组合,形成量身定制的存储栈;最重要的是创新速度:新的存储功能可以以微服务形式快速开发、部署和迭代,而不必改动整个存储系统。

以稀疏训练为例,这种技术通过跳过零值计算来加速模型训练,但需要存储系统理解参数的稀疏模式。在微服务架构下,可以开发专门的稀疏感知数据服务,在提供参数数据时同时提供稀疏掩码,甚至直接在存储层进行稀疏数据的压缩和编码。这种深度集成在传统架构中几乎不可能实现。

五、    AI原生安全:存储的免疫系统革命

1.    从边界防御到内生安全

传统数据安全建立在边界防御模型上:将数据放在防火墙后的保险箱中,严格控制谁可以访问。在AI时代,这一模型彻底失效——数据必须流动才能产生价值,模型训练需要海量数据聚合,推理服务需要低延迟访问,多方协作需要数据共享……数据从未如此暴露,也从未如此脆弱。

AI 原生安全采用完全不同的哲学:不是试图防止数据离开系统,而是确保数据无论去往何处都保持安全。这需要将安全能力植入数据本身和存储系统的每个环节,形成内生安全架构。

具体而言,AI原生存储安全包括以下几个层面:

1)数据可追溯性:每个数据单元都携带其来源、变换历史和使用策略,无论被复制多少次、存储在哪里。

2)使用策略执行:安全策略与数据绑定,而非与存储位置绑定。例如,某医疗数据集可能带有仅用于模型训练,不得用于服务用户的策略,这一策略在数据被读取时自动执行。

3)隐私保护计算:存储系统集成同态加密、安全多方计算等技术,使得数据可以在加密状态下被用于训练和推理。

4)对抗性防御:存储层能够检测并抵御针对AI系统的特殊攻击,如数据投毒、模型窃取、成员推断等。

2. 安全计算与可信存储的交汇

硬件安全模块(HSM)和可信执行环境(TEETrusted Execution Environment)等传统安全技术与AI存储的需求结合,催生了新的安全范式。以Intel SGXAMD SEV 为例,这些技术可以创建受保护的执行环境,确保即使云提供商也无法访问其中的代码和数据。在AI场景下,这种能力变得尤为宝贵。

想象一个多方联合训练场景:三家公司希望共同训练一个模型,但都不愿共享自己的数据。传统方法是建立复杂的法律协议和技术隔离,过程繁琐且风险难以完全消除。而在TEE 增强的存储架构下,每家公司的数据保持在自己的存储中,但模型的训练在TEE内进行—— 数据以加密形式送入TEE,在内部解密使用,训练结果(模型)也被加密输出。整个过程中,原始数据从未暴露,甚至模型参数也受到保护。

这种架构要求存储系统与TEE深度集成。存储系统需要理解数据的加密状态,知道哪些数据可以送入TEE,哪些操作需要在TEE内执行。同时,存储系统本身也需要在TEE内 运行关键组件,如访问控制引擎、审计日志服务等,防止存储软件栈被攻击。

3. 对抗AI特有的安全威胁

AI系统面临传统系统未曾遇到的安全威胁,存储系统必须进化以应对这些新挑战。

数据投毒防御:攻击者通过污染训练数据来影响模型行为。存储系统可以通过数据来源追踪、异常模式检测和版本控制来减轻这种威胁。例如,系统可以记录每个训练样本的来源和处理历史,当发现模型行为异常时,可以追溯到可能被污染的数据批次。

模型窃取保护:攻击者通过大量查询推理服务来重建模型。存储系统可以通过监控查询模式、检测异常访问频率、实施速率限制来防御。更高级的方法包括在存储层实现差异隐私,自动为查询结果添加噪声,使模型重建变得困难。

成员推断攻击防御:攻击者判断特定数据是否在训练集中。存储系统可以通过训练数据管理、访问控制和审计来降低风险。例如,系统可以确保训练完成后,原始训练数据无法被直接访问,只能通过特定的审查接口进行受控访问。

六、    结语:存储新纪元——智能基础设施的隐形革命

我们正目睹存储技术自磁盘发明以来最深刻的变革。这场变革不是渐进式的改进,而是结构性的跃迁;不是单一技术的突破,而是架构、角色、介质、智能和安全全方位的重塑。

未来的存储系统将不再只是保存数据的地方,而是智能的承载者、计算的协作者、安全的执行者。它将理解数据的含义而不仅是比特,将参与智能的构建而不仅是支持,将加速数据价值的流动而不仅是存储。

随着存储与计算的界限日渐模糊,数据到知识的转化更为直接,安全与效率的关系也被重新审视,我们看到的不仅是技术的进步,更是智能本身存在方式的改变。存储的新纪元, 正是AI真正成为通用智能的基石。在这条道路上,每一次架构革新、每一次协议优化、每一次安全增强,都是在为机器智能构建更加丰富、更加灵活、更加可靠的记忆与思维基础。

       这场隐形革命正在全球实验室和数据中心悄然发生,它的影响将远超技术范畴,重塑从科学研究到商业创新的每一个角落。而唯一可以确定的是,那些最早理解并拥抱这一变革的组织,将在AI时代掌握不可替代的竞争优势。存储不再仅仅是保存历史数据的场所,更是孕育未来智能的土壤。

参考文献

[1] 数据存储专委会公众号,深度解读丨中国工程院院士郑纬民:人工智能大模型为什么需要先进AI存储? https://mp.weixin.qq.com/s/zta0mObf3pSvVXPlgCYOBQ

[2] 《2025 存力发展报告》,报告显示,大模型训练对存储提出毫秒级延迟、TB级带宽、EB级扩展要求,推动全闪化、 AI 数据湖、内生存储安全等技术同步发展。

[3] CXL 联盟,CXL白皮书: https://docs.wixstatic.com/ugd/0c1418_d9878707bbb7427786b70c3c91d5fbd1.pdf

[4] NVDIA 技术博客,借助 NVIDIA cuVS 优化索引和实时检索的向量搜索: https://developer.nvidia.cn/blog/optimizing-vector-search-for-indexing-and-real-time-retrieval-with nvidia-cuvs/ 

[5] Springer Nature Link,Survey of vector database management systems: https://link.springer.com/ article/10.1007/s00778-024-00864-x 

[6] 数据存储专委会公众号,行业洞察丨UCM创新技术发布,加速AI推理成本降低、体验升级: https://mp.weixin.qq.com/s/db-BASpb24PJsJ_-FRy8zw

[7] IBM,New content-aware capabilities help IBM Storage Scale improve AI responses:https://www. ibm.com/new/announcements/new-content-aware-capabilities-help-ibm-storage-scale-improve-ai responses   

[8] Cornell University, Universal Checkpointing: A Flexible and Efficient Distributed Checkpointing System for Large-Scale DNN Training with Reconfigurable Parallelis: https://arxiv.org/abs/2406.18820 

全部回复(
回复
回复
发布帖子
帖子标题
行业分类
场景分类
帖子来源
发送语言版本
可切换语言,在您的个人中心检查译文是否正确
我要投稿
姓名
昵称
电话
邮箱
文章标题
行业
领域

投稿成功

感谢您的精彩投稿!✨我们的编辑团队正在快马加鞭审核中,请稍候~

如有任何修改建议,会第一时间与您联系沟通哒!

发布文章
文章标题
文章分类
发送语言版本
可切换语言,在您的个人中心检查译文是否正确