AI大模型时代,存储介质将如何演绎新方向?
介质小白  2025-08-20 17:57  发布于中国

阮政委|华为 高级工程师

【摘要】AI技术的快速发展对数据存储系统提出了更高要求,海量训练数据、高频模型迭代和低延迟推理需求,正驱动存储介质在容量、性能、安全性和能效等关键维度持续演进。本文将以存储介质为核心,系统分析其技术演进路径如何有效应对AI时代的数据存储挑战。

数据作为人工智能的重要“燃料”,其规模和质量直接决定着AI的智能化高度,并不断驱动AI大模型加速通向AGI(Artificial General Intelligence,通用人工智能)。

数据存储作为AI全流程业务的坚实底座,负责数据的存储、转移和流通,为大模型的训练和推理提供支撑。新兴AI应用场景对数据存储容量、数据处理速度、流动性和安全性等方面提出了更高的诉求。

而存储介质,作为数据存储设备的关键部件,以及新一代生产力革命的底层引擎,正经历着关键性技术变革。在这场智能革命中,存储介质将会面临哪些挑战,朝着哪些方向演进?

一、AI场景全业务流程中,存储介质面临四大挑战

AI大模型全业务流程主要包括数据归集、数据预处理、模型训练、推理部署四个阶段,每个阶段的操作任务及对存储介质的需求都不相同。

笔者从AI场景全业务流程角度进行分析,总结如下:

数据归集和数据预处理:单盘容量挑战

非结构化多模态数据集的归集,带来原始数据集迅速增长达到百PB规模,数据量暴增;数据预处理服务器本地盘容量小的情况下,需分多批次完成,数据预处理周期长;中长期数据增长需要存储高扩展性,由于单盘容量小,单框存储容量有限,单个计算集群对接多个存储集群,导致存储集群规模庞大复杂,运营维护困难。

模型训练:数据读写效率挑战

训练数据集多为数量达到亿级的小文件,需对这些海量的小文件进行快速加载,以减少GPU/NPU/TPU宝贵计算资源的等待,这带来对存储介质的随机读写能力(IOPS/TB)的高要求;为了保证大模型训练的连贯性,避免重新训练,需频繁保存、加载CKPT(Checkpoint),这带来对存储介质的读写带宽能力的高要求。

模型推理:时延、带宽挑战

以Resnet50模型离线推理为例,单张A100 GPU卡需每秒处理68994张图片,单P算力需要带宽14GB/s,这要求存储介质具有同等高带宽能力;边缘推理业务时延敏感(互联网推荐<30ms),要求存储介质时延低,向量检索速度快,以快速响应边缘业务需求;KV Cache占用显存大,需要卸载到盘内,在AI推理的decode阶段,要求快速加载命中的KV Cache以响应用户问题,因此对盘的带宽要求极高。

全流程:可靠性、安全性挑战

一些重点行业,如政府医疗等行业内的私域数据集存在敏感信息泄露、勒索攻击等风险,建议在存储介质层面增强数据加密、数据安全性、可靠性的全面考虑。

全流程:大模型能耗挑战

AI大模型是新的“能耗巨兽”,根据公开数据得知,训练GPT-3耗用了1.287吉瓦时电量,大约相当于120个美国家庭1年的用电量。从存储介质角度分析,可以考虑使用更节能的SSD盘,同时提升SSD盘单Die密度和比特密度,降低整体能耗和TCO。

单Die密度:当前主要为512Gb、1Tb规格,未来会有2Tb和4Tb出现,单Die密度越高,盘容量越大。

比特密度:即单个存储单元可以存储的比特(bit)单位数据,分别为SLC(1bit/cell)、MLC(2bits/cell)、TLC(3bits/cell)、QLC(4bits/cell)。

综上所述,AI场景下的存储介质挑战可归纳为:容量挑战、性能挑战、安全挑战、能效挑战。针对这些业务流程上的存储需求,笔者认为需要从存储介质的这四个关键维度进行协同。

二、AI时代下存储介质发展趋势

AI带来的挑战,驱动存储介质向更大容量、更高性能、更低功耗、更高安全方向发展。

1、 超大容量:存储EB级数据集,成为AI业务理想选择

SSD盘从最初的SLC、MLC,到现在的TLC、QLC,闪存颗粒技术不断发展,NAND颗粒的层数也不断增加,未来NAND Flash会突破至300层,存储容量也会大幅提升。在3D NAND技术的突破下,采用QLC介质的SSD盘容量正在大幅增长,未来会演进至128TB、256TB,甚至实现单盘1PB容量将不再是梦想。

例如,在大容量TLC方面,DapuStor、Memblaze、Micron都已推出PCIe5.0 30.72TB TLC,读带宽达到14GB/s,写带宽达到10GB/s。在大容量QLC方面,Solidigm作为领先者,采用192层3D NAND技术的QLC SSD最大容量已达到61.44TB(D5-P5336),其顺序读性能达到7GB/s,顺序写性能达到3GB/s;122.88TB QLC已经在2025年上半年量产,顺序读性能达到7GB/s,顺序写性能达到3GB/s,但FTL(Flash Translation Layer)大小为32KB;国内厂商大普微同样基于QLC介质,推出61.44TB SSD(J5060),当前QLC聚焦于PCIe4.0,未来会推出性能更强的PCIe5.0 QLC盘。

QLC SSD相比于TLC SSD的数据读取性能持平,但在能耗和空间占用上更加节省,使其更适用于读密集的AI推理场景,如CDN、OLAP数据库场景,成为AI业务的理想选择。AI应用从训练转向推理,促使存储需求向本地化转移,为满足更多定制化需求,将会推出更高性能、更大容量的SSD。据悉,SKHynix正在开发300TB的超大容量SSD,来满足AI需求,降低数据中心整体TCO。

2、 卓越性能:提供高性能、低时延能力,加速AI业务运行

受前端协议和后端通道速率的限制,SSD的性能难以随容量线性增长。颗粒带宽5年时间增长了10倍,而通道带宽10年才增长了10倍。AI业务在小文件加载和大文件读取方面,对SSD的性能皆有很高要求,旨在降低GPU/NPU/TPU等待时间,缩短大模型商业化落地时间。

前端接口协议从PCIe3.0、PCIe4.0向更快速的PCIe5.0转变,基于PCIe5.0的SSD相比于PCIe4.0,其性能提升一倍。

很多SSD主流厂商如SKHynix、Micron、Huawei、DapuStor已有PCIe5.0的SSD量产。例如,SKHynix生产的PS1010,顺序读性能达到15000MB/s,顺序写性能达到10200MB/s。

另一方面,CXL协议的发展也为实现更快、更灵活的数据传输方案提供了一种可能,目前已演进至3.0,传输速率可以达到64GT/s。CXL实现了设备到CPU之间的互联,实现了存储计算分离。同时,CXL允许CPU以低延迟和高带宽访问连接设备上更大的内存池,突破传统DDR通道限制,从而扩展内存容量和带宽。对于性能要求极高的缓存场景,例如AI大模型推理KV Cache缓存场景,要求极致带宽性能,可以采用CXL盘加速数据加载速度。Samsung推出了基于CXL协议的存储器CMM-D,可以实现与现有DIMM无缝集成,带宽提升多达100%。

3、 绿色低碳:存储高效节能,打造绿色数据中心

在全球范围内,节能减排已成为共同使命,各行各业都在积极追求“碳达峰”、“碳中和”目标。AI业务作为吞电巨兽,从数据中心建立,到业务运行,需要消耗大量的电力资源,一个数据中心的存储能耗占比高达35%,数据中心已从算力竞争向能源竞争转变。SSD具有高密度、高可靠、低延迟和低能耗等特点,在AI时代,SSD取代HDD已成为必然趋势。通过大规模部署全闪存SSD,可以大幅降低AI算力中心的能耗,实现绿色节能和可持续发展。

北美诸多CSP厂商新建大型数据中心,如xAI,已部署使用Solidigm的QLC大盘用于构建AI数据湖,降低数据中心TCO。以下以国内某云构建10PB的存储解决方案为例,对比HDD与SSD的能耗,如图4所示:

从上面的对比,可以看出:

(1)为了满足AI场景下的高IOPS需求,服务器配置了149块HDD硬盘,相比SSD配置大幅增加了存储硬盘数量,但同时也带来了TCO(总拥有成本)的上升;

(2)SSD相比HDD具有更优的功率密度,可带来巨大的成本节约,5年TCO可节省46%。

4、安全可靠:存储介质内生安全,保护核心数据资产

AI大模型时代,数据的可靠性决定了大模型的准确性。行业数据多为私域数据,是重要的数据资产,同时也成为了最容易被攻击的价值资产。勒索、投毒、窃取等新型安全攻击,时刻威胁着大模型训练数据的可靠性与结果的准确性,并带来严重的经济损失。例如,2023年3月,Meta语言大模型遭泄露,随后一周内陆续出现Alpaca、ChatLLama、ColossalChat、FreedomGPT等类似大模型,Meta随后被迫宣布开源,前期投资化为泡影,损失惨重。从存储介质的视角,当前业界部分厂家已经在探索介质层的安全措施,如SSD盘上通过分析IO操作提取行为模式;聚合多个盘上的特征分析,使用ML模型检测引擎中的异常行为,实现防勒索检测。

三、结语

AI技术的快速发展正推动存储介质向四大方向加速演进:更大容量、更高性能、更强安全、更优能耗。面对AI时代的数据存储挑战,存储介质技术迎来关键突破期。只有持续创新,突破现有技术瓶颈,才能为AI时代提供坚实的底座支撑,赢得智能化发展的先发优势。

 

*本文收录于《话数》用户专刊第2期

全部回复(
回复
回复
发布帖子
帖子标题
行业分类
场景分类
帖子来源
发送语言版本
可切换语言,在您的个人中心检查译文是否正确
我要投稿
姓名
昵称
电话
邮箱
文章标题
行业
领域

投稿成功

感谢您的精彩投稿!✨我们的编辑团队正在快马加鞭审核中,请稍候~

如有任何修改建议,会第一时间与您联系沟通哒!

发布文章
文章标题
文章分类
发送语言版本
可切换语言,在您的个人中心检查译文是否正确