数据与AI:未来已来——以AI机遇为引,以数据存储为核
社区小助理  2026-03-03 10:01  发布于中国

Chris Mellor | Blocks & Files 创始人兼主编

 

【摘要】近年来,无论是线上还是线下办公,数据洪流都已漫延至企业的各个角落。如今,AI的兴起使能用户通过AI聊天机器人或智能体(AI Agent),以统一视角来访问这些分散的数据。那么,我们该如何协同数据和AI的发展浪潮,让企业既能享有数据的便利,又能拥抱AI的智能,进而构建一个无缝连接生活、工作与休闲的AI数据空间?

 

1.   迈向混合计算与云化转型

几年前,许多企业开始陆续采用公有云计算,将数据和应用运行在云服务商的分布式IT基础设施上。这种模式带来了与本地IT截然不同的业务运营和管理逻辑。供应商通过通用虚拟机环境和标准存储协议,实现了数据与应用在公有云和本地之间的流动——这就是所谓的混合计算。随后,企业开始采用云服务商提供的订阅式商业模式,逐渐放弃了永久性采购和永久软件许可模式。

而随着企业业务和数据中心的扩张,以及公有云IT资源的广泛采用,企业数据资产(即管理全量数据所需的基础设施)的规模也持续攀升。客户、产品、内部流程、销售、营销、运营等各类数据库记录如雨后春笋般涌现。文件数量从成千上万,一路飙升至数十万、数百万、数千万、数亿,甚至突破数十亿大关。

 

2.   硅进磁退:从HDDSSD的演进

早期文件主要存储在机械硬盘(HDD)上,随着对数据访问速度的要求不断提高,固态硬盘(SSD)登上了舞台。SSD价格高于机械硬盘,而机械硬盘又比用于归档的低速磁带昂贵。于是,存储系统自然形成了分层体系:高性能存储采用成本较高的SSD,其次是性能和成本均衡的HDD,最后是更为经济的磁带存储。但当文件数量膨胀到数亿甚至数十亿时,依靠IT人员手动在不同层级间迁移文件是完全不现实的。

 

3.   自动化数据管理:文件生命周期软件

为了解决海量文件在不同层级介质间的迁移问题,文件生命周期管理软件应运而生。根据文件被访问的频率,自动将冷数据从SSD迁移至HDD,再转存至磁带。用户不需要知道文件实际存放在何处,管理软件会维护统一的索引,按需从任意存储层提取文件。

通过一个集中控制面板,该系统能统一管理散布各处的数据,精准定位文件所在的数据中心、办公室或共有云区域,以及所处的存储层级。就像一座有多个分馆的图书馆,所有分支共享一个中央目录。此外,数据管理设施还可实现数据按需流动和及时访问。

 

4.   统一数据空间的理念

数据管理软件能够协调数据的存放与调度,好比公共图书馆系统可以把书籍、缩微胶片或期刊从不同的分馆调阅到阅览室。而现在,存储、数据请求和交付全程数字化。

即使从新加坡飞往伦敦,我们仍然可以访问想要的数据,在飞机上处理的数据,落地后也可以同步更新。如今,我们生活在一个无处不在的虚拟数据空间中,无论在何时何地,数据都变得触手可及。

这样的数据空间,最初连接的是有线计算机终端和数据中心内的服务器。随着有线互联网的普及,它逐渐延伸到办公室和家庭。再到后来,手机与WiFi的出现彻底改变了连接方式。我们摆脱了线缆的束缚,能够随时随地接入数据。智能手表、智能眼镜等设备也通过手机和笔记本这些中转载体,保持与这个数字世界的实时连接。

 

5.   存储容量与技术的跃迁

随着数据量持续攀升,存储设备只能不断加量。磁带机曾在大容量领域独占鳌头,一个磁带盒就能存下15TB30TB压缩数据。不过,它的读取方式比较原始,要想找到特定数据必须从头读,影响访问速度。机械硬盘则快得多,它可以直接空降到任意位置,速度甩开磁带,容量也同步追赶。现在一块盘就可以存下超过32TB的原始数据,也不用再靠压缩撑场面。

然而,机械硬盘很快被固态硬盘盖过风头。SSD靠电路直连存储单元,不用再等盘片转到读写磁头下方,访问速度顿时甩HDD几条街。目前市面上已经出现61TB SSD128TB SSD。内置NAND颗粒容量也一路蹿高,单颗就能达到1 Tb,比几年前的1 Mb翻了一千倍。

这就意味着,一个机柜的SSD容量就能超过50 PB。若换成传统硬盘,要达到同样容量,大概需要4700块盘,差不多要占11个机柜。可见SSD不仅能大幅节约数据中心空间,还能显著降低功耗和冷却成本。

 

6.   AI革新:大模型时代的数据需求

大语言模型的突破让AI迎来全新阶段,从简单的查询问答到专利申请总结、医院X光及CT扫描分析、计算机代码生成,甚至是图像视频创作,AI Agent和聊天机器人都能够用自然语言理解人类需求并给出回应。虽然这些模型本质上仍是基于统计去预测下一步,但其回应的复杂度与深度已远超想象。训练数据集越庞大,模型表现越出色。当接入企业内部数据时,它们甚至能处理销售线索初筛、基础客服咨询等一线交互场景工作。而自主智能体AIAgentic AI则让AI的潜力发挥更上一层楼,让聊天机器人之间实现多轮对话及多步骤任务协同。

 

7.   AI数据管道:为AI Agent做好数据准备

AI Agent需要海量数据快速喂给训练它们的GPU。要让它们在线实时问答,又得靠这些数据去做推理。大多数所需的原始数据通常是以文件或对象的形式存储,先挑选关联部分,再过滤敏感信息,最后转化成向量。聊天机器人答一句,背后其实是在向量库里搜一圈。因此,需要一个AI数据管道来筛选、过滤、转换数据,然后将向量化后的数据提供给AI Agent进行处理。如今,几乎每家数据库、数仓、湖仓厂商都在砌自己的管道。

 

8.   华为在AI生态中的角色

对华为和其客户来说,现在正是绝佳的风口期。这家公司的智能部件可以处理AI工作流,其服务器能够基于储存在OceanStor存储阵列中的数据训练AI Agent,同时配套为数据处理做准备的管道以及能够实时供给数据进行推理的存储系统与数据湖软件。

华为的网络设备负责在服务器、存储及终端(PC、手机、平板)之间搬运AI数据。NAND颗粒容量同步大幅提升,相较数年前,能够存储的数据量已不可同日而语,这也让端侧AI应用落地变得切实可行。事实上,像PerplexityGrokAI聊天机器人都已推出了手机App版,人类与它们的交互即将迈入自然语音对话的快车道。

 

9.   AI未来:无处不在的接入以及智能设备

从智能部件到服务器、网络与存储,从PC、笔记本、平板到智能手机、智能穿戴——华为的全系产品同频共振,纷纷加入这场AI盛宴。凭借行业领先的优势和前瞻性视角,华为精准捕捉“AI数据空间中的技术与应用趋势。在深耕AI的道路上,正以更稳健的步伐构建一个开放持续的智能生态版图。

*本文转载自《Transform》杂志20254月期

*本文收录于《话数》用户专刊第3

全部回复(
回复
回复
发布帖子
帖子标题
行业分类
场景分类
帖子来源
发送语言版本
可切换语言,在您的个人中心检查译文是否正确
我要投稿
姓名
昵称
电话
邮箱
文章标题
行业
领域

投稿成功

感谢您的精彩投稿!✨我们的编辑团队正在快马加鞭审核中,请稍候~

如有任何修改建议,会第一时间与您联系沟通哒!

发布文章
文章标题
文章分类
发送语言版本
可切换语言,在您的个人中心检查译文是否正确