张连夺 | 中国软件评测中心 数据治理评估室主任
—— 本文收录于《话数 · 第3期》
【摘要】近年来,大模型技术不断取得突破,大规模高质量训练数据的投入在其中起到了关键作用,也进一步将“以数据为中心的人工智能”推向一个新阶段。伴随千行百业的数智化转型迈向深水区,AI、HPC、大数据等新型关键应用正加速融入企业生产决策系统,尤其是生成式AI浪潮打开了“潘多拉魔盒”,激活了视频、语音、文本、图片等海量非结构化数据的潜能。在这样的背景下,建立健全AI领域数据资源高效流通利用技术发展路径,打造全国产化、高性能AI数据基础设施底座,构建数据与AI双向赋能的重要性愈发突出。
一、 我国AI领域数据资源高效流通利用面临三大挑战
我国正加快构建以可信数据空间为技术底座的数据资源高效流通利用新型数据基础设施,推动高质量数据集建设,加快实施“人工智能+”行动。然而,在AI领域推动数据资源高效流通利用仍面临制度机制不够健全、技术体系不够完善、安全风险仍然较高等困难挑战。
1. 制度机制有待健全
当前,由于开源数据集规模有限、数据处理能力不足、版权问题、与实际业务场景脱节、缺乏可执行落地的建设标准规范、“重建设轻运营”、持续优化与维护机制欠缺等因素,我国高质量数据集建设过程和持续供给受到严重制约;与此同时,不同行业产业、不同区域地方和不同类型主体之间,缺少有效的组织引导和开放协作机制,参与数据流通的各方之间缺乏有效的信任机制;此外,数据权属边界不清,准入政策、产权制度、交易规则、收益分配、安全监管体系等配套基础制度不健全等问题,一定程度上影响AI领域数据资源高效流通利用。
2. 技术体系有待优化
一方面,存储性能瓶颈制约数据流通效率。当前,我国在自动驾驶、医疗影像、工业互联网、科学计算等场景下数据量持续突破,数据类型从结构化向非结构化及多模态融合急速演进,这对存储系统的异构、多协议支持能力与混合负载处理能力构成严峻考验。同时,金融高频交易、在线推荐、工业实时控制、交互式科研等场景中大模型训练数据归集耗时长,数据预处理资源消耗巨大,HDD等传统介质则受限于高延迟、低IOPS,无法满足人工智能与实时分析场景的性能需求。
另一方面,数据开发利用能力不足,“全局可视可管可用”数据服务能力亟待提升。
1)AI对算力、网络和数据的指数级需求加剧了传统设施的瓶颈,传统系统的架构僵化难以适应数据资源高效流通利用和AI工作负载的动态变化;
2)海量、多源、异构、动态的数据环境,对存储设施、数据管理能力都提出了新的要求,数据供给规模和质量不能满足高质量开发利用和AI发展需要;
3)数据质量参差不齐,数据不准确、不完整、不一致、不及时现象普遍存在,基于低质量数据的流通利用不仅无效,甚至有害,严重降低数据产品和服务的质量;
4)数据标准与规范不一,大多数企业缺乏统一的元数据标准、数据格式、编码规范、接口标准等,导致不同来源、不同系统间的数据难以理解、互操作和整合,形成“数据孤岛”,阻碍数据的高效流通利用和数据资产化的实现;
5)缺乏有效的全生命周期管理,大多数企业对数据的采集、存储、处理、使用、销毁等环节缺乏统一的管理策略和工具,数据冗余、无效数据堆积,不仅浪费资源,还增加管理复杂度和安全风险。
大模型升级迭代需要构建以高质量数据集为基础,并配套数据标注、数据处理的高效的数据管理平台,以生成和管理海量数据。
3. 安全风险依然存在
数据流通范围显著扩大、频率急剧增加、参与方多元化,使得数据泄露、滥用、篡改、跨境安全等风险显著提升。
一方面,数据流通过程风险高。传统的数据安全聚焦静态存储和数据库边界防护,而人工智能时代要求数据全生命周期的安全,强调数据流转过程的持续安全,这大幅增加了保护的复杂性和实现难度。数据在采集、存储、处理、传输等各个环节均面临泄露风险,个人敏感信息如身份信息、交易记录等极易成为不法分子觊觎的对象。
另一方面,跨境流动监管态势严峻。数据已成为连接全球经济的新纽带,各国加快在数据主权、数据本土化、个人信息保护等方面的政策制定,《通用数据保护条例》(GDPR)和《加州消费者隐私法案》(CCPA)等国际法规及国内日趋严格的监管,对合规性提出更高要求。
此外,传统存储设施在可靠性、安全性和可管理性方面存在明显不足。传统存储架构缺乏硬件级防护、安全策略难统一,无法应对当下大规模数据流通的场景,且传统存储介质容易受到物理损坏、电磁干扰和黑客攻击的影响,数据的安全性和可靠性难以得到保障。数据安全和隐私保护能力亟待加强。
二、 AI领域数据资源高效流通利用可行技术路径
通过技术架构创新,基于分布式存储,构建具备高性能、高可靠性及智能化管理能力的“1+2+3+N”AI数据基础设施体系,确保数据流、算力资源与模型资产的高效协同,赋能全行业快速部署和迭代AI能力,构建数据资源高效流通利用与AI双向赋能可行技术路径。
“1+2+3+N”AI数据基础设施框架,其中:
“1”是指在国家数据基础设施基础上,打造1个高性能全闪存分布式存储的AI数据基础设施底座;
“2”是指在有效落实国家现有制度基础上,继续完善数据流通利用配套标准规范,健全数据管理、数据安全2个管控体系;
“3”是指为提高“全局可视可管可用”数据服务能力,促进数据高质量供给、高效流通利用,降低社会用数成本和用数门槛,搭建智能化、一体化的AI数据湖,AI工具链和AI可信数据空间3个平台;
“N”是指为赋能实体经济,促进社会高质量发展,打造国际竞争新优势,持续深化AI领域数据资源高效流通利用N个场景。
“1+2+3+N”AI数据基础设施,是基于我国在推动人工智能发展和数据要素市场化配置背景下提出的一个适应AI应用的框架,旨在国家数据基础设施建设基础上,构建一个支撑AI大模型训练、应用和产业发展的综合性数据基础设施环境。
1.突破传统数据基础设施限制,通过先进存储技术构建统一数据空间,加快AI数据湖建设
打造全国产化、高性能的新型AI数据湖数据基础设施底座,需融合硬件自主、软件生态、数据调度及绿色节能四大核心能力,构建覆盖算力、存储、网络的协同体系。新型AI数据湖是专为人工智能应用设计的数据存储与管理平台,能够统一存储、处理多模态数据(文本、图像、语音等),并支持大规模数据处理与智能分析。通过先进存储技术构建统一数据空间,全闪分布式存储以极低单位能耗支撑EB级数据存储,满足医疗影像、媒资视频、教育科研等场景的海量需求。在AI数据基础设施加速落地的驱动下,已商用的业界先进全闪分布式存储,已经支持高达61.44 TB的大容量SSD,使得SSD相对于HDD单盘容量高出2至3倍。AI数据湖与先进存储介质正在重构AI数据基础设施范式——从“算力优先”转向“数据驱动”,存储系统已从辅助载体升级为决定AI模型性能的战略性支柱。
2.构建智慧化、一体化数据管理与流通平台,提高“全局可视、可管、可用”数据服务能力
构建智慧化、一体化数据管理与流通平台,旨在通过技术融合与流程优化,实现数据资源的全生命周期管理,并显著提升“全局可视、可管、可用”的数据服务能力。这一过程不仅涉及技术架构的革新,更强调组织协同与价值创造,为决策支持、业务创新和公共服务注入新动能。
智慧化、一体化平台的核心在于集成先进技术,打通数据壁垒,形成统一的数据治理体系:
1) 在数据采集层,通过物联网、传感器和API接口,实现多源异构数据的实时汇聚,确保数据全面性和时效性;
2)在数据处理层,运用大数据分析、人工智能和机器学习技术,对原始数据进行清洗、整合和特征提取,转化为结构化、可分析的信息资产;
3)在数据管理层,建立标准化数据目录和元数据管理机制,支持数据分类、分级和权限控制,保障数据安全与合规性;
4)在数据应用层,提供可视化工具和API服务,赋能业务场景,如智能决策、风险预警和个性化服务等;其智慧化特征体现在平台的自主优化能力上,例如通过算法模型动态调整数据处理流程,或利用预测分析预判数据需求,减少人工干预,提升响应效率。
“全局可视、可管、可用”能力是平台价值的集中体现:
1)全局可视,构建统一的数据视图,通过统一数据空间、增量元数据实时同步和地理信息系统(GIS)等技术,实现跨部门、跨系统的数据全景展示;
2)可管可控,强化数据治理框架,实施全流程监控,包括设立数据质量评估指标确保准确性,通过加密和访问控制技术防范数据泄露风险,并建立审计追踪机制,明确数据责任主体等;
3)可用易用,优化数据服务接口,降低使用门槛,支持灵活的数据查询、分析和共享功能,例如通过自然语言处理技术,让非技术人员也能便捷获取所需信息,从而加速业务创新和公共服务优化。
3.打造可信AI数据空间,加快数据资源规模化流通利用
落实国家数据局《可信数据空间发展行动计划(2024—2028年)》的有关要求,构建可信AI数据空间,确保数据提供方、数据使用方、数据服务方、空间运营方等可信数据空间参与各方在可信环境中实现数据资源共享共用,实现“泛在入湖、数据可信、AI可用”,提升AI数据集高质量供给,打造多方主体价值共创模式,构建数据资源高效流通机制和可持续运营模式,推动可信数据空间与大模型融合创新。
围绕数据“供得出、流得动、用得好、保安全”实现以下基础措施:
1)在智融数据供得出方面,可提供工程化语料清洗、智能化语料标注和一体化数据供给等多项创新技术,保障高质量语料的供给;
2)在智驱数据流得动方面,可遵循国际数据空间标准架构,通过“4W2H”(Where、Who、When、What、How to、How Many)模型的数据管控策略、基于OS UCON的操作系统内核级应用控制和机密计算技术,破解数据要素流通中的“流通不可控”、“传输不安全”的关键挑战;
3)在智联数据用得好方面,可提供数据模型化、数据智能化和数据向量化三类AI技术,加速数据价值变现,赋能业务向智能化创新演进;
4)在智护数据保安全方面,应在环境安全、数据安全、模型安全、内容安全和安全运营上提供全链路的安全防护能力,构筑“网+存+算”多重联动数字安全保护措施。
4.促进AI驱动数据资源高效流通利用,深化场景赋能
构建“汇数-治数-用数”一体化体系,通过技术底座、机制创新、场景适配三维联动,驱动数据从资源化向资产化跨越。
1)在强化数据基础底座方面,应构建AI Ready存力枢纽,打造存力中心破除行业数据壁垒,通过规模汇聚释放高价值行业数据,支撑AI从通用智能向专业智能跃迁。
2)在创新流通机制方面,应建立分层可控数据空间,建立企业、行业、城市三级可信数据空间,通过数据视图、环境、服务标准化交易形态,推动场内场外交易双循环。
3)在深化场景赋能方面,聚焦医疗、工业、政务等重点领域,促进AI驱动数据资源高效流通利用。如在医疗领域,AI模型蒸馏技术将32B参数专家模型部署至县级医院,诊断精度逼近三甲水平,降低跨省就医成本;如在工业领域,AI能耗优化算法动态调度生产负载,工业场景节能效率提升20%-30%;再如在政务领域,政务数据平台整合跨部门跨层级政务数据,支持“高效办成一件事”跨域协同,决策响应提速40%以上。
三、结语
在“十五五”期间,人工智能将成为推动高质量发展的核心引擎,数据资源高效流通利用是释放数据要素价值的关键,需以“制度为基、技术为径、场景为核”,逐步形成数据资源“供得出、流得动、用得好、保安全”的闭环。
以制度为基,在国家层面建立健全数据资源高效流通利用政策措施。有效落实现有制度,加紧制定流通利用配套标准规范;积极构建多元主体协同治理的制度体系,明晰多方主体权责关系;加快建立数据产权界定、市场交易、权益分配、利益保护制度;补充完善适应AI应用的数据基础设施政策、标准。
以技术为径,规模化布局全闪分布式存储设施,加快AI数据湖建设,打造高效智能数据基础设施。搭建高效、安全、低碳的全闪分布式数据存储“底座”,加快各行业、各地方AI数据湖建设,强化高质量数据集建设,实现全局数据“可管、可视、可用”,构建可信流通环境,推广可信数据空间技术,提升存储设备底层抗攻击能力,加强软硬件安全能力建设。
以场景为核,拓展深化基于AI的数据资源开发利用场景,提升AI基础设施应用广度和深度。赋能智能制造、智慧医疗、智慧城市、金融科技等垂直行业数字化转型,巩固AI基础设施的自主可控和领先地位,提升国家科技竞争力,驱动AI生态繁荣,保障社会可持续发展。