在人工智能(AI)和生成式AI(AIGC)技术日益普及的今天,数据的价值愈加凸显,成为推动数字化转型和企业创新的核心资产。根据Gartner的预测,到2028年,企业软件应用程序中将有33%的应用具备自主性AI,企业对数据的依赖和利用将达到空前水平。在这一过程中,存储作为承载数据的关键基础设施,正在经历前所未有的变革。
人工智能的发展,离不开三个关键要素:算力、算法和数据。其中,算力和算法的优化一直备受关注,但当前最迫切的需求正是高质量的数据集。AI的发展不仅依赖于算力的提升和算法的进步,更重要的是,随着生成式AI应用的普及,数据的量级不断增长,如何存储、管理和处理这些海量数据成为了一个亟待解决的问题。
在过去几年中,AI和大数据的结合催生了多个行业的革新,尤其是在医疗、金融、制造和零售等领域。与此同时,随着生成式AI和大模型的广泛应用,数据的产生和处理速度与规模都达到了前所未有的水平。如何应对这一挑战,确保数据的高效存储与流动,成为了技术发展的关键环节。
传统的数据中心和存储体系大多以“人”和“服务器”为中心,但随着AI、云计算和大数据的兴起,存储体系正在快速向“数据”为中心的方向转变。如今,数据不仅仅是存储的对象,它本身已经成为了推动产业发展的核心资源。为了满足现代企业和AI应用对数据的需求,数据中心和存储架构必须进行全面的升级与变革。
根据中国信息通信研究院的数据,2023年中国的存力规模已经达到了1200EB,同比增加了20%,而先进存储容量占比也超过了25%。这一趋势反映了数据存储架构的快速扩展和先进技术的引入,尤其是在大规模AI应用场景下,存储能力的提升将直接决定AI应用的效率和效果。
AIGC(生成式AI)的应用无疑加速了存储行业的变革。为了支持生成式AI模型的训练和推理,存储系统不仅需要具备海量的存储空间,还需要处理大规模、高速度的数据流动。存储不仅是简单的数据容器,更是支持AI发展的关键基础设施。在此背景下,存储系统的设计必须满足以下几个关键需求:
随着需求的升级,存储架构的创新也逐步推动了整个行业的发展。浪潮信息近期提出的可组合分布式融合存储(CDFS)模式便是这一趋势的典型代表。CDFS架构旨在通过数据编织层、微服务化功能层和硬件资源层的组合,提供更高效的数据存储与流动解决方案。这一架构能够充分利用现有的存储资源,同时保证数据的高效处理与管理,确保大规模数据在不同计算场景中的无缝流动。
在这种新架构的基础上,存储行业也呈现出了两极化发展的趋势:一方面是面向边缘计算、近数据计算的小型存储解决方案(如BoR架构),它们可以在更小的空间内高效存储和处理数据;另一方面是面向超大规模数据处理的大型数据中心级存储解决方案(如BoD架构),它们能够支持跨云、跨系统和跨地域的大规模协同计算。
以清华大学的RUSH脑成像项目为例,这一项目需要处理大量的高频数据,并且要求数据存储系统在拍摄过程中做到“不丢帧”。在这种情况下,存储系统的稳定性和实时性被提到了前所未有的高度。浪潮信息提供的存储解决方案,不仅确保了大规模数据的高效写入,还实现了高达20.16GB/s的数据通量,满足了长时间的连续拍摄需求。
未来,存储行业将不仅仅满足于解决容量和性能问题,而是要推动数据的智能流动和价值实现。随着AI应用的不断深入,数据的生成、存储、处理和管理将成为全新的产业链环节。企业不再单纯依赖静态存储,而是依托智能化的存储架构,实现对数据的全生命周期管理。
在AI和生成式AI的推动下,存储行业正迎来前所未有的变革。面对日益增长的数据需求,企业必须重新审视存储架构的设计和优化。通过智能化、分布式和融合的存储架构,存储不仅能满足AI应用对数据的高效存储和访问需求,还能够实现数据的智能流动和价值创造。随着新技术和新需求的不断涌现,存储行业将持续创新,以支撑AI时代的蓬勃发展。