AI数据周期:适合大规模AI工作负载的最佳存储组合

2024.10.16

虽然AI在彻底改变人们的生活,并激发各种全新的应用,但从根本上来说,其核心是数据使用和数据生成。

随着AI行业扩建庞大新颖的基础设施来训练AI模型,并提供AI服务(推理),数据存储方面带来了重要影响。首先,存储技术在这种新基础设施各个阶段的成本和能效方面发挥着重要作用。当AI系统处理和分析现有数据时,生成新数据,其中大部分数据将因有用而被存储起来。新的AI用例和更复杂的模型使现有的存储库和额外的数据源对模型上下文和训练更有价值,从而带动了这种循环:生成的数据增加推动了数据存储扩展,从而推动了进一步的数据生成,这是良性的AI数据循环。

对于企业数据中心规划者来说,了解AI和数据存储之间的动态关系很重要。AI数据周期概述了六个阶段中每个阶段大规模AI工作负载的存储优先事项。存储部件制造商正在调整产品路线图,认识到这些加速的AI推动的需求:尽量提升性能、最迟降低总体拥有成本(CTO)。

不妨快速浏览一下AI数据周期的各个阶段:

原始数据存档和内容存储

从各种来源安全高效地收集和存储原始数据。收集数据的质量和多样性至关重要,这为随后的一切奠定了基础。

存储需求:大容量企业硬盘驱动器(eHDD)仍然是低成本批量数据存储的首选技术,继续提供最高的每个驱动器容量和最低的每比特成本。

数据准备和摄取

数据被处理、清理和转换,作为模型训练的输入。数据中心的所有者正在实施经过升级的存储基础设施(比如快速数据湖),以支持数据准备和摄取。

存储需求:整合大容量企业固态硬盘(eSSD)的全闪存存储系统正在被部署,以增强基于HDD的现有存储库,或者部署在新的全闪存存储层中。

AI模型训练

正是在这个阶段,AI模型被迭代训练,基于训练数据做出准确的预测。具体来说,模型在高性能超级计算机上进行训练,训练效率很大程度上依赖GPU利用率的最大化。

存储需求:训练服务器附近的超高带宽闪存存储对于确保利用率最大化非常重要。高性能(PCIe®Gen. 5)和针对低延迟计算优化的eSSD旨在满足这些严格要求。

推理和提示

这个阶段为AI模型创建对用户友好的界面,包括API、仪表板以及将上下文特定的数据与最终用户提示相结合的工具。AI模型被集成到现有的互联网和客户端应用程序中,在不取代现有系统的情况下增强它们。这就意味着维护当前的系统以及新的AI计算,推动进一步的存储需求。

存储需求:当前的存储系统将升级,以便额外的数据中心eHDD和eSSD容量适应AI集成到现有流程中。同样,若要利用AI增强现有的应用系统,将需要用于PC和笔记本电脑的更大容量、更高性能的客户端SSD(cSSD)以及用于移动电话、物联网系统和汽车的更大容量嵌入式闪存设备。

AI推理引擎

第五阶段是奇迹实时发生的地方。这个阶段包括将训练好的模型部署到生产环境中,模型可以分析新数据,并提供实时预测或生成新内容。推理引擎的效率对于及时准确的AI响应至关重要。

存储需求:用于将上下文或模型数据流式传输到推理服务器的大容量eSSD;视规模或响应时间目标而定,可以部署高性能计算eSSD用于缓存;支持AI的边缘设备中的高容量cSSD和更大的嵌入式闪存模块。

新内容生成

最后一个阶段是创建新内容。AI模型获得的见解常常生成新的数据,这些数据被存储起来,因为它们被证明有价值或引人入胜。在这个阶段闭合循环的同时,也反馈回到数据周期中,通过增加训练数据的价值或供未来模型分析,推动持续改进和创新。

存储需求:生成的内容将返回到用于归档数据中心存储的大容量企业eHDD中,以及支持AI的边缘设备中的高容量cSSD和嵌入式闪存设备中。

数据生成增加的自我延续循环

这种数据生成和消费的持续循环正在加速对性能驱动、可扩展的存储技术的需求,以管理大型AI数据集,并有效地重构复杂数据,从而推动进一步的创新。

IDC研究总监Ed Burns特别指出:“随着存储的作用和数据访问影响AI模型的速度、效率和准确性,尤其是在更庞大、更高质量的数据集变得更普遍的情况下,预计存储会带来重大的影响。”

毫无疑问,AI是下一种变革性技术。随着AI技术融入到几乎所有行业领域中,预计存储部件供应商将日益根据周期中每个阶段的需求来定制产品。

原文标题:The AI Data Cycle: Understanding the Optimal Storage Mix for AI Workloads at Scale,作者:Dan Steere