在大模型、大数据的今天,大规模的分布式训练成为加速模型训练的必需条件。然而,随着企业GPU的使用量越来越大、对文件容量的需求增长迅猛等诸多因素,使得使得提升底层存储的性能与效率成为挑战。
文件系统诞生于上个世纪 80 年代,伴随着数据需求的爆发式增长,经历了从单机到分布式的演进;同时,云计算也推动着存储的发展,越来越多的企业开始使用云进行备份和存档。 一些传统在本地机房进行的高性能计算场景以及很多AI场景,也开始向云端迁移。因此,文件系统也在向云原生的架构进行演进。
JuiceFS 是一款开源分布式文件系统产品,专为云环境设计,与对象存储结合。 目前,JuiceFS 已经应用在多个行业的 AI 应用实践,包括生命科学、无人驾驶、量化投资等等。
本次分享将介绍 JuiceFS 在 AI 存储领域的设计与实践,同时以自动驾驶领域百亿小文件管理,和量化金融高吞吐模型训练场景的案例分享。