文件存储在AI时代的实践与演进

  • 高昌健
    • 高昌健
    • Juicedata
    • 技术专家
    • Juicedata 技术专家,参与建设 JuiceFS 开源社区的主力队员。十年互联网行业从业经历,曾在知乎、即刻、小红书多个团队担任架构师职位,专注于分布式系统、大数据、AI 领域的技术研究。

观众评分

在大模型、大数据的今天,大规模的分布式训练成为加速模型训练的必需条件。然而,随着企业GPU的使用量越来越大、对文件容量的需求增长迅猛等诸多因素,使得使得提升底层存储的性能与效率成为挑战。

文件系统诞生于上个世纪 80 年代,伴随着数据需求的爆发式增长,经历了从单机到分布式的演进;同时,云计算也推动着存储的发展,越来越多的企业开始使用云进行备份和存档。 一些传统在本地机房进行的高性能计算场景以及很多AI场景,也开始向云端迁移。因此,文件系统也在向云原生的架构进行演进。

JuiceFS 是一款开源分布式文件系统产品,专为云环境设计,与对象存储结合。 目前,JuiceFS 已经应用在多个行业的 AI 应用实践,包括生命科学、无人驾驶、量化投资等等。

本次分享将介绍 JuiceFS 在 AI 存储领域的设计与实践,同时以自动驾驶领域百亿小文件管理,和量化金融高吞吐模型训练场景的案例分享。