现代数据分析和人工智能应用变得越来越复杂,涉及在专用系统上执行多个任务。当部署到Kubernetes时,不同计算引擎之间使用外部存储(例如S3)共享中间数据往往成为一个重要的瓶颈。 我们开发了一个名为Vineyard(CNCF沙箱项目)的开源内存不可变数据管理器,以便使用内存映射高效地共享复杂的分布式对象。通过与Kubernetes的调度器框架集成,Vineyard实现了对使用Vineyard Daemonset在Kubernetes上部署的任务进行数据本地性感知调度。在真实工作负载中,Vineyard最多可以带来数倍的端到端性能提升。 Vineyard的愿景与CNCF的领域保持一致,并与Cloud Native Batch System Initiative(BSI)工作组共享许多动机和目标。在本次讲座中,我们将介绍Vineyard的驱动场景和架构,然后分享一些使用案例以及Vineyard的发展方向。 这次分享的内容将会包括:
- 讨论 Vineyard 的想要解决的实际生产中碰到的痛点问题
- 介绍 Vineyard 的特性以及如何实现设计目标
- 剖析内外部用户使用 Vineyard 的应用实践和场景分析,包括踩坑经验以及使用建议
- 分享 Vineyard 与类似解决方案的对比,以及未来在持续优化大数据分析工作流的研究方向