2023 第八届中国开源年会

大数据 (Big Data)

  • 🏙成都
  • 🗺菁蓉汇,四川省成都市武侯区天府五街200号
  • 🚪7栋3楼会议室
  1. openGauss开源数据库及生态实践分享

    ⏲️~
    • 梅相如

    openGauss是一个开源的企业级关系型数据库,开源以来内核和架构持续创新,被广泛使用在企业核心场景。本议题将介绍openGauss的重要特性,以及生态实践等内容。

  2. StarRocks 湖仓一体新范式的技术演进

    ⏲️~
    • 王欢明

    StarRocks 是面向湖仓一体的极速数据分析引擎,通过弹性存算分离架构、极速计算引擎、透明加速物化视图等创新技术,为数据湖分析提供了极速统一灵活的使用体验。本次分享主要介绍 StarRocks 在湖仓一体方面的技术演进,包括通过物化视图进行分析加速,通过弹性架构调度多种负载,以及在数据湖存储方面的优化。

  3. 基于 Apache SeaTunnel 构建 CDC 数据同步管道

    ⏲️~
    • 王海林

    Apache SeaTunnel 是一个开源数据集成平台,在插件式架构下可以轻松的在各类数据存储间进行数据集成同步,并且支持批/流/CDC 等多种数据集成同步场景,提升企业应用数据集成的效率和降低使用维护成本。本次分享将介绍 Apache SeaTunnel CDC 设计实践原理以及如何基于 Apache SeaTunnel CDC 构建数据同步管道,通过 Apache SeaTunnel CDC 可以一套方案实现多源异构数据库同步,离线同步,数据开发等

  4. 看见未来——AI 技术在 IoT 数据上的应用

    ⏲️~
    • 赵衎衎

    人工智能技术与数据库技术相结合使得数据库系统更加智能化,从而不断提升企业数据处理及数据库运维管理效率。 AIGC 的爆火也为数据库的发展提供了新的机遇与挑战。本次分享将围绕分布式、多模、原生 AI 等数据库关键技术潮流及物联网时代的创新数据场景,分享KaiwuDB自研分布式多模数据库架构思路、关键技术详解,以及 AI4DB 赋能数据库自治及数据价值挖掘在 IoT 重点场景下的技术实践。

  5. 开源湖仓管理系统-Amoro

    ⏲️~
    • 陈政羽

    Amoro 是一个开放式架构下的湖仓管理系统,在开放的数据湖格式之上,提供更多面向流和更新场景的优化,以及一套可插拔的数据自优化机制和管理服务。本次演讲将系统的介绍 Amoro 产品功能以及重要特性,以及在最近发布的0.5.0一些重磅功能,最后介绍社区未来推进的一些工作方向

  6. ByConity在面向海量数据的用户分析系统上的实践

    ⏲️~
    • 王蕴博

    ByConity是一个字节开源的数仓引擎,主要介绍下ByConity的技术架构和重要特性,并举例在用户多维度行为分析平台从ClickHouse集群遇到的问题和挑战,和通过迁移ByConity后如何解决这些问题并给业务带来的收益。

  7. Vineyard:加速大数据分析工作流中的跨引擎数据共享

    ⏲️~
    • 何涛

    现代数据分析和人工智能应用变得越来越复杂,涉及在专用系统上执行多个任务。当部署到Kubernetes时,不同计算引擎之间使用外部存储(例如S3)共享中间数据往往成为一个重要的瓶颈。 我们开发了一个名为Vineyard(CNCF沙箱项目)的开源内存不可变数据管理器,以便使用内存映射高效地共享复杂的分布式对象。通过与Kubernetes的调度器框架集成,Vineyard实现了对使用Vineyard Daemonset在Kubernetes上部署的任务进行数据本地性感知调度。在真实工作负载中,Vineyard最多可以带来数倍的端到端性能提升。 Vineyard的愿景与CNCF的领域保持一致,并与Cloud Native Batch System Initiative(BSI)工作组共享许多动机和目标。在本次讲座中,我们将介绍Vineyard的驱动场景和架构,然后分享一些使用案例以及Vineyard的发展方向。 这次分享的内容将会包括: - 讨论 Vineyard 的想要解决的实际生产中碰到的痛点问题 - 介绍 Vineyard 的特性以及如何实现设计目标 - 剖析内外部用户使用 Vineyard 的应用实践和场景分析,包括踩坑经验以及使用建议 - 分享 Vineyard 与类似解决方案的对比,以及未来在持续优化大数据分析工作流的研究方向

  8. 数据集成引擎BitSail自动化测试框架解析

    ⏲️~
    • 刘澎

    Introduction & Background - Bitsai简介:介绍下Bitsail是什么、发展状况、应用状况(2p) - Bitsail应用现状:数据源 & 使用环境种类多(1p) - 现状下存在的问题:难以确定各种数据源的通道组合是否可用(1p) - 开源现状:其他产品目前是怎么做的一个测试框架&测试情况(1p) - 如何解决这个问题:概述自动测试方案(1p) Architecture - 整体架构介绍:(从基本目标出发,介绍测试框架的三个部分)(1p) - Test Executor:用于模拟各种执行环境(引擎、底座)(与下面共1p) - DataSource:用于测试的数据源 - Scheduler:自动生成M*N的通道组合测试作业(1p) - 基于此框架,在scheduler层面优化了测试效率 - 支持多种作业生成策略(M*N、M+N、黑白名单)(1p) - 维护Test Executor和DataSource资源池,并据此调度测试作业(1p) - 存储作业执行状态,用于增量重试、与外部流程打通(1p) Implementation - 测试框架在字节内部的应用状态(1p) - 集成到了发版流水线中 - 取得的收益(1p) - 帮助developer感知代码变更对全局通道造成的影响 - 帮助developer决策哪些数据源组合的通道产品能够对外开放 Future(1p) - 更多的功能 - 支持增量测试(通过感知代码变化决定进行哪些测试) - 支持对数据准确性的验证测试 - 更多的场景 - 扩展TestExecutor的执行模式,使其能支持其它运行模式(例如直接提交到远程yarn)

  9. Apache Pegasus 在神策数据的应用

    ⏲️~
    • 李国豪

    此分享主要介绍 Apache 孵化器项目分布式 kv 存储系统 Apache Pegasus 的架构原理,历史迭代以及它在"神策数据"是如何开发维护,为上千家客户提供稳定的数据服务。

  10. GraphScope Flex: 像乐高一样搭建场景化的图计算

    ⏲️~
    • 徐静波

    此分享将介绍阿里巴巴开源的大规模图计算系统 GraphScope 的下一代技术架构 Flex。GraphScope 项目在之前一站式处理图遍历、图分析、图学习的基础上,向下一代 Flex 架构演进。通过灵活的组件化设计,用户可以在 GraphScope Flex 像搭建乐高积木一样组装适合自己场景的图计算系统,灵活、高效、易用的处理图计算需求。

长按图片分享