中国开源年会 2024

开源大数据分论坛

🏙北京
🗺中关村国家自主创新示范区-会议中心，北京市海淀区新建宫门路2号
🚪颐和厅

Apache Doris 3.0: 面向云原生的湖仓一体解决方案
⏲️2024-11-02 06:00~2024-11-02 06:30
- 陈明雨
本次分享将介绍 Apache Doris 最新发布的 3.0 版本中的全新特性，以及如何利用 Doris 助力湖仓一体解决方案。
FlinkCDC 中的 schema evolution 和 transform 特性介绍
⏲️2024-11-02 06:30~2024-11-02 07:00
- 吕宴全
在 FlinkCDC 3.0中，基于 YAML 配置支持了强大的数据同步功能，提供了多种的表结构演进策略，提升了在不同场景下应对表结构变更事件的容错性，并且通过 transform 模块支持在同步过程中对数据进行灵活的加工处理。在本次分享中，将对这两个特性的设计与实现进行介绍。
Dinky 助力企业高效应用实时计算与数据湖仓
⏲️2024-11-02 07:00~2024-11-02 07:30
- 亓文凯
当下开源大数据领域，实时计算与数据湖日益火热，为各行业内海量数据的分析与应用带来了时效性的跨越式提升。而新技术带来了高收益，同时也带来了高成本与风险，本议题将分享 Dinky 开源实时计算平台如何为企业使用新一代大数据技术助力，降低门槛及运维成本。一、背景本章节讲解实时流计算出现的背景及企业当前的痛点。二、项目介绍本章节讲解项目出现的起因、社区发展的状况、平台的核心能力及优势、生态应用架构。三、流计算应用本章节以技术组件的角度讲解在 FlinkSQL、FlinkJar、FlinkCEP、FlinkCDC 的应用建设情况。四、湖仓应用本章节讲解在整库入湖入仓、数据湖自优化、湖仓计算的应用分享。五、交流规划本章节讲解Dinky的未来规划与社区动向。
SQL优化之美
⏲️2024-11-02 07:45~2024-11-02 08:15
- 陈鹤
大数据SQL优化案例分享
Blaze：快手自研Spark向量化引擎从生产实践到社区开源
⏲️2024-11-02 08:15~2024-11-02 08:45
- 王磊
Spark是当前业界大数据离线计算领域最主要的系统，向量化是前沿的性能优化技术，快手通过自研的Blaze引擎，将向量化技术与Spark结合，大规模落地到生产环境，取得显著线上收益，目前项目已经在社区开源。本次分享将介绍向量化技术原理和业界应用、Blaze引擎研发以及社区开源计划和未来规划
Apache Pulsar：存算分离助力降本增效
⏲️2024-11-02 08:45~2024-11-02 09:15
- 杨国栋
Apache Pulsar是一个云原生的分布式存算分离架构的消息队列和流数据平台。其存算分离架构具有高资源利用率，高自动化运维等特性。本议题聚焦Apache Pulsar在社区以及各大公司的实践案例，重点介绍其架构优势以及与其他消息队列的对比。
究竟什么是大数据时代
⏲️2024-11-02 09:15~2024-11-02 09:45
- 老时
大数据时代下的过去和现在
基于 Apache Doris 构建湖仓一体化新四大体系
⏲️2024-11-03 06:00~2024-11-03 06:30
- 苏奕嘉
使用 Apache Doris 构建简洁、高效、可靠的湖仓一体化架构的四种体系方案演进和设计。
极速、弹性、开放——字节云原生数据仓库 ByConity
⏲️2024-11-03 06:30~2024-11-03 07:00
- 信哲
云原生数据仓库是最能体现云的低成本、可扩展、免运维、便于协作等特点的应用实践，字节跳动在这个方向也做了诸多探索。ByConity 是字节开源的基于存算分离架构的云原生数据仓库，本议题主要介绍 ByConity 的设计初衷、功能特性和社区发展等。
Cloudberry Database：基于 PostgreSQL 和 Greenplum 的下一代 MPP 数据库
⏲️2024-11-03 07:00~2024-11-03 07:30
- roseduan
PostgreSQL 是当今世界最流行的关系型数据库，Greenplum （简称 GP）则是基于 PostgreSQL 打造的首个开源数仓，根据 DB-Engines 统计可以看到当前 GP 流行度名列全球 Top 50，但在 2024 年 5 月 GP 源码仓库突然归档、走向闭源，这对既有 GP 开源社区用户和原有 GP 下游生态造成极大冲击，造成面临失去安全更新、Bug 修复等后续维护困境。 Cloudberry Database 是于 2022 年发起的面向分析和 AI 场景打造的下一代数据库，在 Greenplum 项目走向闭源后成为 Greenplum 的首选开源替代项目。作为 Greenplum 的衍生版，Cloudberry Database 搭载了更新的 PostgreSQL 内核和其他 Greenplum 不具备的更多功能，在性能、云原生、湖仓、存储、流处理等方面推出了自己的解决方案。在本次演讲中，将分享 Cloudberry Database 项目的演进历史、关键功能和应用场景，以及如何基于 Cloudberry Database 构建企业数据平台底座，并介绍后续 Cloudberry Database 社区发展路线图。
KWDB 多模数据库——构建 AIoT 2.0 时代的新型数据底座
⏲️2024-11-03 07:45~2024-11-03 08:15
- 窦志彤
近年来，我国物联网（IoT）市场规模持续增长，技术融合、行业应用探索进一步向纵深化推进。万物互联时代，IoT 的驱动力正在将业务流程从物理端点产品转变为数据驱动的服务。从单纯考虑端点设备，到考虑如何管理设备生成的数据，再到针对该数据采取何种操作以激发价值，成为物联网数据企业共同的挑战。 KWDB 是一款面向 AIoT 场景的开源分布式多模数据库，支持在同一实例同时建立时序库和关系库并融合处理多模数据，具备千万级设备接入、百万级数据秒级写入、亿级数据秒级读取等时序数据高效处理能力，具有稳定安全、易运维等特点。典型应用场景包括但不限于工业物联网、数字能源、新型储能、交通车联网、数字政务等。本次分享将重点围绕数据库架构演进、AIoT 2.0 时代的数据管理挑战，解构 KWDB 新“融合”系统面向场景的架构创新及产业实践；探讨如何利用“多模一库”的能力，构建更高效、更易用、更可靠的新一代物联数据底座，真正助力用户解决实际场景问题，沉淀数据资产、激活数据价值，从容应对万物互联的时代新纪元。
TiDB 在大数据场景的产品演进及最佳实践
⏲️2024-11-03 08:15~2024-11-03 08:45
- 李仲舒
探索开源 HTAP 数据库 TiDB 的十年演进，如何通过持续的工程化创新，在实时数仓和大数据领域提供强大的分析和处理能力，并分享其在实际应用中的行业成功案例和最佳实践。
Apache TsFile：物联网时序数据文件新基建
⏲️2024-11-03 08:45~2024-11-03 09:15
- 乔嘉林
时序数据即时间序列数据，其来源多元、数据量庞大，广泛应用于物联网、智能制造、金融分析等领域。在数据驱动的当下，时序数据的重要性不言而喻。尽管时序数据如此普遍且重要，但长期以来，时序数据的管理都缺乏标准化的文件格式。 Apache TsFile 是一种专门用于时序数据管理的文件格式，完美的填补了时序数据领域的这项市场空白。
从TP到AP，OceanBase OLAP核心技术详解
⏲️2024-11-03 09:15~2024-11-03 09:45
- 张鑫
OceanBase 始创于 2010 年，是完全自主研发的企业级原生分布式关系型数据库，连续多年稳定支撑双 11，凭借高性能和高可用真正实现应用无限扩展和服务永远在线，致力于为企业核心系统提供稳定可靠的数据底座。 OceanBase 从 4.0 版本开始，强化 AP 分析能力，加入列存副本和向量化查询执行引擎，在大数据分析场景有着非常不错的性能，本次分享也会带来 OceanBase AP 能力的介绍。