中国开源年会 2024

开源评价与数据洞察分论坛

  • 🏙北京
  • 🗺中关村国家自主创新示范区-会议中心,北京市海淀区新建宫门路2号
  • 🚪香山会议室
  1. 要做数据洞察,先做工程实践 - 基于敏捷开发的数据实践探索

    ⏲️~
    • 边思康

    开源社区的数据蕴含着丰富的信息和潜在的洞察机遇,想要做好社区向的开源技术增长,我们必须要用好这些社区的高价值数据。 但,在实际的生产应用中,我们发现想要基于社区数据建立因果性和可复制性,由于现有的社区数据因为各个项目的实践不同,会导致我们缺少高质量的数据支持,如此一来,社区增长和洞察的说服力会大打折扣。 要解决这个问题,需要的是接地气的社区标准化实践。在最近针对于 CNCF 社区等部分高质量项目的观察后,我们发现,敏捷开发的方法论,依然是社区治理体系的核心,而这些工程实践目前在很多公司中并不是共识。我们想通过本次分享,来重新梳理并思考,敏捷开发的习惯到底能给社区带来什么: 1. 引言:敏捷开发依然是开源社区目前开发模式的主流 2. 敏捷开发的 design patterns 3. 敏捷开发的 anti-patterns 4. 回到「增长黑客」,为什么我们应该把技术社区当作「技术产品」来对待

  2. OSGraph:通过大规模知识图谱加速开源数据洞察

    ⏲️~
    • 范志东

    通过TuGraph图计算技术构建开源数据知识图谱,借助BI、图可视化等技术在大规模知识图谱数据上实现高效分析与洞察,并探索AI时代下与大模型技术的结合思路。

  3. 基于人工智能的在线开发者社区恶意账号检测

    ⏲️~
    • 陈阳

    在线开发者社区主要为开发者提供代码托管、合作项目开发服务,有代表性的在线开发者社区如GitHub,吸引了上亿的开发者用户,已经成为开发者进行协作开发、代码开源、提升账号声誉的在线平台。这其中广泛存在的恶意用户,对代码仓库进行虚假点赞、身份伪冒、定向垃圾广告发布等问题,成为影响平台公平性的重要安全问题。我们对比了真实数据集中GitHub恶意用户与正常用户在时间线上的细粒度历史行为,并由GitHub用户代码操作产生的交互关系构建了用户交互图谱,分析得到了恶意用户的行为特点,并考虑GitHub提供的服务特点,设计实现了GitSec恶意用户发现系统。针对用户的历史行为,构建了时间间隔序列、行为类型序列,并引入深度神经网络和注意力机制设计了并行行为序列分析模型;针对用户之间的社交关系,利用代码仓库的交互行为,分别构建了用户-用户图和用户-仓库图,利用结构洞理论衡量用户在代码仓库交互中的重要性,利用图神经网络获取用户-仓库之间的关联表示。综合用户的描述性特征、时间序列分析以及社交关系分析特征,我们引入监督式机器学习分类器作为决策模块,对用户是否是恶意用户进行判断。利用GitHub真实用户数据集进行的对比实验表明,GitSec相比传统的统计特征提取方法、图关系分析方法等,都取得了更好的性能表现。对于常见的“标签翻转”攻击等,也表现出了较好的鲁棒性。

  4. 数据驱动的开源社区建设

    ⏲️~
    • 姜宁

    在OSPO的实践过程中,需要及时了解开源项目的进展情况。通过结合业务的诉求,识别项目的关键指标,可以让我们在第一时间内获取项目的最新进展,以及项目社区发展的一手信息。 本次讲座将通过社区建设关键指标的数据故事案例分析,让我们更好地展示开源项目的价值,激发团队的行动力,并为 OSPO 的决策提供有力支持。

  5. 从开源社区的数字洞察看全球大模型的发展趋势

    ⏲️~
    • 韩凡宇

    随着人工智能和机器学习的迅速发展,大模型(如 GPT、Llama 等)的应用场景不断扩展,开源社区在这一进程中扮演着至关重要的角色。本报告将深入分析开源社区中的数字洞察,以探讨全球大模型的发展趋势。我们将采用数据科学分析的方法,从生成式 AI 和大语言模型两个角度出发,利用项目活跃度、影响力等多个维度揭示开源大模型的发展历程,并分析当前主流大模型的现状。

  6. CHAOSS unconference session - 开源度量指标,数据,标准与政策

    ⏲️~
    • 夏小雅

    这是一场 unconference 线下研讨会,不是单向的分享,而是以对话为主的互动式讨论。讨论围绕着 CHAOSS 社区长期以来在开源软件社区健康度度量上所做的围绕着数据科学,公共政策,标准化相关的工作展开小组式的交流讨论,讨论的产出将会沉淀到 CHAOSS 社区的公开仓库中

长按图片分享