中国开源年会 2024

开源评价与数据洞察分论坛

🏙北京
🗺中关村国家自主创新示范区-会议中心，北京市海淀区新建宫门路2号
🚪香山会议室

要做数据洞察，先做工程实践 - 基于敏捷开发的数据实践探索
⏲️2024-11-02 06:00~2024-11-02 06:30
- 边思康
开源社区的数据蕴含着丰富的信息和潜在的洞察机遇，想要做好社区向的开源技术增长，我们必须要用好这些社区的高价值数据。但，在实际的生产应用中，我们发现想要基于社区数据建立因果性和可复制性，由于现有的社区数据因为各个项目的实践不同，会导致我们缺少高质量的数据支持，如此一来，社区增长和洞察的说服力会大打折扣。要解决这个问题，需要的是接地气的社区标准化实践。在最近针对于 CNCF 社区等部分高质量项目的观察后，我们发现，敏捷开发的方法论，依然是社区治理体系的核心，而这些工程实践目前在很多公司中并不是共识。我们想通过本次分享，来重新梳理并思考，敏捷开发的习惯到底能给社区带来什么： 1. 引言：敏捷开发依然是开源社区目前开发模式的主流 2. 敏捷开发的 design patterns 3. 敏捷开发的 anti-patterns 4. 回到「增长黑客」，为什么我们应该把技术社区当作「技术产品」来对待
OSGraph：通过大规模知识图谱加速开源数据洞察
⏲️2024-11-02 06:30~2024-11-02 07:00
- 范志东
通过TuGraph图计算技术构建开源数据知识图谱，借助BI、图可视化等技术在大规模知识图谱数据上实现高效分析与洞察，并探索AI时代下与大模型技术的结合思路。
基于人工智能的在线开发者社区恶意账号检测
⏲️2024-11-02 07:00~2024-11-02 07:30
- 陈阳
在线开发者社区主要为开发者提供代码托管、合作项目开发服务，有代表性的在线开发者社区如GitHub，吸引了上亿的开发者用户，已经成为开发者进行协作开发、代码开源、提升账号声誉的在线平台。这其中广泛存在的恶意用户，对代码仓库进行虚假点赞、身份伪冒、定向垃圾广告发布等问题，成为影响平台公平性的重要安全问题。我们对比了真实数据集中GitHub恶意用户与正常用户在时间线上的细粒度历史行为，并由GitHub用户代码操作产生的交互关系构建了用户交互图谱，分析得到了恶意用户的行为特点，并考虑GitHub提供的服务特点，设计实现了GitSec恶意用户发现系统。针对用户的历史行为，构建了时间间隔序列、行为类型序列，并引入深度神经网络和注意力机制设计了并行行为序列分析模型；针对用户之间的社交关系，利用代码仓库的交互行为，分别构建了用户-用户图和用户-仓库图，利用结构洞理论衡量用户在代码仓库交互中的重要性，利用图神经网络获取用户-仓库之间的关联表示。综合用户的描述性特征、时间序列分析以及社交关系分析特征，我们引入监督式机器学习分类器作为决策模块，对用户是否是恶意用户进行判断。利用GitHub真实用户数据集进行的对比实验表明，GitSec相比传统的统计特征提取方法、图关系分析方法等，都取得了更好的性能表现。对于常见的“标签翻转”攻击等，也表现出了较好的鲁棒性。
数据驱动的开源社区建设
⏲️2024-11-02 07:45~2024-11-02 08:15
- 姜宁
在OSPO的实践过程中，需要及时了解开源项目的进展情况。通过结合业务的诉求，识别项目的关键指标，可以让我们在第一时间内获取项目的最新进展，以及项目社区发展的一手信息。本次讲座将通过社区建设关键指标的数据故事案例分析，让我们更好地展示开源项目的价值，激发团队的行动力，并为 OSPO 的决策提供有力支持。
从开源社区的数字洞察看全球大模型的发展趋势
⏲️2024-11-02 08:15~2024-11-02 08:45
- 韩凡宇
随着人工智能和机器学习的迅速发展，大模型（如 GPT、Llama 等）的应用场景不断扩展，开源社区在这一进程中扮演着至关重要的角色。本报告将深入分析开源社区中的数字洞察，以探讨全球大模型的发展趋势。我们将采用数据科学分析的方法，从生成式 AI 和大语言模型两个角度出发，利用项目活跃度、影响力等多个维度揭示开源大模型的发展历程，并分析当前主流大模型的现状。
CHAOSS unconference session - 开源度量指标，数据，标准与政策
⏲️2024-11-02 08:45~2024-11-02 09:15
- 夏小雅
这是一场 unconference 线下研讨会，不是单向的分享，而是以对话为主的互动式讨论。讨论围绕着 CHAOSS 社区长期以来在开源软件社区健康度度量上所做的围绕着数据科学，公共政策，标准化相关的工作展开小组式的交流讨论，讨论的产出将会沉淀到 CHAOSS 社区的公开仓库中

要做数据洞察，先做工程实践 - 基于敏捷开发的数据实践探索

OSGraph：通过大规模知识图谱加速开源数据洞察

基于人工智能的在线开发者社区恶意账号检测

数据驱动的开源社区建设

从开源社区的数字洞察看全球大模型的发展趋势

CHAOSS unconference session - 开源度量指标，数据，标准与政策