【KCC@南京】KCC南京“数字经济-开源行”活动回顾录

KCC@南京 开源社KAIYUANSHE



11月26日,由KCC@南京、中科南京软件研究所、傲空间、PowerData联合主办的 KCC南京“数字经济-开源行” 的活动已圆满结束。此次活动,3 场主题研讨,11 场分享,现场参会人数 60+,线上直播观看 3000+,各地小伙伴从北京、上海、武汉、青岛、杭州、合肥、苏州等地奔赴南京会场,会议话题以数字经济建设展开了一场精彩纷呈的开源活动分享。


活动名称:KCC南京"数字经济-开源行"
签到时间:11月26日 09:00-09:30
活动时间:11月26日 9:30-17:30(中午12:00-13:30休息)
活动地址:南京市江宁区研创路266号麒麟人工智能产业园A4楼
活动人数:60+
主办方:KCC@南京、中科南京软件技术研究院、AO.space 傲空间、PowerData
发起人:董吉甫、袁大庆、马证、李奇峰


活动开场 ,KCC@南京负责人董吉甫(此次活动策划项目经理),为大家介绍此次活动由来,欢迎大家入席。


主持人李奇峰为大家解说今天活动内容安排


庄表伟 "一种可能的开源经济学模型"



庄表伟(开源社理事执行长):


依据《信息技术 开源 术语与综述》描述的开源的定义:开源,即在软硬件开发、 数据与信息共享中广泛采用的开放式协作模式,协作的产出物符合开源许可证条款的要求。开源是参与主体在基础设施之上针对对象在遵循一定规则下的一种开放式协作模式, 其目的是为了能产生公开复用的产出物。使用者通过许可证的方式, 在遵守许可限制的条件下, 可自由获取源代码等,并可使用、 复制、 修改和再发布。


我们如何来理解这段话呢?首先我们得理解开源的本质是什么,在了解之前,我们得清楚开源定义中的关键词有“开放协作”与“公共复用的产出物”这两个。而对于公共复用的产出物,更加准确的定义是:Digital Public Goods(数字公共产品)(参见https://digitalpublicgoods.net/standard/了解)。由此可知,开源的本质是以开放式协作的方式,创造数字公共产品。


在DPG的定义里,列举了:digital public goods to be: open-source software, open standards, open data, open AI systems, and open content collections。在庄老师看来,数字公共产品,就是以数字形式凝聚的人类知识。大致可分为两大类,即能够被机器直接运用的知识,以及需要通过人类阅读才能应用的知识。前者包括代码、数据、AI 系统,后者包括文档与标准。由此可知,开源生态圈等于数字知识公地。



一个开源项目创造出来的产品是能为全世界节约时间的,这便是一个开源项目的价值。总的节约时间等于用户数量 乘以节约的单位时间。即使一个项目,不再有社区继续维护,只要还有用户继续使用,就会持续的为社会创造价值。节约时间有多种形式,源代码直接就能运行这是节约时间,好的文档也能节约时间,好的社区还能节约时间。


例如:A 企业与 B 企业,生产同类产品,假设开发一个产品的复杂度,都是 100 人/年。A 企业的产品中,包含 80% 的开源成分,B 企业的产品中,包含 90% 的开源成分。我们本着保守合理推论(取一般情况,技术均衡、工资结果相等的情况),大致能够了解,A 企业的开发人员,大约 20 人,B 企业的开发人员,大约 10 人。我们不难看出 B 企业的经营成本,大约只有 A 企业的50%。由此可知,越是善于使用开源的企业,竞争力越强。


开源能为企业节约经营成本,但也存在很多企业不善于使用开源的情况存在。所谓不善于使用开源是什么原因,在广义上讲数字知识可分为两大类,能够被机器直接运用的知识,以及需要通过人类阅读才能应用的知识。除了这些,其实还有一类知识,尚未被数字化,并放入公地的知识。一些人,比另一些人,更加擅长处理复杂的问题这是高手;一些公司,比另一些公司,更加擅长于某一领域解决问题这是高竞争力企业。企业在策略选择上,全部自己开发;使用开源,并招聘足够多的高手;使用开源,并花钱购买外部服务等这些情况都将导致企业不善于使用开源。


企业善于使用开源,企业就得明白企业对开源的逻辑,即理解开源与金钱的流动关系,如下图所示:



公地的价值上涨,用户市场上升;知识落差上升,产品的销售价格也会上升。当一个企业对外开源,会带来两个结果,即公地的价值上升与知识落差下降。当一个企业,积极贡献开源时,可能会带来另外两个结果,即提升自己在市场份额中的占比与培养自己潜在的竞争对手。这里,建议企业对外开源的策略:


  1. 在市场成长的早期阶段,尽可能多的对外开源,培育市场对“我”的品牌认知与忠诚度;

  2. 在市场成长的中期阶段,有选择性的对外开源,保持节奏,选择填平哪一段知识落差(竞争对手具有优势的那一段);

  3. 在市场进入衰退期以后,减少投入,吃尽红利再走。


另外,我们如何判断开源组织的价值,主要依据以下这些来判断:


  1. 帮助多少人,成为开源人?成为更好的开源人?(激励多少人,留在开源社区,持久贡献?);

  2. 帮助多少开源项目,变得更有价值?(更好用,更多人用?);

  3. 维护整个知识公地,保值增值(供应链安全、生态健康、凝聚共识);

  4. 间接贡献很难计算,却不可或缺。


再有,从时间、价值的角度,更多的思考:


  1. 点 star 的价值有多大?
    帮助传播,提升使用可能性;总数几千、几万,带来的某种“认证”效果;某个 KOL 点击 star,带来的传播效果。

  2. 提 issue 的价值有多大?
    改进开源项目,提升产品质量(增加功能);节约遇到同类问题的用户的时间;增加同类用户使用的可能性。

  3. 减少分裂的价值有多大?
    技术架构趋向一致,能够极大的节约开发者的时间。


结语:“一种可能的开源经济学模型”由此即将诞生,这也将在知识与时间之间,建立相关联系,知识越多,越能够节约时间;我们将开源视作一种全世界共建数字知识公地的协作努力;同时也将以时间为衡量单位,评估开源的价值。在这种模型之下,我们也将迎来重新思考我们的公共政策等方式。


王云鹏老师 "LLM大模型和企业级专属知识库构建"



王云鹏(蚂蚁集团):


LLM 会从海量文本中学到语言知识和世界知识:

语言知识是指词法、词性、句法、语义等知识。LLM 可以学到各种类型的语言知识。


世界知识包括事实知识和常识知识。例如,“拜登是现任美国总统” 属于和拜登相关的事实知识;而 “太阳从东方升起”属于常识知识。


LLM 无法获取最新信息以及事实性错误。


缺乏最新信息:训练语料更新不及时以及大模型的训练周期相对较长,都会导致大语言模型在事实准确性和信息可靠性方面存在问题。


存在事实性错误 (幻觉 Hallucination):模型生成的文本自然流畅且语法正确,但实际上毫无意义且包含虚假信息。


存在事实性错误 (幻觉 Hallucination):模型生成的文本自然流畅且语法正确,但实际上毫无意义且包含虚假信息。


更多内容参见王云鹏老师《LLM大模型和企业级专属知识库构建》2-王云鹏-LLM大模型和企业级专属知识库构建.pptx


张成老师 "ShardingSphere:构建数字经济时代的数据生态系统"



张成(SphereEx 研发工程师 Apache ShardingSphere Committer):


ShardingSphere 是一款开源的分布式数据库生态系统。


可以将任意数据库转换为分布式数据库,并通过数据分片、分布式事务、加密、弹性伸缩 等能力对原有数据库进行增强。ShardingSphere 遵循 Database Plus 理念,旨在构建异构数据库上层的标准和生态。ShardingSphere 关注如何充分合理地利用数据库的计算和存储能力,而并非实现一个全新的数据库。它站在数据库的上层视角,关注它们之间的协作多于数据库自身。



更多精彩内容,参见张成老师原PPT《ShardingSphere:构建数字经济时代的数据生态系统》4-张成-ShardingSphere:构建数字经济时代的数据生态系统.pptx


李奇峰 "参与开源的收获-我与 PowerData 社区的故事"

(此次活动主持人)



李奇峰(PowerData 社区主理人):


热爱开源,奉献开源,自 2021 年接触开源开始,积极参与开源分享与开源精神传播,参与开源社区并组织开源分享活动,以线上直播为主,邀请各类开源参与者与技术爱好者进行分享交流。


更多内容,参见李奇峰《参与开源的收获-我与 PowerData 社区的故事》3-李奇峰-参与开源的收获-我与PowerData的故事.pptx



庄表伟、林旅强老师主持的研讨会 "开源如何助力数字经济发展,打好数据底层的建设,共话开源"


参会嘉宾的每一个问题,在庄老师、林老师耐心的讲解下,都一一得到了充分的认识。

林旅强老师 "《开源人宣言》解读"



林旅强(开源社联合创始人,前华为云 AI 开发者生态总监,云计算开源产业联盟专家):


《开源人宣言》解读,认为,开源共同体所承载的开源人对美好未来的共同向往。开源人大致分为三类,一是 Coder:写开源的人;二是 User:用开源的人;三是 Promoter:推荐传播开源的人。


当然,首先开源人是具备开源精神的。何为开源精神,经过常年的观察研究表白,开源精神主要有分享(Sharing)、开放(Openness)、平等(Equality)、协作(Collaboration)、创造美好世界(Build a Better World)这些内容构成。分享,即当一个软件工程师写出一个不错的软件,他不会敝帚自珍,不会故步自封。他乐于分享,是因为他相信:这个软件可能会对别人也有帮助,更会有人帮助他,一起做出更好的软件。西谚有云:赠人玫瑰,手留余香。我们都相信,乐于分享是一切善举的开端。开放,即在很多方面,开放都非常重要。不仅仅是开放源代码,更包括公开透明的社区。这样的社区能够吸引更多的朋友加入。也能够帮助新来者,理解并认同社区规则。还能够促进监督以提升社区运行的程序正义。开放还包括欢迎一切的可能性,开源是世界的,也欢迎来自世界任何一个角落的使用者、参与者和贡献者。中国谚语有云:海纳百川,有容乃大。我们都相信:公开透明是一切良好协作的基石。


更多内容,参见林旅强 PPT “《开源人宣言》解读” 的内容5-林旅强-KCC南京-“开源人宣言”解读:开源共同体所承载的开源人对美好未来的共同向往.pptx


陶冶老师 "商业数据不正当竞争纠纷的类型化研究" 分享



陶冶(国浩律师(南京)事务所 律师):


在《反不正当竞争法》第二条第二款:“本法所称的不正当竞争行为,是指经营者在生产经营活动中,违反本法规定,扰乱市场竞争秩序,损害其他经营者或者消费者的合法权益的行为”。由此可知,本法案强调的是保护竞争,而不是保护竞争者。


在此之前,我们判定的基本立场是数据和信息的二分。信息是指“用于消除不确定性的东西”(香农《通信的数学理论》);数据是指“信息的可再解释的形式化表示,以适用于通信、解释和处理”(ISO/IEC 2382:2015)。


与此同时,我们还需要了解哪些是损害市场竞争秩序的情况,直接搬运数据:(一)不表明出处,如车质网诉奥蒂思公司案;(二)表明出处,如大众点评诉百度案。另外还有,带有偏见的数据产品案例,如字节跳动诉百度案、蚂蚁金服诉企查查案;违反抓取协议案例,如新浪微博诉脉脉案;获取公开数据开发数据产品案例,如淘宝诉聪明狗案,淘宝诉载和公司案,爱奇艺诉搜狗案;限制数据抓取行为案例,有字节跳动新浪微博案,奇虎公司诉百度案(这是一个反例);单纯获取非公开数据按,如新浪微博诉蚁坊公司案。


张小丰老师 "数据合规的基本框架" 分享



张小丰(国浩律师(南京)事务所 合伙人):


张律,普及数据法务知识上,给大家讲解了数据保护观点,通过哪些内容依据产生,同时也讲到了数据的重要性,包含了个人信息、非个人信息(国家核心数据、重要数据、一般数据)及网路安全与数据合规,重要依据网信办-2011 的发文,网信办的规范性文件,这个是我们应该高度关注的。再有数据局最近成立,了解数据需要关注数据局的要素行动,还有国安、 密保局等,网络安全法-安全库 (网络安全体共同命运)也是参考内容依据。另外还给大家讲解了数据安全法-数据安全保护义务内容。其中提到敏感个人信息,14 岁以下是构成个人敏感信息的。法律上的匿名化指针对个人信息无法还原的信息设定称为匿名化。另外,匿名化内容如能还原,则造成违规。在这个过程大家各自发表了多条内容疑问,如前台资源、后台知名(分析识别 处理者接收方),目前仅可查到是数据集的版权有些保护,当然我国法律在这块也会随着当下数字经济特定环境下发展逐步完善。关于个人隐私信息、法律如何判断、主要根据行为来判定。比如因为个人隐私数据泄露导致你维权请的律师费用,不良影响等等。


更多内容请参见张小丰老师ppt《数据合规的基本框架》7-张小丰-数据合规的基本框架.pptx



研讨会 "开源与知识产权与开源权益" 陶冶律师主持,参会嘉宾积极向两位律师请教关于数据内容的法务知识,两位律师逐一为大家解惑。


仇文超老师 "让个人拥有自己的数字身份:AO.space DID 设计与实践"



仇文超(中科院软件研究所研发工程师):


去中心化标识符 (DID) 是一种新型可验证的去中心化数字身份,具有全局唯一、可加密验证、去中心化、高可用、持久化特点。DID 标识符只是表示一个身份的标识符,不包含身份的信息。而 DID 文档就是用于描述身份详细信息的文档,一个 DID 标识符关联到一个 DID 文档。DID 文档中没有任何和你个人真实信息相关的内容,比如你的真实姓名、地址、手机号等。其中包含了每一个凭证对应的公钥。



AO.space DID,是国内自主研发的数字身份开源项目,在数字经济建设中,打造数字身份,具有参考学习性强、可实践性强、共治、贡献等特点。


更多内容参见仇文超老师 ppt《让个人拥有自己的数字身份:AO.space DID 设计与实践》9-仇文超-让个人拥有自己的数字身份 AO.space DID 的设计与实践.pptx


杜金房老师 "做开源顺便挣点钱"



杜金房(小樱桃科技 CTO,FreeSWITCH 中文社区创始人,RTS 创始人等):


杜老师为大家介绍了自己的跨入 IT 行业是从 1999 年,先是交换机,再到程控交换机,再到软交换,及如何创办 FreeSWITCH 中文社区.... 与此同时,也分享了在这过程中,开始写博客、写书,印象深刻的一句话是“一本不够,就写两本,两本不够就写 10 本,10 本不够就写 100 本....”,其中也谈到了如何受开源影响,自己的第一桶金故事等等。



更多精彩内容,参见杜金房老师 PPT《做开源顺便挣点钱》8-杜金房-做开源顺便挣点钱.pptx


丁尔男老师 "刨根问底,夯实数字经济的技术基座——开源根软件漫谈"



丁尔男(凹语言联合发起人):


开源根软件,是指软件更底层的基础建设,也就是我们如何研发软件、如何使用软件的底层基石。而如今我们,绝大多数开发者开发软件都是使用的已有的国外编译器、编译语言开发软件,如常见的编译语言 C,C++,Java,Pyton,Go 语言等,这些都均是其他国家人开源,并在广泛使用,而在使用这些基础编译过程中,任何一个基础语言软件出现后门,那将是哀声一片。如我们熟知的事件有贝尔实验室Unix后门事件、XCode 2015 后门事件等。基于这些思考,在数字经济发展阶段,数字化时代,我们也得需要自己的编译语言。故此,一个草根团队驱动的国产编程语言——凹语言诞生。


了解更多细节内容参见:

https://wa-lang.org/smalltalk/st0035.html


袁丽雅老师 "Adlik:开源 AI 推理优化工具,加速实现数智未来"



袁丽雅(中兴通讯-研发人):


在 AI 技术飞速发展,开源加速 AI 创新,AI 促进数字经济发展的大趋势下,大模型研究如火如荼,AI 和产业的融合日渐加深,大规模部署已成趋势。为了将 AI 前沿的理论研究在实际中发挥价值,AI 的产业化势在必行。然而模型部署对推理工具链要求及其严格的,需要广泛支持主流训练框架;高效的模型压缩,优化能力;支持多种 AI 硬件;具备完善的工业应用特性,高可用、易运维;高性能,可以发挥硬件最佳性能;轻量化,可以满足边缘、终端各类部署环境;易用性,快速上手解决问题等这些特点。正是基于这些特点研究,中兴通讯研发团队推出了 Adlik 工具链,Adlik 深度学习推理工具链是一种将深度学习模型从训练完成,到部署到特定硬件并提供应用服务的端到端工具链,实现模型从研发状态到生产应用环境的高效切换。同时能与多种推理引擎协作,提供灵活的模型加速、部署、推理方案,助力用户构建高性能AI应用。目前已在 Linux 基金会 AI 和数据基金会(LF AI & Data)开源。


更多内容,参见袁丽雅老师 PPT《Adlik:开源 AI 推理优化工具,加速实现数智未来》了解10-袁丽雅-Adlik:开源AI推理工具 加速实现数智未来.pptx


研讨会“聊聊你与开源的故事” 李奇峰主持


参会嘉宾述说自己与开源的故事,共话共情点燃了很多人的开源之路回顾,最后大家在欢声笑语中结束了此次活动行程。


这场活动是一场草根文化活动,同时也是草根开源人围绕“数字经济”话题的第一次线下开源分享活动,开启了开源行动数字经济先河,意义深远,与会者及讲师介绍内容都非常优质。一总天的分享活动,虚无坐席,老师们的倾囊相授,每个人都从中收获了不少知识。


在数字经济建设发展中,我们需要这样的开源人去传播、去分享给更多的人,且让更多的人加入到我们的行列中来,一起为国内开源发展贡献我们力所能及的力量。因为我国开源环境也需要份不可或缺的力量,与开源世界接轨共续发展。


KCC@南京秉承开源社宗旨,开心开源。我们以“开源知行,笃实刚健”为理念,认真做好每一场开源分享活动。KCC@南京是每一位开源人在南京的家,欢迎大家常回家座座。同时,我们也期待志同道合的你加入到我们的行列中来。让我们一起期待 KCC@南京下次活动,咱们下次再会。


【KCC@南京】KCC南京“数字经济-开源行”活动发起人合影(左至右顺序:马证、董吉甫、袁大庆、李奇峰)


最后,此次活动大合照献给大家。相聚总有分别,愿我们彼此的关心和祝福,像阳光和海水那样,无论分别多久,都会永远伴君同行。青山绿水,江湖再见。


1、活动场地支持方:中科南京软件研究所

2、活动礼品赞助方:开源社、开源之夏、AO.space、PowerData、飞轮科技、机械工业出版社、白鲸开源、立维科技

3、各位讲师的精彩分享:庄表韦、林旅强、杜金房、丁尔楠、陶冶、张小丰、王云鹏、仇文超、张成、袁丽珊、李奇峰

4、活动志愿者名单:

活动发起人:董吉甫 袁大庆 马证 李奇峰

活动主持人:李奇峰

会务签到:王萍萍

会场引导:柴子荣、陈泽民、唐迎涛

摄影师:孙喆徐(因感染甲流,举步艰难,坚持参与完成前期摄影拍摄)、王雅蒙(因感冒38.5度坚持完成了后期拍摄)、 吕文浩

视频号直播推流:王萱



















作者 | KCC@南京

编辑 | 谢丹琪

相关阅读 | Related Reading


2023中国开源先锋33人评选进行中,快来推荐你心尖上的开源人物吧!

Free and Open Source Singapore Year-end Mashup