PingCAP [Open-Source & Commerce]

前沿:这个个人Blog网站最初的定位是关注Industry,Research,Markdet三个主题。但是因为离职之后,身处学校,距离工业界和商业越来越远,blog大部分内容都是论文阅读。之前看到PingCAP在B站上的账号开始讲开源和商业,感觉可以拿过来完善自己的知识体系,顺带给网站增加一点Market相关的内容。

《关于规范金融业开源技术应用与发展的意见》最近解读

by 信通院云大所副所长 栗蔚

意见大概三个部分

  • 鼓励金融机构将开源技术纳入规划,建立健全开源技术管理制度体系
  • 鼓励金融机构积极参与开源,加入开源社会组织
  • 鼓励建立开源技术公共服务平台

背景

开源:

  • 协作模式&特性产品
  • 不只是软件,还可以是开源大数据,开源硬件,开源API(比如MIT的机器狗?)
  • 和开放的区别:
    • 遵守了某种协议(比如许可证),约定了商业关系
    • 开发只公开,不可修改或分发
  • 特点:
    • 公开、可修改、可分发

金融行业开源现状

金融业务开源技术四个阶段

  • 20C70S - 90S:金融电子化(小型机)
  • 21C00S - 10S:金融信息化(开始替换小型机,使用Spring为代表的Java架构)
  • 21C10S - 17:互联网金融(使用分布式,大数据等开源技术,“全面云化”和“分布式化”)
  • 2017 - now:金融数字化(“智能化”和“开放化”,使用区块链,人工智能等新技术)

金融行业总结的开源模式的特点:

  • 高效创新,广泛的生态,和开放金融特点契合

2018年多家金融机构联合发起“金融行业开源技术应用社区(FINOC)”。

《意见》中治理开源使用的范畴:

  • 企业直接使用
  • 外包商合作开发
  • 企业商业采购

首要目标:

  • 稳定可持续

四大基本原则:

  • 坚持安全可控、坚持合规使用、坚持问题导向、坚持开放创新

现状:

  • 90%以上金融企业引入开源软件
  • 近四成使用超过1000个

风险 -> 需要治理体系:

  • 存在漏洞
  • 受美国出口管理条例(EAR)影响
  • 停服(供应链风险)
  • 版权侵权风险、专利侵权风险、商标侵权风险、许可证冲突

金融企业自己也开源

  • JPMorgan开源Alloy财务数据库,Legend数据治理,通过技术合作增加和上下游企业的结合。

我国金融机构:尚处于”开源使用者“阶段。先使用(治理)好,再探索参与开源技术发展。

金融行业治理开源意见

总体机制

治理从三大方面展开:整体规划(纳入规划),组织架构(多部门联合),管理规范(健全制度)

引入

开源技术引入:

  • 业务场景为核心,从实际业务需求出发
  • 根据能力选择:引入,外包,采购解决方案

生命周期跟踪

完善风险管理能力:

  • 技术路径风险(无人维护,策略变更)
  • 知识产权及合规风险(提前审查)
  • 信息技术风险(漏洞,后门)
  • 供应链风险(外包商,合作方也需要审查上述风险)

提升科技水平

通过开源提升提升自身技术实力,根本目的是掌握先进技术

金融机构自发参与开源的建议

  1. 反馈开源
  2. 产学结合,自身开源,提高创新

落地层面:

  • 商业模式(选取好的项目,邀请合作伙伴,合适的许可证/托管平台,运营模式(基金会or生态社区))
  • 开源运营(建立组织架构,运营机制)

动态数据:从Apache Kafka开源到Confluent企业化之路

by Confluent联合创始人 饶军

动态数据

Linkedin:数据驱动

领英服务解构

  • Email摘要
  • 推荐系统
  • 搜索引擎

领英的两个领悟

  • 动态化数据比静态化数据有效
    • 静态数据:只是存储数据,定期批处理,再反映到推荐等系统。
    • 动态数据:事件驱动微服务,当事件发生,系统立即反映。
    • 结果:信息更及时
  • 利用所有数据化信息
    • 点击等动作(非交易型数据),也很有价值,可以用来做数据处理

基于两个领悟,找不到好的系统

  • 传统数据库:为静态数据服务,ELT局限
  • 消息系统:低吞吐

Kafka第一阶段:高吞吐动态数据(用了九个月)

  • 分布式
  • 价值:数据平明化(对于一个新的服务可以通过MQ快速获取各类信息)

Kafka第二阶段:加入Apache

  • 很多人通过Apache接触Kafka
  • 构建社区

Kafka第三阶段:Confluent

  • 带来的好处
    • 完整:
      • 安全可靠,增加connector,支持更多的数据源
      • 持续实时处理:服务于事件驱动微服务,支持了一部分能力在Kafka上(ksqlDB,stream)
    • 支持上云
      • 包括私有云,后来有的公有云(支持在GCP/Azure/AWS上)
    • 云原生
      • tiered storage,冷数据放到对象存储上
        • 用S3开销低
        • 存算分离,分别scalability
        • 无限scalability
  • 举例RBC:
    • 用户和RBC有多种关系,每个关系对应一个部门,没有中心化的数据可以查询。
    • Kafka提供了动态数据的中心化平台。
  • 举例Square(北美支付宝):
    • 使用Kafka处理所有付款
    • 使用tiered storage(也控制成本),数据永远存在

开源先进性思考

by 经纬中国合伙人 熊飞

现状

开源公司高估值持续升温

  • 两三百亿美金成为常态

为什么是先进模式

先尝后买:

  • 参考付费游戏和免费游戏

先进性

  • 产品模式
    • 迭代更快(比安装版优秀)
    • 方向需求更明确(有开源社区反馈)
    • 资源杠杆效应(有开源志愿者)
  • 商业模式先进
    • 漏斗大大增加(上层基数大)
    • 成单周期大大缩短(先用)
    • 粘性更强
  • 组织先进
    • 招募人才更有竞争力
    • 士气更高(得道多助)
    • 协作更高效(松耦合)
  • Plus:开源商业化
    • 自来水&瓶装水(一万亿(RMB?)的市场);迅雷&腾讯视频
    • 不同场景下,需要不同价值(互联网公司可能不需要开盖即用,但是普通公司会倾向于开源软件这种开盖即用)
    • 免费版&商业版,对应不同场景

为什么企业在加大开源投入

  • 技术更先进
    • 90%以上软件新技术来自开源
    • 功能来自真实场景,No Selfware
    • 开源+云代表企业软件未来形式
  • 技术可掌控
    • No Vender Lock-in(可以自己加代码)
    • 拥有创新节奏的掌控权
    • 基于开源构建自主技术生态
  • 人才获取与服务模式
    • 招人容易
    • 社区活跃度高,服务响应快
    • 排查问题速度快,工具丰富
  • 总体拥有成本低
    • 入手门槛低,先尝后买
    • 按业务发展阶段自由选择付费模式
    • 在开源技术体系之间进行技术成本低

思考

粗糙的先进,完爆精致的落后

开发的各个领域都值得用开源再做一遍(就像ToC都值得用移动互联网再做一遍)

感受

  • 不同人的PPT风格迥异,金融从业人员不管是PPT还是行研都是全是字。技术企业家喜欢画生动形象的图。投资人的PPT几乎只放要点结论,没有多余的图和文字,我完全可以直接抄PPT。
  • 没听明白为啥金融企业突然就开始拥抱开源了。。。上面给的压力?
  • 领英的成功再一次印证,推广搜的强大商业价值
  • 字节在推荐方面的成功,一定程度上应证了Confluent提到的动态数据的价值和先进性。
  • Confluent饶总的演讲告诉我们,MQ不止是削峰填谷,最开始的目的是用来提供中心化的信息集束做订阅,从而让整个系统变成事件驱动,增加整体即时性和互通性。中间价这个名字取得真好。
  • 所谓动态数据:数据的及时性。
  • 熊总的talk确实讲了先进性。

Reference

https://www.bilibili.com/video/BV1YM4y1w7vk

Welcome to my other publishing channels