专访PingCAP黄东旭:摩拜单车也用上了我们的TiDB数据库

donews12月27日消息(记者赵晋杰)以mysql为代表的关系型数据库,在大数据时代的海量数据面前,正变得越来越难以使用,而新型开源的分布式关系型数据库开始逐渐崛起。
2014年,资深infrastructure工程师黄东旭开发出了新型开源分布式关系型数据库tidb。与mysql的区别在于,tidb具备弹性扩容,数据库是可成长的,理论上没有上限值,避免了因单个设备达到阈值后,需要人工来回转移数据的麻烦。
在12月17–18日,由麦思博(msup)有限公司和中兴技术规划部、中兴it技术学院、公司级研发cop、中兴开发者社区联合主办的第33届mpd暨中兴高效研发工作坊上,pingcap创始人黄东旭做了《100x的mysql:tidb的架构演进和开发测试哲学》的主题分享。在接受donews专访中,黄东旭进一步阐释了分布式数据库的诞生过程以及开源观念在国内外的差异。
新型分布式数据库不是靠谷歌两篇论文就能搞出来的
早在2012年,谷歌就对外发布了两篇论述分布式数据库的文章f1和spanner,但是一来在spaner论文中,数据库运行需要依赖一种设备,而那种设备在当时很难研发出来。再加上论文里面的一个算法,也一直没有完成开源的实现。
直到2014年,斯坦福的一个博士发表了另外一篇论文,论证了一个跟spaner算法等价的一个新算法,且在工程比较容易实现,兼之当时黄东旭团队也找到了一种方法把谷歌原来需要依赖硬件的数据库模型进行了改进。着手搭建分布式数据库的时机开始成熟,2014年5月,黄东旭带领团队开发了新型开源分布式关系型数据库tidb。
从谷歌2012年的两篇论文发布,直到2014年新型分布式数据库才正式问世,黄东旭解释称,“并不是说一个人突然灵光一闪,马上做出一个成果(就能)推向全世界了。其实是由这些学术界的突破,还有工业界的突破,包括硬件上的进展,一起循序渐进的过程。”
黄东旭还以这两年火热的大数据举例,称谷歌最早在02、03年就发表过相关论文,到现在已经过去了十几年了,才开始火起来。
pingcap发展路径:先国外后国内
tidb的基因之一就是完全开源。这也让黄东旭给pingcap定下了先国外后国内的发展路径。
对开源软件来说,社区一定都是global的,pingcap并不希望做成一个只有中国人去用的区域性社区。而且,开源也要求软件开发者不能固步自封,否则没人跟你玩。
同时,作为一家国内公司,针对国内的具体情况,pingcap也在进行特殊优化。在黄东旭看来,国内目前的技术工程师并不比硅谷差,而且大家沟通也会更加顺畅,缺的只是一个更先进的技术去引爆国内市场。
对于当前国内对开源的态度,黄东旭认为像bat们,已经意识到了开源所能带来的隐性福利。之前,大公司的基础软件,往往更偏向去做满足自己需求的业务框架。所有的出发点都是为了自己的业务稳定,很少有能拿出来直接卖的程序。再加上开源还需要额外的成本支出,很少有公司愿意去做。
但是,现在像bat,都在从闭源走向开源。其原因一是开源能提升公司的技术影响力,在工程师招聘和业界口碑上都会有好的提升;二是整个开源的模式,会让项目本身更健康。
新型数据库把摩拜单车都吸引来了
pingcap目前营收主要依赖于b端客户,集中在金融和支付领域,外加一部分互联网公司,例如那些业务高速增长的领域,游戏、新兴电商等。
黄东旭透露,现在很火的摩拜,也在测试pingcap的数据库产品,不久就会上线。
摩拜单车利用tidb数据库主要来干什么,因为涉及到具体业务,黄东旭没有就此说明。他表示,在互联网里面,一些初创企业的业务增长非常快,但是数据库的扩展维护往往跟不上。如果像传统那样,先停下业务,再重构代码,进行数据转移。这对与时间赛跑的创业公司而言,更是不现实。而tidb数据库的弹性扩容,可以让这些企业一行代码都不用改,就可以不停地往里面丢设备。
这次和摩拜的合作,也是对方基于这样的需求主动找的pingcap,黄东旭称有这样的缘分也是因为两家公司的北京办事处挨得很近,近水楼台先得月了。(完)