点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
9月26日,世界互联网大会领先科技成果奖揭晓了,我非常欣喜地看到,蚂蚁集团和清华大学联合研究的《大规模图计算系统GeaGraph》位列其中。这不仅代表我国在一个系统软件的分支上取得了国际领先水平的成果,更是国内软件领域在产学研合作的一个成功案例,对未来国内基础软件的发展提供了很好的示范。
图模型是一种新型的数据模型,通过将实体和关系抽象为图上的点和边,并在图上进行深入分析。与传统的关系模型相比,图模型能够进行更加深入的关系分析,因而在金融反欺诈、反洗钱、互联网搜索、智能制造、能源互联网等领域拥有广泛的应用前景。
清华大学计算机系高性能所从2010年左右就开始研究图计算相关技术,并研究了一系列图计算系统。其中2016年研制成功的双子星图计算系统比业界常用的开源图计算引擎GraphX性能提高了约100倍,得到了业界的广泛关注。为了能推动技术的广泛应用,2016年从事图计算系统的清华师生成立了费马科技有限公司。费马公司在推进双子星系统应用的同时,进一步开发出了具有国际领先性能的图数据库产品TuGrpah,能支持完整的图数据库事务,并在2020年通过了国际图数据库标准组织LDBC的认证测试,是国内首家通过这一认证测试的图数据库,认证成绩高居第一,是第二名的7.6倍。
蚂蚁集团是一家具有科技领先能力的公司,国内乃至全球最大的用户量和峰值交易量的需求使得蚂蚁集团对图计算有着丰富的场景。利用图计算技术处理支付宝的反欺诈、反套现等难题,可以比传统技术更加适用。从2015年起,蚂蚁集团开始自主研发了分布式图数据库、流式图计算等图计算技术系统,并在内部应用中得到了良好的效果。
2020年,蚂蚁集团进一步整合了自有的技术系统,以及清华大学和费马公司研制的相关系统,升级形成了一套完整的图计算系统GeaGraph。这套系统集成了各方原有的优势,可以不夸张地说,无论从功能的完整性,还是吞吐率、响应时间等指标,GeaGraph都达到了世界领先水平,是当之无愧的世界领先科技成果。
当然,我们也不应在现有的成绩上骄傲自满,固步自封。应该看到全球图计算领域的发展仍然处在早期阶段,比如图查询语言的定义还缺乏类似关系代数的坚实理论基础;许多国内外图数据库的写入性能都非常差,对于用户实际需要的混合事务处理与分析类任务处理还不够得心应手,大部分数据库甚至不能通过国际标准测试;类似物化视图这类能够极大提高复杂查询性能的技术在图数据库上基本还是空白。我们期待通过更加积极的产学研合作,进一步提高我国在图计算这一细分系统软件领域的领先优势。
更重要的是,我们期待类似GeaGraph这样的产学研合作案例能够成规模的复制,从而大大加速我国先进基础软件的研发工作。
我一直强调一个观点,基础软件领域的国产化不应只是低水平的替代,更不应该只是开源软件的换皮。我强调要学会“从头构建先进的系统软件”。那么先进性从何而来?我想GeaGraph给了我们一个很好的例子:产、学、研结合,高校和科技领先企业共同突破技术难关并将其规模化应用。
我们期待有更多的中国大学和科技公司加入到这一模式的探索中来。这种“产学研”结合的技术开发和应用全链条实践的模式是硅谷成功的秘诀之一,如果能够在我国顺畅运行和广泛复制,必将大大加快解决我国基础软件领域的卡脖子问题的进度,逐步构建出源于中国的自己研发的先进基础软件集。(作者系中国工程院院士、清华大学计算机科学与技术系教授郑纬民)