Apache HugeGraph1.0.0 版本正式发布!
摘要:百度安全助力国产数据库走向国际,与用户开发者共成长
日前, Apache HugeGraph (incubating) 第一个 Apache Release 版本 1.0.0 目前已正式发布,基于过去的一年时间里社区的同学开发了许多实用的新功能,重构多个项目模块并对 ASF 规范进行了全方面的适配和改造,在基金会导师指导下处理了 ASF 开源项目合规性等问题后,此次新版本由 30+ 位 Contributors 贡献了超过 270 个 Pull Request,于 2023 年初开始进行首轮 Apache 孵化发版投票,最后经过两轮调整于 2023 年 3 月正式发布。
根据 DB-Engines 数据显示,自 2021 年初起开源数据库的全球部署首次超过商业数据库,在于单纯依靠个别技术或软件很难构建成熟、完善的产品,而依赖社区生态推进往往能打磨出出色的数据库产品。并且开源数据库存在成本优势、产品丰富度、社区活跃性等方面的优越性,成为驱动数据库技术和市场变革的重要力量,也是构建国产自研数据库生态、加速技术迭代、让国产数据库走向国际化的重要途径,得以聚焦安全可控,通过构建数字技术创新体系和数字安全屏障,来为数字中国的发展提供安全可控的底座,实现科技自立自强。
HugeGraph 是百度安全于 2017 年自主研发的国内首个开源图数据库,提供了一站式的千亿级大规模图数据的存储、在线查询、离线分析能力,广泛应用于社交网络、广告推荐、网络安全、金融风控、智能机器人等场景。HugeGraph 于 2018 年开源,2022 年 1 月正式通过世界顶级开源组织 Apache 软件基金会的投票决议,以全票通过的优秀表现正式成为全球首个加入 Apache 孵化的图数据库项目,同年 5 月正式入驻 Apache 开启孵化,促使国产图数据库走向世界,在提升图数据库产品开发效率、降低产业应用成本的同时,在人才、生态建设产生深远的影响,让更多开发者因此受益。Apache HugeGraph 在百度众多业务中发挥了重要的作用,尤其是在反黑产、团伙发现等安全风控领域效果显著,也成为众多百度合作伙伴的优质之选。截止发版时, HugeGraph 在 GitHub 上具有 2200+ Stars,项目总 Contributors 数量超过 80 名,社区版本下载量超过 2 万,并有超过 100 个社区用户、组织在使用,包括网商银行、网易游戏、360 安全、滴滴、科大讯飞、虎牙直播、CVTE、货拉拉等,并且以上公司也在与 HugeGraph 一道共建开源社区。
Apache HugeGraph 1.0.0 版本在性能和实用性、易用性上做了大量改进和修复,包含 25000+ 行 Pull Request 代码变更提交:在系统语言上,图数据库与图计算等组件均升级适配 Java 11,已覆盖所有子项目 , 并新增支持 Cypher 图查询语言,目前已同时支持 Gremlin 与 Cypher 两大主流图查询语言;在服务器上支持更多内置图算法,包括 16 个 OLAP 算法包括:LPA、 Louvain、 PageRank、 Betweenness / Closeness / Eigencentrality Centrality、 RingsDetect 等,2 个 OLTP 算法,包括:adamic-adar 和 resource-allocation; 在大规模并行图计算框架 (Computer)上,支持海量图数据的 MPP 计算,尤其是扩散性/中心性等空间消耗大的算法,支持 K8s Standalone (单机)模式,预留 Yarn 接口可实现直接对接;在大数据组件支持上, 新增支持 Flink CDC 数据流式与同步导入、 Spark 批量导入数据、支持 Bypass Server 模式,大幅提高了图数据库的在线/离线场景下的导入/导出/图迁移性能和方便性;并在易用性上,提供一键 Server/Hubble 容器化 Docker 支持,重构整合图周边工具链为 HugeGraph Toolchain 等 120 多项细节版本更新。此外,在 2022 年 HugeGraph 相继完成了信创厂商飞腾、麒麟、海光等的兼容性认证,并入选了年度 “科创中国” 十大开源创新项目榜单。
HugeGraph 不仅是国内第一个开源的图数据库产品,也是唯一捐赠给 ASF 的图系统。它实现了 Apache TinkerPop3 框架兼容 Gremlin + Cypher 查询语言, 具备完善的工具链组件,助力用户轻松构建基于图数据库之上的应用和产品。HugeGraph 支持百亿以上的顶点和边快速导入,并提供毫秒级的关联关系查询能力(OLTP), 还可与 Hadoop、Spark 等大数据平台集成以进行数据集成,提供自研的图计算系统,形成整合的一站式图服务。图数据库能够支撑新型应用场景的关联分析业务,根据 Gartner 预测,到 2025 年图技术将应用于 80% 的数据和分析创新,而图技术是图数据库的核心技术。
百度不仅参与开源生态,也秉承开源开放姿态积极建设开源生态,贡献了大量的开源项目,如中国首个自主研发开源开放的产业级深度学习平台飞桨、自动驾驶平台 Apollo、可视化渲染库 Apache ECharts、数据仓库 Apache Doris 等。一方面是因为百度的技术基因,另一方面也是表达一种开放的态度。百度深深理解在技术领域一枝独秀不是春,只有拥抱开源,很多技术和产品才能加速发展、拓宽边界,实现与广大用户及开发者共同成长,打造繁荣的开源生态。
评论