Apache Drill 1.19.0 发布集锦
Drill 是什么
Apache Drill 是一个可扩展的分布式 MPP 查询和分析引擎。提供 CLI、JDBC、RESTful 和 UI,开箱即用。
支持使用标准的 SQL 语法查询 NoSQL(MongoDB、ElasticSearch、Cassandra、HBase)、Hadoop 和 S3 上的行列数据格式(Parquet、Avro、SequenceFile)及大数据技术栈(Hive、Kafka、Kudu、Druid、OpenTSDB)、本地数据格式(XML、Excel、CSV、PCAP、HDF5)、HTTP API、标准的 JDBC 数据源和众多的商业数据格式。同时,基于 EVF(增强型矢量化框架),支持高性能的联邦查询和分析。
Drill 1.19.0 亮点
安全
包含大量的第三方依赖库的 CVE 补丁
支持强大的 Vault 安全模块集成
性能
格式插件基于 EVF 重构(Httpd、Syslog、SequenceFile、PCAP-NG、Image)
存储插件基于 EVF 重构(Kafka)
支持 RESTful 流式查询
基于行集框架的 JSON 通用读取器
数据源
增加 Cassandra 数据源
增加 ElasticSearch 数据源
增加 Splunk 数据源
增加 XML 数据源
升级支持 MongoDB 4.x
升级支持 Hadoop 3.2.2
升级支持 Kafka 2.8
升级支持 Hbase 2.4.2
升级支持 Kudu 1.14
支持 ARM-based 硬件
包含众多的数据格式和存储格式的功能优化项,如 Parquet、HDF5、PCAP 及 MongoDB。
Drill 社区建设
自从 Charles 担任 PMC 主席以来,一次性经历了两次打击。大数据三驾马车之一的 MapR 在 2019 下半年被 HPE 收购后,由于商业调整和种种原因,Drill 的贡献力量呈现断崖式减少。同时,在 2020 年,COVID-19 席转全球,很多开发者在社区不再活跃。2020 Q4 之后,我们内部讨论,决定优先支持社区。只有用户社区健康,开源项目才能延续。其实,Drill 相对于 Presto 和 Trino,个人认为做的较差就是社区支持。一个 Pull Request 提交后,很少有积极的 CR 活动;用户通过订阅邮件列表,无论是报告问题还是提出请求,很难收到快速和有效的回答;整个邮件列表的回复率也只有可怜的 30%。建设社区,迫在眉睫。
社区就是种子的培养基,只要持续投入和足够耐心,开花结果是迟早的事情。在过去的几个月中,我们通过多次调整,并积极地响应社区,重新吸引了大量的用户和开发者。其中不乏 Bloomberg、Boehringer-Ingelheim、Dremio、Amundi、TomTom 等全球著名企业,也不缺中国软件、阿里菜鸟、Shangy 等国内多个行业的贡献者。时至今日,只要你关注了 Drill 社区,不论是提出问题、解决问题还是提交 Pull Request,几乎都可以在很短时间内得到回应。
激活了社区,收获了用户。这就是 Apache Way,Community over Code。我们现在看到的是越来越活跃的社区,更加开放的话题讨论。接下来,我们会调整重心来支持新开发者,争取培养更多的 Drill Contributor & Committer。
特别的人和事
ARM 来了
是的。ARM 架构的 CPU 在多核计算、低功耗的表现上一骑绝尘。我们见识了 Apple 发布的 M1 系列的出色性能,不久还将在用户市场上看到可供选择的 ARM 服务器。Hadoop 3.3 开始支持 ARM,Drill 也是首批试水在 ARM-based 上运行的 Apache 顶级项目,目前已经添加了 Travis CI on ARM 来进行代码编译和所有的单元测试。
Drill 贡献者的地区分布
遍布全球。主要在美国、乌克兰、中国(1.19 版本有来自中国的四位贡献者参与)等。
社区建设的内容
邮件列表答疑、Slack 频道答疑、Pull Request 审查、发起话题讨论、网站文档更新等。
参与 Drill 的多种方式
太棒了,我们最近还启用了 GitHub 上的 Issues 功能,欢迎提出想法和参与贡献:
阅读《Apache Drill 学习手册》
社区帮助答疑
提交 Pull Request
参与邮件列表和 Slack 频道上的任何讨论
提交问题至 GitHub Issues 和 Apache JIRA
更新文档(gh-pages 分支)
参与测试并反馈问题
更多请参考 公告
“社区之星”
Ted Dunning。ASF 的旗帜性人物,大数据领域的专家,Apache Member。同时,Ted 不仅是 HPE Data Fabric CTO(原 MapR 的首席科学家),还是 Drill 项目的 PMC 成员。在这段社区建设的过程中,Ted 不仅投入了很多时间来支持 Drill,还帮助 Drill 激活了用户社区。
关于作者
Apache Drill Committer,就职于 CEC 旗下公司,目前在 Drill 团队中主要参与 PR、CR、EVF 和社区建设的工作。很难想象在《Learning Apache Drill》中文版上市后,能够遇到本书的两位作者,同时也是 Drill PMC 核心成员,查尔斯.吉弗(Charles Givre)和保罗.罗杰斯(Paul Rogers)。感谢在工作中他们给予的大量帮助,及所有参与 Drill 项目的团队成员的辛勤付出。
版权声明: 本文为 InfoQ 作者【聪】的原创文章。
原文链接:【http://xie.infoq.cn/article/d22ab1bd2e07bf6091741579b】。
本文遵守【CC BY-NC】协议,转载请保留原文出处及本版权声明。
评论