写点什么

Apache Drill 1.19.0 发布集锦

用户头像
关注
发布于: 2021 年 06 月 15 日
Apache Drill 1.19.0 发布集锦

Drill 是什么

Apache Drill 是一个可扩展的分布式 MPP 查询和分析引擎。提供 CLI、JDBC、RESTful 和 UI,开箱即用。

支持使用标准的 SQL 语法查询 NoSQL(MongoDB、ElasticSearch、Cassandra、HBase)、Hadoop 和 S3 上的行列数据格式(Parquet、Avro、SequenceFile)及大数据技术栈(Hive、Kafka、Kudu、Druid、OpenTSDB)、本地数据格式(XML、Excel、CSV、PCAP、HDF5)、HTTP API、标准的 JDBC 数据源和众多的商业数据格式。同时,基于 EVF(增强型矢量化框架),支持高性能的联邦查询和分析。

Drill 1.19.0 亮点

  1. 安全

  2. 包含大量的第三方依赖库的 CVE 补丁

  3. 支持强大的 Vault 安全模块集成

  4. 性能

  5. 格式插件基于 EVF 重构(Httpd、Syslog、SequenceFile、PCAP-NG、Image)

  6. 存储插件基于 EVF 重构(Kafka)

  7. 支持 RESTful 流式查询

  8. 基于行集框架的 JSON 通用读取器

  9. 数据源

  10. 增加 Cassandra 数据源

  11. 增加 ElasticSearch 数据源

  12. 增加 Splunk 数据源

  13. 增加 XML 数据源

  14. 升级支持 MongoDB 4.x

  15. 升级支持 Hadoop 3.2.2

  16. 升级支持 Kafka 2.8

  17. 升级支持 Hbase 2.4.2

  18. 升级支持 Kudu 1.14

  19. 支持 ARM-based 硬件

  20. 包含众多的数据格式和存储格式的功能优化项,如 Parquet、HDF5、PCAP 及 MongoDB。

Drill 社区建设

自从 Charles 担任 PMC 主席以来,一次性经历了两次打击。大数据三驾马车之一的 MapR 在 2019 下半年被 HPE 收购后,由于商业调整和种种原因,Drill 的贡献力量呈现断崖式减少。同时,在 2020 年,COVID-19 席转全球,很多开发者在社区不再活跃。2020 Q4 之后,我们内部讨论,决定优先支持社区。只有用户社区健康,开源项目才能延续。其实,Drill 相对于 Presto 和 Trino,个人认为做的较差就是社区支持。一个 Pull Request 提交后,很少有积极的 CR 活动;用户通过订阅邮件列表,无论是报告问题还是提出请求,很难收到快速和有效的回答;整个邮件列表的回复率也只有可怜的 30%。建设社区,迫在眉睫。

社区就是种子的培养基,只要持续投入和足够耐心,开花结果是迟早的事情。在过去的几个月中,我们通过多次调整,并积极地响应社区,重新吸引了大量的用户和开发者。其中不乏 Bloomberg、Boehringer-Ingelheim、Dremio、Amundi、TomTom 等全球著名企业,也不缺中国软件、阿里菜鸟、Shangy 等国内多个行业的贡献者。时至今日,只要你关注了 Drill 社区,不论是提出问题、解决问题还是提交 Pull Request,几乎都可以在很短时间内得到回应。

激活了社区,收获了用户。这就是 Apache Way,Community over Code。我们现在看到的是越来越活跃的社区,更加开放的话题讨论。接下来,我们会调整重心来支持新开发者,争取培养更多的 Drill Contributor & Committer。

特别的人和事

ARM 来了

是的。ARM 架构的 CPU 在多核计算、低功耗的表现上一骑绝尘。我们见识了 Apple 发布的 M1 系列的出色性能,不久还将在用户市场上看到可供选择的 ARM 服务器。Hadoop 3.3 开始支持 ARM,Drill 也是首批试水在 ARM-based 上运行的 Apache 顶级项目,目前已经添加了 Travis CI on ARM 来进行代码编译和所有的单元测试。

Drill 贡献者的地区分布

遍布全球。主要在美国、乌克兰、中国(1.19 版本有来自中国的四位贡献者参与)等。

社区建设的内容

邮件列表答疑、Slack 频道答疑、Pull Request 审查、发起话题讨论、网站文档更新等。

参与 Drill 的多种方式


太棒了,我们最近还启用了 GitHub 上的 Issues 功能,欢迎提出想法和参与贡献:

  1. 阅读《Apache Drill 学习手册》

  2. 社区帮助答疑

  3. 提交 Pull Request

  4. 参与邮件列表和 Slack 频道上的任何讨论

  5. 提交问题至 GitHub IssuesApache JIRA

  6. 更新文档(gh-pages 分支)

  7. 参与测试并反馈问题

  8. 更多请参考 公告

“社区之星”

Ted Dunning。ASF 的旗帜性人物,大数据领域的专家,Apache Member。同时,Ted 不仅是 HPE Data Fabric CTO(原 MapR 的首席科学家),还是 Drill 项目的 PMC 成员。在这段社区建设的过程中,Ted 不仅投入了很多时间来支持 Drill,还帮助 Drill 激活了用户社区。

关于作者

Apache Drill Committer,就职于 CEC 旗下公司,目前在 Drill 团队中主要参与 PR、CR、EVF 和社区建设的工作。很难想象在《Learning Apache Drill》中文版上市后,能够遇到本书的两位作者,同时也是 Drill PMC 核心成员,查尔斯.吉弗(Charles Givre)和保罗.罗杰斯(Paul Rogers)。感谢在工作中他们给予的大量帮助,及所有参与 Drill 项目的团队成员的辛勤付出。

发布于: 2021 年 06 月 15 日阅读数: 158
用户头像

关注

还未添加个人签名 2018.05.04 加入

还未添加个人简介

评论

发布
暂无评论
Apache Drill 1.19.0 发布集锦