写点什么

2021 年,有哪些堪称神器的 Python 工具包?

用户头像
Jackpop
关注
发布于: 3 小时前

添加微信:code_7steps,备注“进群”,邀请你加入大牛云集的技术交流群!


2021 已经过去一半,在过去的半年里,又有非常多优秀的 Python 库涌现出来。


相对于 numpy、TensorFlow、pandas 这些已经经过多年维护、迭代,对于大多数 Python 开发者耳熟能详的库不同。


今天要给大家介绍的是诞生于 2020 年的新鲜 Python 库,而且,本文介绍的这 10 个 Python 库一直都受到非常好的维护。


废话不多说,下面开始本文的正式内容!

1. Typer


或许,你并非经常编写 CLI 应用程序,但是当你编写时,有可能会遇到很多障碍。


继 FastAPI 的巨大成功之后,tiangolo 用同样的原则为我们带来了 Typer[1]:一个新的库,它能让你利用 Python 3.6+的类型提示功能来编写命令行接口。


这个设计确实让 Typer 脱颖而出。除了确保你的代码是正确的文档,你还可以通过小小的改动得到一个带有验证的 CLI 接口。


而且通过使用类型提示,你可以在你的 Python 编辑器中获得自动完成(比如 VSCode),这将提高你的工作效率。


为了增强它的功能,Typer 在另外一款非常知名的 CLI 工具 Click 的基础之上做了很多优化和改善。这意味着它可以利用它的所有优点、社区和插件,同时以较少的模板代码开始简单的工作。

2. Rich


顺着 CLI 的话题,在使用终端时,往往是单调的白色,这非常不利于分辨和阅读。


你想给你的终端输出添加色彩和与众不同的风格吗?打印复杂的表格?显示漂亮的进度条?Markdown?Emojis?


Rich[2]都能满足你的要求。


请看示例截图,了解一下它的功能。

3. Dear PyGui


虽然,正如我们所看到的,终端应用可以很好看,但有时这还不够,你需要一个真正的 GUI。


为此,Dear PyGui[3]应运而生,它是流行的 Dear ImGui C++项目的 Python 移植。


Dear PyGui 利用了在视频游戏中流行的所谓即时模式范式。


这意味着动态 GUI 是一帧一帧独立绘制的,不需要持久化任何数据。这使得这个工具与其他 Python GUI 框架有着本质上的区别。


它具有很高的性能,并使用计算机的 GPU 来促进高动态界面的构建,这在工程、模拟、游戏或数据科学应用中是经常需要的。

4. PrettyErrors


这是一个让你觉得:"怎么以前没有人想到它?"的 Python 库。


PrettyErrors[4]只做了一件事,而且做得很好。


在支持彩色输出的终端中,它将混乱的报错信息转化为更适合我们人类的眼睛来解析的东西。


不再苦苦扫描整个屏幕,定位报错信息......现在你可以一目了然地找到它。

5. Diagrams


我们程序员喜欢解决问题和编码。


但有时,作为非常需要的项目文档的一部分,我们需要向其他同事解释复杂的架构设计。


传统上,我们已经求助于 GUI 工具,我们可以在图表和可视化上下功夫,把它放在演示和文档中。


但这不是唯一的方式。


Diagrams[5]可以让你不用任何设计工具,直接在 Python 代码中绘制云系统架构。


只需要几行代码,就可以绘制一幅亮眼的架构图。

6. Hydra and OmegaConf

在做机器学习项目的研究和实验时,总有无数的设置需要尝试。


在一些应用中,配置管理变得非常复杂。如果有一种结构化的方式来处理这种复杂性,会极大的提高开发效率。


Hydra[6]是一个工具,它允许你以可组合的方式构建配置,并从命令行或配置文件中覆盖某些部分。


python train_model.py variation=option_a,option_b
├── variation│ ├── option_a.yaml│ └── option_b.yaml├── base.yaml└── train_model.py
复制代码


另一款工具,OmegaConf[7]为分层配置系统的基础提供了一致的 API,支持 YAML、配置文件、对象和 CLI 参数等不同来源。

7. PyTorch Lightning


每一个能够提高数据科学团队生产力的工具都是价值连城的。


没有理由让在数据科学项目中工作的人每次都要重新发明轮子,反复思考如何更好地组织项目中的代码,使用一些不太好维护的 "PyTorch boilerplate",或者用潜在的控制权换取使用更高级别的抽象。


Lightning[8]通过将科学与工程脱钩,有助于提高生产力。它有点像 TensorFlow 的 Keras,在某种意义上,它使你的代码更加简洁。


然而,它并没有夺走你的控制权。它仍然是 PyTorch,你可以使用所有常用的 API。


这个库可以帮助团队利用软件工程的良好实践,围绕组件的组织和明确的责任,构建高质量的代码,可以轻松地扩展到多个 GPU、TPU 和 CPU 上进行训练。


这个库可以帮助数据科学团队中那些初级成员产生更好的结果,同时,更有经验的成员也会喜欢它,因为在不放弃控制权的前提下,提高了整体生产力。

8. Hummingbird


不是所有的机器学习都是深度学习。很多时候,你的模型由 scikit-learn 中实现的比较传统的算法组成(比如随机森林),或者你使用梯度提升方法,比如流行的 LightGBM 和 XGBoost。


然而,在深度学习领域正在发生很多变化。像 PyTorch 这样的框架正在以令人窒息的速度前进,硬件设备也在优化,以更快的速度和更低的功耗运行张量计算。如果我们能够利用这些工作,更快、更高效地运行我们的传统方法,岂不美哉?


这就是 Hummingbird[9]的用武之地。


微软的这个新库可以将你训练好的传统 ML 模型编译成张量计算。


这很好,因为它可以让你摆脱重新设计模型的需要。


截至目前,Hummingbird 支持转换到 PyTorch、TorchScript、ONNX 和 TVM,以及各种 ML 模型和矢量器。

9. HiPlot


几乎每一位数据科学家在其职业生涯的某个阶段都曾处理过高维数据。


不幸的是,人类的大脑并没有足够的能力直观地处理这种数据,所以我们必须借助其他技术。


今年年初,Facebook 发布了 HiPlot[10],这是一个帮助发现高维数据中的相关性和模式的库,使用平行图和其他图形方式来表示信息。在他们的发布博文中解释了这个概念,但基本上是一种很好的、方便的可视化和过滤高维数据的方法。


HiPlot 是交互式的,可扩展的,你可以从你的标准 Jupyter Notebooks 或通过它自己的服务器使用它。

10. Scalene


随着 Python 库的生态系统越来越复杂,我们发现自己编写了越来越多的依赖于 C 扩展和多线程代码的代码。


在对比性能时,这就成了一个问题,因为 CPython 内置的剖析工具不能正确处理多线程和本地代码。


这时,Scalene[11]就来救场了。


Scalene 是一个针对 Python 脚本的 CPU 和内存剖析工具,它能够正确处理多线程代码,并区分运行 Python 和本地代码的时间。


你不需要修改你的代码,你只需要用 scalene 从命令行运行你的脚本,它就会为你生成一个文本或 HTML 报告,显示每行代码的 CPU 和内存使用情况。

结语

一款好用的工具,能够让开发者事半功倍。


对于 Python 这种极度依赖第三方工具包的编程语言更是如此。


因为有了这些优秀的工具,才使得 Python 生态得以完善和状态。


通过本文介绍的这 10 款优秀的 Python 库,来提升一下你的开发效率吧!



干货推荐

为了方便大家,我花费了半个月的时间把这几年来收集的各种技术干货整理到一起,其中内容包括但不限于 Python、机器学习、深度学习、计算机视觉、推荐系统、Linux、工程化、Java,内容多达 5T+,我把各个资源下载链接整理到一个文档内,目录如下:










所有干货送给大家,希望能够点赞支持一下!


https://pan.baidu.com/s/1eks7CUyjbWQ3A7O9cmYljA(提取码:0000)

用户头像

Jackpop

关注

还未添加个人签名 2020.09.16 加入

公众号:平凡而诗意,微信:code_7steps,全网粉丝超20万,技术进阶、优质资源、实用工具,欢迎关注!

评论

发布
暂无评论
2021年,有哪些堪称神器的Python工具包?