PandasAI 连接 LLM 进行智能数据分析
1. 引言
Pandas 是一个数据分析开源组件库,提供了高性能、易用的数据结构和数据分析工具。它的核心的功能是其 DataFrame 对象,这是一个带有行和列标签的二维表格数据结构,支持缺失数据处理、时间序列功能、灵活的数据输入输出方法、数据对齐和分组操作等特性。
PandasAI 则通过结合 Pandas 和生成式 AI 技术,使用户能够以自然语言与数据进行交互,从而简化数据分析流程。它的核心目标是让数据分析变得更直观、高效,甚至无需编写复杂代码即可完成数据查询、清洗、可视化等任务。
2. 详述
Pandas 进行数据分析的流程笔者不是很熟练,这里重点关注一个问题就是 PandasAI 如何连接现有的大模型比如 DeepSeek 来进行智能数据分析。
由于经验不足,笔者在测试 PandasAI 的时候,将相关的组件都安装在默认全局的 Python 环境中了,导致版本有点低,使用的是 v2 版本。现在普通推荐使用 Anaconda 这样的工具安装虚拟环境来进行 Python 的依赖管理。不过根据 PandasAI 官网文档[1]提示,PandasAI 3.0 仍然是 beta 版本,并且推荐使用 Poetry 管理 Python 依赖。所以这里笔者也就没有想升级到 3.0,暂时先用稳定一定的 2.X 版本。
解决掉 PandasAI 2.X 的版本依赖问题之后,通过 PandasAI 连接 DeepSeek 进行智能数据分析的案例代码实现如下:
如代码所示,关键的所在是需要自定义一个继承自LLM
的能够连接 DeepSeek 的类DeepSeekLLM
。其实 PandasAI 2.X 是可以使用提供了支持使用 OpenAI 的接口的,而连接 DeepSeek 的接口一般会兼容 OpenAI。但是笔者尝试了之后不行,不能传入自定义的 LLM 地址。没办法只能自己自定义一个继承自LLM
的DeepSeekLLM
类。
DeepSeekLLM
类的关键就是call
函数的实现,这是 PandasAI 用来向 LLM 模型发起请求的接口的入口。在这个函数实现中的关键就是通过兼容 OpenAI 的 Chat API 向自定义的 DeepSeek 服务发起post
请求,具体的细节笔者已经在代码中进行注释,另外也可以查阅 OpenAI API 的相关文档。这里的实现并没有像《连接语言大模型(LLM)服务进行对话》一样使用openai
模块或者LangChain
框架,而是直接使用 requests 来发送 HTTP 请求,显得更加底层一点,不过原理都差不多。
最终运行的结果如下所示:
文章转载自:charlee44
评论