使用 python 实现一个文件搜索功能, 类似于 Everything 功能
一般人日常总是会将一些片段信息记录到文件中,放到电脑硬盘上。等过段时间,可能就不知道放到哪里了,电脑上文件夹太多。 找文件一般都会借助于搜索软件,比如 Everything 软件就很强大,输入名称,就能全局查找文件;
但是 Everyting 软件只能匹配文件内,如果想搜索的是文件内容,就没办法了。不知道市面上有没有这样的软件?
不过,可以使用 python 做一个简单的搜索功能,实现这个需求;
实现原理
使用 os 遍历文件夹下所以文件
使用内置 open 函数读取文件内容并搜索匹配
为了提供速度,加一个多线程执行方法
准备工作
需要用到库中只有多线程库 threading 是第三方库,需要安装;安装方式比较简单,打开命令行窗口;执行命令:
pip install threading
等待安装成功;
多线程基础知识进程是应用程序的执行实例。每一个运行中的程序就是一个进程。线程是进程的组成部分,一个进程可以拥有多个线程。在多线程中,会有一个主线程来完成整个进程从开始到结束的全部操作,而其他的线程会在主线程的运行过程中被创建或退出。
并发和并行
并发和并行是两个概念,并行指在同一时刻有多条指令在多个处理器上同时执行;并发是指在同一时刻只能有一条指令执行,但多个进程指令被快速轮换执行,使得在宏观上具有多个进程同时执行的效果。
使用 threading 创建线程的两种方式:
使用 threading 模块中 Thread 类的构造器创建线程。即直接对类 threading.Thread 进行实例化创建线程,并调用实例化对象的 start() 方法启动线程。继承 threading 模块中的 Thread 类创建线程类。即用 threading.Thread 派生出一个新的子类,将新建类实例化创建线程,并调用其 start() 方法启动线程。
具体实现
编码内容搜索函数:输入文件路径,读取文件内容匹配给定搜索词;
编码文件遍历方法:使用 os.listdir(dir_path)函数获取文件夹下所有文件对子文件夹进行递归调用对文件先进行文件名匹配,
获取文件信息,主要包括后缀名,大小等,判断是否进行后续操作 对于小文件,可以直接进行处理,大文件放到线程中进行
编码运行函数
主要是对线程调用 join 方法并打印最终搜索结果
以上就是一个简单的实现,仅供参考!
版权声明: 本文为 InfoQ 作者【技能实验室】的原创文章。
原文链接:【http://xie.infoq.cn/article/df7165fa2e05ba287d8c87add】。文章转载请联系作者。
评论