开眼界!Python遍历文件可以这样做

来源:【公众号】

Python技术

开眼界!Python遍历文件可以这样做

Python 对于文件夹或者文件的遍历一般有两种操作方法,一种是至二级利用其封装好的 walk 方法操作:


import os
for root,dirs,files in os.walk("/Users/cxhuan/Downloads/globtest/hello"):
    for dir in dirs:
        print(os.path.join(root, dir))
    for file in files:
        print(os.path.join(root, file))

上面代码运行结果如下:

/Users/cxhuan/Downloads/globtest/hello/world
/Users/cxhuan/Downloads/globtest/hello/.DS_Store
/Users/cxhuan/Downloads/globtest/hello/hello3.txt
/Users/cxhuan/Downloads/globtest/hello/hello2.txt
/Users/cxhuan/Downloads/globtest/hello/hello1.txt
/Users/cxhuan/Downloads/globtest/hello/world/world1.txt
/Users/cxhuan/Downloads/globtest/hello/world/world3.txt
/Users/cxhuan/Downloads/globtest/hello/world/world2.txt

上述程序,将 os.walk 读取到的所有路径 root 、目录名 dirs 与文件名 files ,也就是三个文件数组利用 foreach 循环输出。join方法就是将其路径与目录名或者文件名连接起来,组成一个完整的目录。

另一种是用递归的思路,写成下面的形式:


import os
files = list()
def dirAll(pathname):
    if os.path.exists(pathname):
        filelist = os.listdir(pathname)
        for f in filelist:
            f = os.path.join(pathname, f)
            if os.path.isdir(f):
                dirAll(f)
            else:
                dirname = os.path.dirname(f)
                baseName = os.path.basename(f)
                if dirname.endswith(os.sep):
                    files.append(dirname+baseName)
                else:
                    files.append(dirname+os.sep+baseName)


dirAll("/Users/cxhuan/Downloads/globtest/hello")
for f in files:
    print(f)

运行上面代码,得到的结果和上面一样。

这两种方法都没问题,就是写起来比较麻烦,特别是第二种,一不小心还有可能写出 bug 。

今天我们来介绍第三种方法——利用 glob 模块来遍历文件。

简介

glob 是 python 自带的一个操作文件的模块,以简洁实用著称。由于这个模块的功能比较简单,所以也很容易上手和使用。它主要用来查找符合特定规则的文件路径。使用这个模块来查找文件,只需要用到*?[] 这三个匹配符:

 * : 匹配0个或多个字符;
 ? : 匹配单个字符;
 [] :匹配指定范围内的字符,如:[0-9]匹配数字。

glob.glob 方法

glob.glob 方法主要返回所有匹配的文件路径列表。它只有一个参数 pathname ,定义了文件路径匹配规则,这里可以是绝对路径,也可以是相对路径。

使用 * 匹配

我们可以用 * 匹配零个或者多个字符。

输出目录下的子目录或者文件:


for p1 in glob.glob('/Users/cxhuan/Downloads/globtest/*'):
    print(p1)

运行上面代码,会将 globtest 文件夹下仅有的目录输出出来,输出内容如下:


/Users/cxhuan/Downloads/globtest/hello

我们也可以通过制定层级来遍历文件或者文件夹:


for p in glob.glob('/Users/cxhuan/Downloads/globtest/*/*'):
    print(p)

上面的代码会遍历 globtest 文件夹以及子文件夹,将所有的文件或文件夹路径打印出来:

/Users/cxhuan/Downloads/globtest/hello/world
/Users/cxhuan/Downloads/globtest/hello/hello3.txt
/Users/cxhuan/Downloads/globtest/hello/hello2.txt
/Users/cxhuan/Downloads/globtest/hello/hello1.txt

我们也可以对文件或者文件夹进行过滤:


for p in glob.glob('/Users/cxhuan/Downloads/globtest/hello/*3.txt'):
    print(p)

上面代码值匹配 hello 目录下的文件名末尾为 ‘3’ 的 txt 文件,运行结果如下:

/Users/cxhuan/Downloads/globtest/hello/hello3.txt

使用 ? 匹配

我们可以用问号(?)匹配任何单个的字符。


for p in glob.glob('/Users/cxhuan/Downloads/globtest/hello/hello?.txt'):
    print(p)

上面的代码输出 hello 目录下的以 ‘hello’ 开头的 txt 文件,输出结果如下:


/Users/cxhuan/Downloads/globtest/hello/hello3.txt
/Users/cxhuan/Downloads/globtest/hello/hello2.txt
/Users/cxhuan/Downloads/globtest/hello/hello1.txt

使用 [] 匹配

我们可以使用 [] 来匹配一个范围:


for p in glob.glob('/Users/cxhuan/Downloads/globtest/hello/*[0-2].*'):
    print(p)

我们想要得到 hello 目录下的文件名结尾数字的范围为 0到2的文件,运行上面代码,获得的输出为:

/Users/cxhuan/Downloads/globtest/hello/hello2.txt
/Users/cxhuan/Downloads/globtest/hello/hello1.txt

glob.iglob 方法

python 的 glob 方法可以对文件夹下所有文件进行遍历,并返回一个 list 列表。而 iglob 方法一次只获取一个匹配路径。下面是一个简单的例子来说明二者的区别:

p = glob.glob('/Users/cxhuan/Downloads/globtest/hello/hello?.*')
print(p)

print('----------------------')

p = glob.iglob('/Users/cxhuan/Downloads/globtest/hello/hello?.*')
print(p)

运行上面代码,结果返回是:


['/Users/cxhuan/Downloads/globtest/hello/hello3.txt''/Users/cxhuan/Downloads/globtest/hello/hello2.txt''/Users/cxhuan/Downloads/globtest/hello/hello1.txt']
----------------------
<generator object _iglob at 0x1040d8ac0>

从上面的结果我们可以很容易看到二者的区别,前者返回的是一个列表,后者返回的是一个可迭代对象。

我们针对这个可迭代对象做一下操作看看:

p = glob.iglob('/Users/cxhuan/Downloads/globtest/hello/hello?.*')
print(p.__next__())
print(p.__next__())

运行结果如下:

/Users/cxhuan/Downloads/globtest/hello/hello3.txt
/Users/cxhuan/Downloads/globtest/hello/hello2.txt

我们可以看到,针对这个可迭代对象,我们一次可以获取到一个元素。这样做的好处是节省内存,试想如果一个路径下有大量的文件夹或者文件,我们使用这个迭代对象不用一次性全部获取到内存,而是可以慢慢获取。

总结

今天分享的模块虽然功能简单,但是对于我们遍历文件或者目录来说足够使用了,并且方法简单易懂,值得大家常常使用。如果你觉得今天分享的模块有用,点个“”支持一下吧!

© 版权声明

相关文章

2025 年的 AIGC 浪潮,你赶上了吗?AIGC 技术正以摧枯拉朽之势,重塑各行各业的格局,从内容创作到电商营销,从影视娱乐到智能教育,到处都有它的身影。据权威数据预测,2025 年 AIGC 市场规模将突破万亿,可人才缺口却高达 200 万 +,这意味着什么?这意味着机遇,一个让你逆袭的绝佳机遇!而拿下 AIGC 应用工程师证书,就是抓住这个机遇的关键。【权威认证,行业硬通货】我们考的这个 AIGC 应用工程师证书,由工信部教育与考试中心颁发。工信部的权威性不言而喻,这张证书就是你踏入 AIGC 行业的 “金字招牌”。它是企业招聘 AIGC 岗位的重要筛选标准,在腾讯、字节跳动等大厂,以及众多中小科技企业中,都有着极高的认可度。有了它,你在求职时就能脱颖而出,获得优先录用的机会。【薪资诱人,职业发展无忧】薪资方面,AIGC 应用工程师简直不要太香。初级工程师月薪轻松 1.5 万 – 3 万,随着经验积累和技能提升,资深专家年薪 60 万 – 150 万都不在话下,甚至大模型训练工程师年薪超 200 万。而且职业发展路径十分清晰,从初级工程师起步,逐步晋升为 AIGC 产品经理、技术总监,或者转型成为自由职业者,承接高收益项目,未来晋升空间巨大。【报考条件亲民,零基础可学】很多宝子担心自己基础不够,不敢报考。别慌!中级证书报考条件超宽松,大专学历有 1 年工作经验,或者本科应届生,专业不限都能报考;高级证书要求本科学历 + 2 年 AIGC 相关经验,或者硕士学历。就算你是零基础小白,只要对 AIGC 感兴趣,愿意学习,都有机会拿下这张证书,开启高薪职业之路。【学习内容丰富,紧跟行业前沿】学习内容涵盖了当下最热门、最实用的 AIGC 技术。你将系统学习大模型原理,掌握 Stable Diffusion、Midjourney、GPT – 5 等主流工具链的使用技巧,学会进行大模型微调(LoRA、P – Tuning)、提示词工程优化,了解多模态生成技术以及 AI 版权合规审查等重要知识。这些技能都是企业急需的,学完就能直接应用到工作中。【报考流程简单,拿证快人一步】报考流程也很简单。首先,通过工x部教考中心官网核验,选择正规的授权机构提交报名材料,包括身份证、学历证明、2 寸蓝底照等。然后,开通线上课程,开启系统学习之旅,完成培训并取得合格证明。每年 3 月、6 月、9 月、12 月参加机考,考试时间 120 分钟,线上或线下形式都有。考后 15 天就能查成绩,60 分合格,45 天左右就能拿到官网可查的证书,快人一步踏入 AIGC 高薪赛道。不管你是技术转型者,想从传统编程领域转向 AIGC 工程化方向;还是创意从业者,如设计师、文案策划,希望借助 AI 提升创作效率;亦或是企业管理者,想布局 AIGC 战略,为企业赋能;甚至是大学生,想在毕业时增加就业竞争力,这个证书都非常适合你。别再犹豫了,抓住这波 AIGC 的风口,考下 AIGC 应用工程师证书,让自己的职业发展更上一层楼。#AIGC #考证 #高

暂无评论

none
暂无评论...