背景#
前几天网上下载了一个 100G 的数据集,里边有几万个文件。然而,由于制作压缩包的人使用的是 macOS,我解压后,发现每个文件都有一个以._
开头的的副本,例如有一个文件是sub_12345
,就会有一个对应的._sub_12345
,这个副本文件没有用处,但是在 windows 下能看见,不仅看着难受,而且还影响后续程序读取文件。
python 脚本批量删除#
核心是使用os.walk
模块进行处理:
import os
data_dir = './test/'
for root, subdir, filename in os.walk(data_dir, topdown=False):
if filename.startswith('._'):
os.remove(os.path.join(root, filename))
以上就是脚本,特别简单。因为os.walk
实现了递归读取文件夹,使得任务简单了很多。