使用Python查找大文件的实用脚本

🕗 发布于 2024-11-07 18:07 python

C盘满了，写了一个python脚本，2分多钟能找到比较大的文件，然后手动删除或者迁移D盘，最后发现是微信小程序开发工具缓存文件太多了，腾出来10个G念头通达了，这里备份一下脚本。

运行工具：PyCharm 2024.1.3 (Community Edition)

【完整代码】

import os
import threading
import time
import sys
from threading import Event

def is_large(file_path, threshold_mb):
    """判断文件大小是否超过指定MB阈值"""
    return os.path.getsize(file_path) / (1024 * 1024) > threshold_mb

def show_loading_animation(stop_event, interval=0.5):
    """显示简易的文本加载动画，直到接收到停止信号"""
    loading_chars = ['.', '..', '...', '....']
    total_cycles = int(interval * 10)
    cycle_length = 10

    for _ in range(total_cycles):
        for char in loading_chars:
            for _ in range(cycle_length):
                sys.stdout.write('\r正在查找大文件... ' + char)
                sys.stdout.flush()
                time.sleep(interval / cycle_length)
            sys.stdout.write('\r正在查找大文件... ' + loading_chars[0])
            sys.stdout.flush()

def filter_files(files, skip_file_keywords, include_file_keywords, extension=None):
    """根据文件名关键词和扩展名过滤文件列表"""
    filtered_files = [file for file in files if (not skip_file_keywords or all(keyword not in file for keyword in skip_file_keywords)) and
                      (not include_file_keywords or any(keyword in file for keyword in include_file_keywords))]
    if extension is not None:
        filtered_files = [file for file in filtered_files if file.endswith('.' + extension)]
    return filtered_files

def filter_dirs(dirs, skip_dir_keywords, include_dir_keywords):
    """根据目录名关键词过滤目录列表"""
    return [dir for dir in dirs if (not skip_dir_keywords or all(keyword not in dir for keyword in skip_dir_keywords)) and
             (not include_dir_keywords or any(keyword in dir for keyword in include_dir_keywords))]

def get_all_large_files_with_loading(dir_path, threshold_mb, skip_dir_keywords, skip_file_keywords, include_dir_keywords, include_file_keywords, extension=None, interval=0.5):
    """查找目录下所有大于指定大小的文件，同时跳过或仅包括特定关键词的文件夹及文件名称，并显示加载动画直到完成"""
    start_time = time.time()
    stop_event = Event()
    large_files = []
    loading_thread = threading.Thread(target=show_loading_animation, args=(stop_event, interval))
    loading_thread.daemon = True
    loading_thread.start()

    try:
        for root, dirs, files in os.walk(dir_path):
            dirs[:] = filter_dirs(dirs, skip_dir_keywords, include_dir_keywords)
            filtered_files = filter_files(files, skip_file_keywords, include_file_keywords, extension)
            for file in filtered_files:
                full_path = os.path.join(root, file)
                try:
                    if is_large(full_path, threshold_mb):
                        file_info = {'path': full_path, 'size': os.path.getsize(full_path) / 1024 / 1024}
                        large_files.append(file_info)
                except Exception as e:
                    print(f"警告访问文件出错 {full_path} 出错信息: {e}")

    finally:
        stop_event.set()
        loading_thread.join()
    large_files.sort(key=lambda x: x['size'], reverse=True)
    for file_info in large_files:
        print(f"文件路径: {file_info['path']} | 文件大小: {file_info['size']:.2f} MB")

    end_time = time.time()
    print(f"\n查找共耗时: {end_time - start_time:.2f} 秒")

def main():
    dir_path = input("请输入要检查的目录路径: ")
    try:
        threshold_mb = float(input("请输入文件大小阈值(单位: MB): "))
        skip_dir_keywords = input("请输入要跳过的文件夹名关键词，用逗号分隔(直接回车跳过，推荐modules,~~,.gradle): ").split(',')
        skip_file_keywords = input("请输入要跳过的文件名关键词，用逗号分隔(直接回车跳过，推荐$): ").split(',')
        include_dir_keywords = input("请输入要包含的文件夹名关键词，用逗号分隔(直接回车跳过): ").split(',')
        include_file_keywords = input("请输入要包含的文件名关键词，用逗号分隔(直接回车跳过): ").split(',')
        extension = input("请输入要筛选的文件扩展名(例如：txt，可选，直接回车跳过): ").strip('.') or None
        get_all_large_files_with_loading(dir_path, threshold_mb, skip_dir_keywords, skip_file_keywords, include_dir_keywords, include_file_keywords, extension)
        print("搜索结束.")
    except ValueError:
        print("错误：请输入有效的数字作为文件大小阈值.")
    except OSError as e:
        print(e)

if __name__ == '__main__':
    main()

原文地址：https://blog.csdn.net/zhongcongxu01/article/details/143474937

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ELK Stack与Graylog：强大的日志分析和可视化工具
下一篇：猜字谜华为OD

如何有效销售和应用低代码软件？探索其市场机会与策略
综上所述，有效销售和应用低代码软件是一个涉及多方面的复杂过程。我们需要充分认识其优势和市场需求，建立强大的合作伙伴网络，并提供定制化的解决方案。同时，还需要优化销售策略，加强培训和技术支持。通过上述措
阅读更多2024-11-08
C字符串 | 字符串处理函数 | 使用 | 原理 | 实现
字符串是一系列字符组成的序列，C语言中字符串以\0结尾。
阅读更多2024-11-08
深入学习指针（5）！！！！！！！！！！！！！！！
时，被调⽤的函数就是回调函数。回调函数不是由该函数的实现⽅直接调⽤，⽽是在特定的事件或条。如果你把函数的指针（地址）作为参数传递给另⼀个函数，当这个指针被⽤来调⽤其所指向的函数。strcpm比较俩字符
阅读更多2024-11-08
eval: jdk1.8.0_431/jre/bin/java: Permission denied
当您在启动Tomcat或其他Java应用时遇到“Permission denied”错误，这通常表示当前用户没有执行指定Java可执行文件的权限。
阅读更多2024-11-08
数字信号处理Python示例（8）使用复数指数函数生成正弦函数和余弦函数
首先给出使用复数指数函数生成正弦函数和余弦函数的数学表达式，然后给出Python仿真代码，并绘制了生成的函数图形，最后给出了仿真分析。
阅读更多2024-11-08
基于SSM（Spring + Spring MVC + MyBatis）框架的文物管理系统
用户管理：管理员可以添加、删除、修改和查询用户信息。文物管理：支持对文物信息的增删改查操作，包括文物名称、年代、类型、保存状态等。展览管理：记录展览信息，如展览名称、开始时间、结束时间、展品列表等。借
阅读更多2024-11-08
Caused by: org.apache.flink.api.common.io.ParseException: Row too short:
path为文件地址， fieldDelimiter为分隔符，文件内容是字段|字段的格式，所以fieldDelimiter为|通过flink中的flinkSql直接使用对应的connector去获取cs
阅读更多2024-11-08
【论文阅读笔记】CamoFormer: Masked Separable Attention for Camouflaged Object Detection
CamoFormer：用于隐藏目标检测的掩蔽可分离注意力TPAMI 2024PaperCode如何从背景中识别和分割隐藏的对象是一个挑战。受transformer中多头自注意的启发，提出了一种简单的掩
阅读更多2024-11-08
计算机视觉基础：OpenCV库详解
OpenCV 是一个开源的计算机视觉库，支持多种编程语言（如 C++、Python、Java 等），并在多个平台上可用（如 Windows、Linux、macOS）。OpenCV 提供了大量的图像处理
阅读更多2024-11-08
React Native的生命周期
React Native 组件的生命周期方法有助于开发者在不同阶段管理组件的行为，尤其在处理网络请求、事件监听器、定时器等副作用时，生命周期方法显得尤为重要。在实际项目中，合理使用这些生命周期方法可以
阅读更多2024-11-08

使用Python查找大文件的实用脚本

相关文章