python并行计算---concurrent.futures模块的使用方法

🕗 发布于 2024-11-17 13:36 python 开发语言 并行

python并行计算---concurrent.futures模块的使用方法

1. 选择多线程ThreadPoolExecutor和多进程ProcessPoolExecutor的经验法则
2.一个重CPU计算的例子，对比顺序执行、多线程、多进程的耗时情况
3. 为什么进程池ProcessPoolExecutor只有可序列化的对象可以执行并返回
4. submit与map方法
map和submit处理多参函数

concurrent.futures提供了两种Executor的子类分别为: ThreadPoolExecutor和ProcessPoolExecutor。前者创建一个可以提交作业的线程池，后者创建一个进程池。

1. 选择多线程ThreadPoolExecutor和多进程ProcessPoolExecutor的经验法则

执行重 I/O 操作的任务 (IO 密集型) 选择 ThreadPoolExecutor，例如请求网页数据，文件读写等涉及网络、磁盘 I/O 相关的内容。
需要注意的是，线程池会受到python的全局解释器(GIL)的影响，如果使用多线程处理重CPU的任务，耗时很大可能性还不如顺序执行。但在 I/O 密集型任务中，线程大部分时间都在等待 I/O 操作完成（如网络下载、磁盘读写），而不是执行 CPU 计算。Python 的 GIL 在线程等待 I/O 时会释放锁，使得其他线程可以继续运行。这意味着在 I/O 密集型任务中，GIL 的影响并不明显，多线程仍然可以显著提高性能
执行重 CPU 的任务 (CPU 密集型) 选择 ProcessPoolExecutor，例如大量消耗 CPU 的数学与逻辑运算、视频编解码等内容。
ProcessPoolExecutor可以避开 GIL 的问题，但是由于需要传递参数给工作进程，所以正常情况下只有可序列化的对象可以执行并返回(具体解释见小标3)

2.一个重CPU计算的例子，对比顺序执行、多线程、多进程的耗时情况

import concurrent.futures
import time

number_list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

def evaluate_item(x):
    result_item = count(x)
    # return result_item

def count(number) :
    for i in range(0, 10000):
        i=i+1
    # return i * number

if __name__ == "__main__":
    # 顺序执行
    startTime = time.time()
    for item in number_list:
            # print(evaluate_item(item))
            evaluate_item(item)
    print("Sequential execution use {} s".format(time.time() - startTime))

    # 线程池执行
    startTime1 = time.time()
    with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor:
            futures = [executor.submit(evaluate_item, item) for item in number_list]

            for future in concurrent.futures.as_completed(futures):
                    # print(future.result())
                    future.result()

    print ("Thread pool execution use {} s".format(time.time() - startTime1))

    # 进程池
    startTime2 = time.time()
    with concurrent.futures.ProcessPoolExecutor(max_workers=5) as executor:
            futures = [executor.submit(evaluate_item, item) for item in number_list]

            for future in concurrent.futures.as_completed(futures):
                    # print(future.result())
                    future.result()

    print ("Process pool execution {} s".format(time.time() - startTime2))

Sequential execution use 0.004363298416137695 s
Thread pool execution use 0.01605534553527832 s
Process pool execution 0.4858131408691406 s

从计算结果来看，对于这种重cpu的计算，线程池方式不如进程池，甚至于不如进程池

3. 为什么进程池ProcessPoolExecutor只有可序列化的对象可以执行并返回

3.1 什么是可序列化的对象？

在 Python 中，可序列化的对象意味着该对象可以被“序列化”（即转换成字节流），然后在不同进程之间传递。Python 使用 pickle 模块来实现这种序列化，因此所有传递给 ProcessPoolExecutor 的参数和返回值都必须是 pickle 支持的类型（例如基本数据类型、列表、字典、元组等）。

3.2 为什么这会带来限制？

Python 的大多数基础数据类型都是可序列化的，但某些复杂类型（例如打开的文件句柄、网络连接、锁对象等）是不可序列化的。如果你尝试将这些不可序列化的对象传递给 ProcessPoolExecutor 的子进程，会导致 pickle 抛出错误。

示例1
以下是一个使用 ProcessPoolExecutor 的示例：
- 正常情况：传递可序列化对象
  假设你有一个简单的 CPU 密集型任务（如计算平方），可以将整数列表作为输入传递给子进程，因为整数是可序列化的。

from concurrent.futures import ProcessPoolExecutor

def square(x):
    return x * x

if __name__ == "__main__":
    with ProcessPoolExecutor() as executor:
        numbers = [1, 2, 3, 4, 5]
        results = list(executor.map(square, numbers))
    print(results)  # 输出: [1, 4, 9, 16, 25]

在这个示例中：
square 函数被传递给子进程执行，numbers 列表的每个元素 x 被传递给 square。
由于整数是可序列化的对象，ProcessPoolExecutor 能够正常处理并返回结果。

示例2
- 不可序列化对象的情况
  如果尝试在多进程中传递一个不可序列化的对象（例如打开的文件句柄），则会导致错误：

from concurrent.futures import ProcessPoolExecutor

def read_file(file):
    return file.read()

if __name__ == "__main__":
    with open("example.txt", "r") as file:
        with ProcessPoolExecutor() as executor:
            # 尝试传递文件句柄
            results = list(executor.map(read_file, [file]))  # 将会抛出序列化错误

在这个示例中：文件句柄 file 被传递给 read_file 函数，但由于文件句柄不可序列化，ProcessPoolExecutor 会抛出错误，无法传递该对象给子进程。

3.3 怎么解决解决不可序列化对象的限制

如果遇到不可序列化对象，通常可以通过以下方式解决：

在子进程中重新创建资源：在子进程中打开文件或建立数据库连接，而不是在主进程中传递这些资源。

def read_file(filename):
    with open(filename, "r") as file:
        return file.read()

if __name__ == "__main__":
    with ProcessPoolExecutor() as executor:
        results = list(executor.map(read_file, ["example.txt"]))

只传递路径或标识：传递文件路径等可序列化的标识，而不是直接传递不可序列化的对象（如文件句柄）

4. submit与map方法

ProcessPoolExecutor和ThreadPoolExecutor类中最重要的 2 个方法如下:

submit提交任务，并返回 Future 对象代表可调用对象的执行。
map和 Python 自带的 map 函数功能类似，只不过是以异步的方式把函数依次作用在列表的每个元素上。
如果一次性提交一批任务可以使用map，如果单个任务提交用submit

可以简单参考如下脚本：
其中process_single_line是个单参数函数，另外注意这种多线程对进程的方式，并不仅仅面对单参函数，多参数函数也一样使用，就在submit或者map后的参数新增就行。见小标5

        # 多线程ThreadPoolExecutor模式
        with ThreadPoolExecutor(max_workers = args.num_worker) as executor:

            # # submit提交
            # results = [executor.submit(self.process_single_line, line) for line in lines]
            # for future in tqdm(concurrent.futures.as_completed(results), total=len(lines)):
            #     relative, absoluted = future.result()
            #     self.outputJsonListRelative.append(relative)
            #     self.outputJsonListAbsoluted.append(absoluted)   

            # map提交
            results = list(tqdm(executor.map(self.process_single_line, lines), total=len(lines)))
            for relative, absoluted in results:
                self.outputJsonListRelative.append(relative)
                self.outputJsonListAbsoluted.append(absoluted)

        # # 多线程ThreadPoolExecutor模式
        # with ProcessPoolExecutor(max_workers = args.num_worker) as executor:

        #     # submit提交
        #     results = [executor.submit(self.process_single_line, line) for line in lines]
        #     for future in tqdm(concurrent.futures.as_completed(results), total=len(lines)):
        #         relative, absoluted = future.result()
        #         self.outputJsonListRelative.append(relative)
        #         self.outputJsonListAbsoluted.append(absoluted)   

        #     # # map提交
        #     # results = list(tqdm(executor.map(self.process_single_line, lines), total=len(lines)))
        #     # for relative, absoluted in results:
        #         # self.outputJsonListRelative.append(relative)
        #         # self.outputJsonListAbsoluted.append(absoluted)

map和submit处理多参函数

submit

from concurrent.futures import ThreadPoolExecutor

# 定义 process 函数
def process(a, b):
    return a + b

A = [1, 2, 3, 4, 5]
B = [11, 12, 13, 14, 15]

# 使用 submit 提交任务
with ThreadPoolExecutor() as executor:
    futures = [executor.submit(process, a, b) for a, b in zip(A, B)]
    
    # 获取结果
    results = [future.result() for future in futures]

print(results)  # 输出: [12, 14, 16, 18, 20]

from concurrent.futures import ThreadPoolExecutor

# 定义 process 函数
def process(a, b):
    return a + b

A = [1, 2, 3, 4, 5]
B = [11, 12, 13, 14, 15]

# 使用 map 提交任务
with ThreadPoolExecutor() as executor:
    results = list(executor.map(process, A, B))

print(results)  # 输出: [12, 14, 16, 18, 20]

原文地址：https://blog.csdn.net/qhu1600417010/article/details/143732454

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：两个方法，取消excel数据隐藏
下一篇：python异常处理——try

[产品管理-85]：《产品经理从入门到精通》- 创业公司的产品经理
目录一、概述1、创业公司产品经理的角色与定位2、创业公司产品经理的核心能力3、创业公司产品经理的实战技巧4、创业公司产品经理的挑战与应对策略二、创业公司的产品经理与大公司产品经理的比较1、工作环境与资
阅读更多2024-11-18
《TCP/IP网络编程》学习笔记 | Chapter 13：多种 I/O 函数
《TCP/IP网络编程》学习笔记 | Chapter 13：多种 I/O 函数
阅读更多2024-11-18
解决IntelliJ IDEA的Plugins无法访问Marketplace去下载插件
勾选并填入代理URL，可以先做检查连接：
阅读更多2024-11-18
STM32读写内部FLASH
本文是学习野火的指南针开发板过程的学习笔记，可能有误，详细请看B站野火官方配套视频教程（这个教程真的讲的很详细，请给官方三连吧）在STM32芯片内部有一个FLASH存储器，它主要用于存储代码，我们在电
阅读更多2024-11-18
【STM32】基于SPI协议读写SD，详解！
因为项目需要，使用stm32读写sd卡，这一块网上的资料很多，但是比较杂乱。有些是不能跑，有些是代码可以跑，但是相关的注释或者配置方法、流程不够清晰明确，于是花了几天时间，研究了几个成功案例之后，总结
阅读更多2024-11-18
Java基础（9）本地API
哈喽大家好啊，Java基础的学习马上就要告一段落了，今儿分享的是一些Java常用的本地API，让我们开始吧。
阅读更多2024-11-18
Spring gateway 路由配置在数据库
#spring gateway ServerRoute实体类。##spring gateway 查询动态路由mapper。##Spring gateway 动态路由Service。##spring g
阅读更多2024-11-18
i春秋-FUZZ（python模板注入、base64编码命令执行）
i春秋-FUZZ（python模板注入、base64编码命令执行）
阅读更多2024-11-18
Spring 4.3 源码导读
Spring 4 是一个功能强大的 Java 应用程序框架，广泛用于企业级应用开发。理解其核心代码有助于开发者更好地使用和优化 Spring 框架。
阅读更多2024-11-18
【Rabbitmq篇】RabbitMQ⾼级特性----消息确认
介绍RabbitMQ⾼级特性----消息确认
阅读更多2024-11-18

python并行计算---concurrent.futures模块的使用方法

python并行计算---concurrent.futures模块的使用方法

1. 选择多线程ThreadPoolExecutor和多进程ProcessPoolExecutor的经验法则

2.一个重CPU计算的例子，对比顺序执行、多线程、多进程的耗时情况

3. 为什么进程池ProcessPoolExecutor只有可序列化的对象可以执行并返回

3.1 什么是可序列化的对象？

3.2 为什么这会带来限制？

3.3 怎么解决解决不可序列化对象的限制

4. submit与map方法

map和submit处理多参函数

相关文章