优化算法|基于Deep-Q-Network(DQN)的邻域搜索算法求解分布式柔性作业车间调度问题

🕗 发布于 2024-11-22 06:22 算法分布式

问题描述

分布式柔性作业车间调度（Distributed FJSP，DFJSP）主要包含工序序列、机器的选择和工厂的选择三个子问题。首先将𝑛个工件分配到不同的工厂当中，然后在每个工厂为工件选择可加工的机器以及确定工件的加工顺序。该问题的主要目标是通过调整工件在哪个工厂加工、工件序列的排序以及工件选择哪台机器加工，从而实现最小化最大完工时间的目标。

分布式柔性作业车间系统示意图

模型构建

DFJSP 可描述如下：给定的 $n$ 个加工工件，在 $N_f$ 个工厂中加工，每个工厂有 $m_f$ 台机床。每个工件 $i$ 可选择在任一工厂加工。并且，每个工件 $i$ 包含
$n_i$ 道工序，工序 $O_{i,j}$ 可选在工厂 $f$ 中的 $m_{i,j,f}$ 个加工机床上加工。

DFJSP 的假设条件如下：

（1）所有工件、机器以及工厂在零时刻都可用；

（2）每个机器在同一时刻只能处理一个工序；

（3）工件在加工处理过程中不能被中断；

（4）工件的所有工序都按照预先设定好的顺序，不允许提前或者推后；

（5）一个工件只能在一个工厂中处理，同时一个工序只能在一台机器处理；

（6）不考虑机器故障和准备时间；

具体的参数、变量以及数学模型可见上一篇推文：
优化问题|文化基因算法求解分布式柔性作业车间调度问题及MATLAB代码实现

算法思路

编码规则

编码包括三部分工序顺序（operation sequence，OS), 车间分配（factory assignment，FA）, 和机器选择（machine select， MS）

初始解生成

为每个工件随机选择可生产的车间
随机产生工序加工顺序
为每道工序随机选择可加工的机器

基于Deep-Q-Network(DQN)的邻域选择模型

在算法运行不同阶段，采用合理的局部搜索算子可以有效的提高算法性能。然而，现有局部搜索算法主要是采用随机选择或按照某一顺序选择局部搜索算子。DQN是一种基于当前状态、自主选择最优动作的强化学习方法。因此，将传统算法中随机选择局部搜索算子过程，转化为由DQN推荐当前状态下的最优局部搜索算子。它的基本要素包括：状态空间、动作空间与奖励。

算法框架伪代码如下：

部分代码

N6邻域算子

def N6(p_chrom, m_chrom, f_chrom, fitness, num_job, job_operation_matrix, num_operation, time, num_machine, num_factory):
    s1 = p_chrom
    s2 = np.zeros(num_operation, dtype=int)
    p = np.zeros(num_job, dtype=int)
    for i in range(num_operation):
        p[s1[i]] = p[s1[i]] + 1
        s2[i] = p[s1[i]]
    P0 = []
    P = []
    IP = []
    FJ = []
    for f in range(num_factory):
        P.append([])
        IP.append([])
        FJ.append([])

    for i in range(num_operation):
        t1 = s1[i]
        t2 = s2[i]
        t3 = f_chrom[t1]
        P[t3].append(p_chrom[i])
        IP[t3].append(i)
    for i in range(num_job):
        t3 = f_chrom[i]
        FJ[t3].append(i)

    cf = int(fitness[2])
    CP, CB, block = FindCriticalPathDHFJSP(P[cf], m_chrom, FJ[cf], cf, num_job, job_operation_matrix, time, num_machine)
    for i in range(block):
        BL=len(CB[i])
        if BL>1:
            if i==0:
                Index1=int(np.floor(random.random()*(BL-1)))
                Index2=BL-1
                Index1=CB[i][Index1];Index2=CB[i][Index2]
                tmp=P[cf][Index1]
                for j in range(Index1,Index2):
                    P[cf][j]=P[cf][j+1]
                P[cf][Index2]=tmp
            if i==block-1:
                Index1=0
                Index2=int(np.floor(random.random()*(BL-1))+1)
                Index1 = CB[i][Index1];Index2 = CB[i][Index2]
                tmp = P[cf][Index2]
                for j in range(Index2, Index1,-1):
                    P[cf][j] = P[cf][j-1]
                P[cf][Index1] = tmp
            if i>0 and i<block-1 and BL>2:
                Index1 = int(np.floor(random.random() * (BL - 2)) + 1)
                Index2=BL-1
                Index1 = CB[i][Index1];Index2 = CB[i][Index2]
                tmp = P[cf][Index1]
                for j in range(Index1, Index2):
                    P[cf][j] = P[cf][j + 1]
                P[cf][Index2] = tmp
                Index1 = 0
                Index2 = int(np.floor(random.random() * (BL - 2)) + 1)
                Index1 = CB[i][Index1];Index2 = CB[i][Index2]
                tmp = P[cf][Index2]
                for j in range(Index2, Index1, -1):
                    P[cf][j] = P[cf][j - 1]
                P[cf][Index1] = tmp
    newm=m_chrom
    newf=f_chrom
    newp=np.zeros(num_operation,dtype=int)
    for f in range(num_factory):
        L=len(IP[f])
        for i in range(L):
            newp[IP[f][i]]=P[f][i]
    return newp,newm,newf

DQN网络

class DQN(object):
    def __init__(self, inDim, outDim, BATCH_SIZE, LR, EPSILON, GAMMA, MEMORY_CAPACITY, TARGET_REPLACE_ITER):
        self.eval_net, self.target_net = Net(inDim, outDim), Net(inDim, outDim)
        self.N_STATES = inDim
        self.N_ACTIONS = outDim
        self.learn_step_counter = 0                                     # for target updating
        self.memory_counter = 0                                         # for storing memory
        self.BATCH_SIZE = BATCH_SIZE
        self.LR = LR
        self.EPSILON = EPSILON
        self.GAMMA = GAMMA
        self.MEMORY_CAPACITY = MEMORY_CAPACITY
        self.TARGET_REPLACE_ITER = TARGET_REPLACE_ITER
        self.optimizer = torch.optim.Adam(self.eval_net.parameters(), lr=LR)
        # self.optimizer = torch.optim.SGD(self.eval_net.parameters(), lr=LR)
        # memory是一个np数组，每一行代表一个记录，状态 动作 奖励 新的状态
        self.memory = np.zeros((MEMORY_CAPACITY, self.N_STATES * 2 + 2))     # initialize memory

        self.loss_func = nn.MSELoss()
        self.eval_net, self.target_net = self.eval_net.cuda(), self.target_net.cuda()
        self.loss_func = self.loss_func.cuda()

    def choose_action(self, x):
        x = torch.unsqueeze(torch.FloatTensor(x), 0).cuda()

        # input only one sample
        if np.random.uniform() < self.EPSILON:   # greedy
            actions_value = self.eval_net.forward(x)  # shape=(1, action)

            actions_value = actions_value.cuda()
            actions_value = actions_value.cpu()
            actions_value = actions_value.detach().numpy()

            actions_value[actions_value <= 0] = 0.001  # 不能有负概率
            actions_value = actions_value / np.sum(actions_value)  # 归一化
            action = max(actions_value)
            actions_value_ = actions_value[0]
            index = 0
            max_v = actions_value_[0]
            for i in range(1,self.N_ACTIONS):
                if max_v < actions_value_[i]:
                    index = i
                    max_v = actions_value_[i]
            max_action = np.array([index])
            for i in range(self.N_ACTIONS):
                if max_v == actions_value_[i] and index != i:
                    max_action = np.hstack((max_action, i))
            ml = len(max_action)
            if ml > 1:
                bction = random.randint(0, ml-1)
                action = max_action[bction]
            else:
                action = max_action[0]
        else:   # random
            action = np.random.randint(0, self.N_ACTIONS)   
        return action


    def learn(self):
        # target parameter update
        if self.learn_step_counter % self.TARGET_REPLACE_ITER == 0:
            self.target_net.load_state_dict(self.eval_net.state_dict())
        self.learn_step_counter += 1
        # sample batch transitions
        sample_index = np.random.choice(self.MEMORY_CAPACITY, self.BATCH_SIZE)
        b_memory = self.memory[sample_index, :]
        b_current_state = torch.FloatTensor(b_memory[:, :self.N_STATES])
        b_action = torch.LongTensor(b_memory[:, self.N_STATES:self.N_STATES + 1].astype(int))  
        b_reward = torch.FloatTensor(b_memory[:, self.N_STATES + 1 : self.N_STATES + 2])
        b_next_state = torch.FloatTensor(b_memory[:, - self.N_STATES:])

        b_current_state = b_current_state.cuda() # current state
        b_action = b_action.cuda() # current action
        b_reward = b_reward.cuda() # current reward
        b_next_state = b_next_state.cuda() # next state

        # q_eval w.r.t the action in experience
        q_eval = self.eval_net(b_current_state).gather(1, b_action)  # shape (batch, 1)
        q_next = self.target_net(b_next_state).detach()     # detach from graph, don't backpropagate
        q_target = b_reward + self.GAMMA * q_next.max(1)[0].view(self.BATCH_SIZE, 1)   # shape (batch, 1)
        loss = self.loss_func(q_eval, q_target)
        losses = loss.cpu()
        losses = losses.detach().numpy()
        print('train loss MSE =', losses)
        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()
        return losses

参考文献

R. Li, W. Gong, L. Wang, C. Lu and C. Dong, “Co-Evolution With Deep Reinforcement Learning for Energy-Aware Distributed Heterogeneous Flexible Job Shop Scheduling,” in IEEE Transactions on Systems, Man, and Cybernetics: Systems, doi: 10.1109/TSMC.2023.3305541.

若有运筹优化建模及算法定制需求，欢迎联系我们私聊沟通

原文地址：https://blog.csdn.net/eternal1995/article/details/143931783

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：欧洲新车安全评鉴协会（Euro NCAP）2026 年规程的 5 项关键更新
下一篇：Rust 智能指针

Spring AOP常用类：ProceedingJoinPoint、JoinPoint
本文将介绍ProceedingJoinPoint和JoinPoint这两个Spring AOP框架中最常用到的类，并简单介绍它们之间的区别
阅读更多2024-11-27
thinkphp日志记录到文件
【代码】thinkphp日志记录到文件。
阅读更多2024-11-27
react实现模拟chatGPT问答页
大概思路：使用 fetch 接受数据，然后读取数据流，解析数据，获取到需要的数据结构，然后再封装展示的方法，html 用原生js获取id实现页面的展示，展示的过程中自定义定时器，实现打字机的效果。Ev
阅读更多2024-11-27
正则表达式
1.引入2.实践3.元字符3.1转义字符3.2 元字符种类3.3 元字符实践4.选择匹配符（“或”）5.限定符6.定位符7.分组7.1 捕获分组7.2 非捕获分组8.非贪婪匹配9.正则应用实例9.1基
阅读更多2024-11-27
安全帽和反光背心使用YOLO标记的图片资源打包下载
该数据集采用 YOLO格式，包括 JPG 图像和文本格式的相应注释文件。它对于安全设备至关重要的行业（包括建筑、制造和采矿）尤其有价值。通过利用此数据集，公司可以加强安全监控并降低因安全设备不足而导致
阅读更多2024-11-27
Paper -- 建筑高度估计 -- 基于街景图像和深度学习的城区建筑高度计算
这篇文章提出了一种利用街景图像和深度学习技术计算城市建筑高度的新方法。通过优化观察点位置的遗传算法和基于Mask R-CNN的深度学习模型该方法能够高效地检测建筑并精确计算其高度实验表明，平均高度误差
阅读更多2024-11-27
＜项目代码＞YOLOv8 航拍行人识别＜目标检测＞
YOLOv8 航拍行人识别项目代码
阅读更多2024-11-27
Zookeeper实现分布式锁、Zookeeper实现配置中心
新建一个maven项目ZK-Demo,然后在pom.xml里面引入相关的依赖。包括跨进程、跨机器、跨网络导致共享资源不一致的问题。分布式锁主要用于在分布式环境中保证数据的一致性。2. Zookeepe
阅读更多2024-11-27
基于vite创建的react18项目的单元测试
最近一个小伙伴进了字节外包，第一个活就是让他写一个单元测试。嗯，说实话，在今天之前我只知道一些理论，但是并没有实操过，于是我就试验了一下。通过查询资料，大拿们基本都说基于vite的项目，用vitest
阅读更多2024-11-27
.NET9 - Swagger平替Scalar详解（四）
本文分享Swagger中常用功能在Scalar中的使用，包括版本说明、接口分类、接口及参数描述、枚举类型、文件上传和JWT认证等，并提供相关代码示例和效果展示，以及可能遇到的问题和解决方案。
阅读更多2024-11-27