『YOLO』| 断点训练、解决训练中断异常情况

🕗 发布于 2024-11-05 19:37 YOLO 深度学习 人工智能 卷积目标检测

文章目录

方法一
方法二

当yolo在训练的时候，如果训练中断或者出现异常，可通过修改代码，从上一次断掉处重新训练，实现断点续训。

方法一

第一种方法：
按照官方给出的恢复训练代码，用yolo命令格式，这种情况必须是环境以安装了yolo和ultralytics两个包：

运行命令

yolo task=detect mode=train model=runs/detect/exp/weights/last.pt data=ultralytics/datasets/test.yaml epochs=100 save=True resume=True

方法二

在ultralytics/yolo/engine/trainer.py中找到check_resume和resume_training。
注释check_resume中resume = self.args.resume，改成需要断点恢复的last.pt。
在resume_training里面添加一行ckpt的值：

def check_resume(self):
        # resume = self.args.resume # 注释掉这一行
        resume = 'runs/detect/exp/weights/last.pt'; # 从最后的last.pt开始继续训练
        if resume:
            try:
                last = Path(
                    check_file(resume) if isinstance(resume, (str,
                                                              Path)) and Path(resume).exists() else get_latest_run())
                self.args = get_cfg(attempt_load_weights(last).args)
                self.args.model, resume = str(last), True  # reinstate
            except Exception as e:
                raise FileNotFoundError("Resume checkpoint not found. Please pass a valid checkpoint to resume from, "
                                        "i.e. 'yolo train resume model=path/to/last.pt'") from e
        self.resume = resume
 
    def resume_training(self, ckpt):
        ckpt = torch.load('runs/detect/exp/weights/last.pt') # 加载预训练模型
        if ckpt is None:
            return
        best_fitness = 0.0
        start_epoch = ckpt['epoch'] + 1
        if ckpt['optimizer'] is not None:
            self.optimizer.load_state_dict(ckpt['optimizer'])  # optimizer
            best_fitness = ckpt['best_fitness']
        if self.ema and ckpt.get('ema'):
            self.ema.ema.load_state_dict(ckpt['ema'].float().state_dict())  # EMA
            self.ema.updates = ckpt['updates']
        if self.resume:
            assert start_epoch > 0, \
                f'{self.args.model} training to {self.epochs} epochs is finished, nothing to resume.\n' \
                f"Start a new training without --resume, i.e. 'yolo task=... mode=train model={self.args.model}'"
            LOGGER.info(
                f'Resuming training from {self.args.model} from epoch {start_epoch + 1} to {self.epochs} total epochs')
        if self.epochs < start_epoch:
            LOGGER.info(
                f"{self.model} has been trained for {ckpt['epoch']} epochs. Fine-tuning for {self.epochs} more epochs.")
            self.epochs += ckpt['epoch']  # finetune additional epochs
        self.best_fitness = best_fitness
        self.start_epoch = start_epoch

最后记住，断点续训结束后，将trainer.py还原，否则影响下次训练！！！！！！

原文地址：https://blog.csdn.net/weixin_46264660/article/details/143489208

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：golang函数类型Function Types
下一篇：飞牛NAS docker compose环境下自建远程桌面服务：rustdesk

parseInt 是一个内置的 JavaScript 函数，用于将字符串转换为整数。
确保将从页面加载参数中获取的字符串转换为十进制整数，从而避免后续逻辑中可能出现的类型不匹配问题。
阅读更多2024-11-07
ERP学习笔记-预处理eeglab
import data：读取收集到的原始数据文件.vhdr格式读取后的样子：将数据保存为.set文件。
阅读更多2024-11-07
ORB-SLAM2源码学习：ORBextractor.cc：ComputePyramid构建图像金字塔①
这部分函数是根据输入的图像矩阵构建图像金字塔，这是 ORB（Oriented FAST and Rotated BRIEF）特征提取算法的一部分。在ORB算法中，通过对图像进行多尺度处理，可以在不同尺
阅读更多2024-11-07
使用PyCharm连接虚拟机运行spark任务，本地开发：远程提交测试
在本地写代码，右键运行，将代码自动提交到集群上。spark是Standalone集群。
阅读更多2024-11-07
【K8S系列】Kubernetes Pod节点CrashLoopBackOff 状态及解决方案详解【已解决】
在 Kubernetes 中，Pod 的状态为 **`CrashLoopBackOff`** 表示某个容器在启动后崩溃，Kubernetes> 尝试重启该容器，但由于持续崩溃，重启的间隔时间逐渐
阅读更多2024-11-07
可信赖的 UI 设计公司：蓝亭妙微多年经验铸就品质保障
凭借兰亭妙微十余年的专业积累，形成了完善的设计服务流程和专业积累，关注国外行业产品，不断学习和提升，形成先进的方法论，并在项目中验证落地。针对不同行业，不同用户和产品设计相应的用户访谈问题、小组交谈主
阅读更多2024-11-07
LSTM结构原理
LSTM原理结构
阅读更多2024-11-07
uniapp 集成 uview
注意：HBuildX新建项目时必须选择vue2版本，vue3会不支持uview。中，引入并使用uView的JS库，注意这两行要放在。
阅读更多2024-11-07
uniapp radio单选
">">"/>
阅读更多2024-11-07
Linux中级（防火墙iptables）
是自1.2.9以后版本的iptables新增的表，用于是否对该数据包进行状态跟踪，在匹配数据包时，raw表的规则要优先于其他表，包含两个规则链，OUTPUT、PREROUTING.注释：当默认策略为拒
阅读更多2024-11-07

『YOLO』| 断点训练、解决训练中断异常情况

文章目录

方法一

方法二

相关文章