论文3—《基于改进 YOLOv5s 的复杂环境下新梅检测方法》文献阅读分析报告
论文报告:基于改进 YOLOv5s 的复杂环境下新梅检测方法
论文报告文档
标题
基于改进 YOLOv5s 的复杂环境下新梅检测方法
摘要
本研究旨在解决新梅在树干树叶遮挡、果实重叠情况下难以准确检测的问题,提出了新梅目标检测模型 SFFYOLOv5s。通过在 YOLOv5s 模型的基础上引入 CA(coordinate attention)注意力机制、加权双向特征金字塔网络,并替换损失函数为 SIoU,提高了模型的检测准确率和速度。实验结果表明,SSF-YOLOv5s 模型在新梅检测准确率为 93.4%,召回率为 92.9%,平均精度均值为 97.7%,模型权重仅为 13.6MB,单幅图像平均检测时间为 12.1ms,相较于其他模型有显著提升,能够满足果园复杂环境下对新梅进行实时检测的需求。
文献的目的
该研究的目的是提高新梅在复杂果园环境下的检测准确率和速度,以支持新梅采摘机器人的视觉感知环节,减少人工采摘的需求,提高采摘效率。
研究问题
研究主要解决的问题是如何提高新梅在果园中树干树叶遮挡、果实重叠等复杂环境下的检测准确率和速度。
使用的方法
-
数据集构建:在真实果园环境下构建新梅数据集,采集不同光照、姿态、遮挡情况下的新梅图像。
-
模型改进:
- 在 Backbone 骨干网络 C3 模块中引入 CA 注意力机制。
- 在 Neck 层中引入加权双向特征金字塔网络。
- 使用 SIoU 损失函数替换原模型中的 CIoU 损失函数。
-
数据增强:包括离线增强和 Mosaic 在线增强,以增加图像数据的多样性和鲁棒性。
-
模型训练与测试:使用改进后的模型在训练集、验证集和测试集上进行训练和测试。
主要发现
- SSF-YOLOv5s 模型在新梅检测的准确率、召回率和平均精度均值上均有显著提升。
- 模型在轻量化方面表现优异,权重仅为 13.6MB,单幅图像平均检测时间为 12.1ms。
- 与 Faster R-CNN、YOLOv3、YOLOv4、YOLOv5s、YOLOv7、YOLOv8s 等模型相比,SSF-YOLOv5s 在平均精度均值上分别提升了 3.6、6.8、13.1、0.6、0.4、0.5 个百分点。
作者的结论
SSF-YOLOv5s 模型能够有效提高新梅在果园复杂环境下的检测准确率和速度,满足实时检测的需求,为新梅采摘机器人的视觉感知提供了技术支持。
创新点
- CA 注意力机制的引入:在 YOLOv5s 的 Backbone 网络中引入 CA 注意力机制,增强了模型对新梅关键特征信息的提取能力。
- 加权双向特征金字塔网络:在 Neck 层中引入该网络,增强了模型不同特征层之间的融合能力,提高了对重叠果实的识别能力。
- SIoU 损失函数的应用:替换原模型中的 CIoU 损失函数,提高了模型的检测准确率和收敛速度。
对现有研究的贡献
本研究通过改进 YOLOv5s 模型,提供了一种新的解决方案来提高新梅在复杂环境下的检测性能,对农业自动化采摘技术的发展具有重要意义。此外,该研究的方法和发现可以推广到其他农作物果实的检测,为农业智能化提供了技术支持。
针对上述论文内容,以下是一些有效的参考资料,可以帮助您更深入地了解相关领域和技术:
1. YOLO系列模型
- Redmon, J., Divakaran, A., Girshick, R., & Farhadi, A. (2016). You Only Look Once: Unified, Real-Time Object Detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
- Redmon, J., & Farhadi, A. (2018). YOLOv3: An Incremental Improvement. arXiv preprint arXiv:1804.02767.
- Bochkovskiy, A., Wang, C., & Liao, H. Y. M. (2020). YOLOv4: Optimal Speed and Accuracy of Object Detection. arXiv preprint arXiv:2004.02864.
2. 注意力机制
- Hu, J., Shen, L., & Sun, G. (2018). Squeeze-and-Excitation Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(8), 2011-2013.
- Woo, S., Park, J., Lee, J. Y., & Kweon, I. (2018). CBAM: Convolutional Block Attention Module. In Proceedings of the European Conference on Computer Vision (ECCV).
- Wang, Q., Wu, B., Zhu, P., & Zhang, L., et al. (2020). ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence.
3. 特征金字塔网络
- Lin, T. Y., Dollár, P., & Girshick, R., et al. (2017). Feature Pyramid Networks for Object Detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
4. 损失函数
- Lin, T. Y., Goyal, P., Girshick, R., et al. (2018). Focal Loss for Dense Object Detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV).
- Gevorgyan, Z. (2022). SIoU Loss: More Powerful Learning for Bounding Box Regression. arXiv preprint arXiv:2004.01888.
5. 农业机器人与自动化
- Wang, R., Zhu, L., Zhao, B., et al. (2022). Current Status and Typical Applications of Agricultural Robot Technology. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 12(4), 5-11.
- Zhang, Y. F., Ren, W., Zhang, Z., et al. (2022). Focal and Efficient IoU Loss for Accurate Bounding Box Regression. Neurocomputing, 506, 146-157.
6. 深度学习与图像处理
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
- Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. In Advances in Neural Information Processing Systems (NIPS).
这些资料涵盖了从基础的深度学习理论到具体的技术实现,以及农业自动化领域的最新研究进展,对于深入理解和扩展论文中提到的技术和方法非常有帮助。
原文地址:https://blog.csdn.net/weixin_44445800/article/details/143628162
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!