OpenCV Python 深度指南

🕗 发布于 2024-09-20 11:03 开发语言 opencv python 计算机视觉 人工智能

OpenCV（Open Source Computer Vision Library）是一个开源的计算机视觉库，它包含了大量的图像处理和机器视觉算法。OpenCV支持多种编程语言，包括C++和Python，其中Python接口因其易用性和灵活性而受到广泛欢迎。
在这里插入图片描述
本指南将覆盖以下几个方面：

OpenCV简介
OpenCV安装与配置
图像基础
视频处理
图像处理
- 颜色空间转换
- 边缘检测
- 图像平滑
- 图像形态学
特征检测与描述
高级应用
- 人脸识别
- 目标检测
性能优化技巧
结论

1. OpenCV简介

1.1 开发历史

OpenCV是由Intel在1999年开始的一个项目，后来被Itseez公司接手，目前由其维护。Itseez被Autodesk收购后，OpenCV继续作为开源项目发展。

1.2 主要特性

跨平台：支持Windows、Linux、Mac OS X等操作系统。
免费开源：遵循BSD许可，允许商业和研究用途。
丰富的功能：包括图像处理、视频分析、模式识别、机器学习等。
高性能：利用多线程、硬件加速等技术提高性能。

1.3 架构

核心模块

core：基本运算和数据结构。
imgproc：图像处理函数。
highgui：GUI操作，如窗口管理、图像和视频捕获。

附加模块

features2d：特征检测和描述。
objdetect：目标检测。
calib3d：相机校准和3D重建。
ml：机器学习算法。

第三方插件

dnn：深度神经网络支持。
stereo：立体视觉。

2. OpenCV安装与配置

2.1 Python环境

确保已经安装了Python，并且版本为3.x。

2.2 安装OpenCV

通过pip安装OpenCV的Python接口：

pip install opencv-python

安装额外模块

某些高级功能可能需要额外的模块：

pip install opencv-contrib-python

2.3 测试安装

创建一个简单的Python脚本来测试安装是否成功：

import cv2

# 加载一张图像
image = cv2.imread('path/to/image.jpg')

# 显示图像
cv2.imshow('Image', image)
cv2.waitKey(0)
cv2.destroyAllWindows()

3. 图像基础

3.1 读取和显示图像

import cv2
import numpy as np

# 读取图像
img = cv2.imread('path/to/image.jpg')

# 显示图像
cv2.imshow('Image', img)
cv2.waitKey(0)
cv2.destroyAllWindows()

3.2 保存图像

cv2.imwrite('output.jpg', img)

3.3 图像属性

# 获取图像尺寸
height, width, channels = img.shape

# 获取像素值
pixel_value = img[100, 100]

# 修改像素值
img[100, 100] = [255, 0, 0]  # 设置为红色

3.4 图像切片

# 获取图像的一部分
roi = img[50:150, 50:150]

3.5 图像缩放

resized_img = cv2.resize(img, (new_width, new_height))

3.6 图像旋转

height, width = img.shape[:2]
center = (width / 2, height / 2)
angle = 45
scale = 1.0

rotation_matrix = cv2.getRotationMatrix2D(center, angle, scale)
rotated_img = cv2.warpAffine(img, rotation_matrix, (width, height))

3.7 图像裁剪与拼接

# 裁剪图像
top_left = (50, 50)
bottom_right = (200, 200)
cropped_image = img[top_left[1]:bottom_right[1], top_left[0]:bottom_right[0]]

# 拼接图像
combined_image = np.hstack((img, cropped_image))

3.8 图像翻转

# 水平翻转
flipped_horizontal = cv2.flip(img, 1)

# 垂直翻转
flipped_vertical = cv2.flip(img, 0)

4. 视频处理

4.1 从文件读取视频

cap = cv2.VideoCapture('path/to/video.mp4')

while cap.isOpened():
    ret, frame = cap.read()
    if not ret:
        break
    
    cv2.imshow('Video', frame)
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

cap.release()
cv2.destroyAllWindows()

4.2 从摄像头读取视频

cap = cv2.VideoCapture(0)  # 使用默认摄像头

while cap.isOpened():
    ret, frame = cap.read()
    if not ret:
        break
    
    cv2.imshow('Video', frame)
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

cap.release()
cv2.destroyAllWindows()

4.3 视频录制

fourcc = cv2.VideoWriter_fourcc(*'XVID')
out = cv2.VideoWriter('output.avi', fourcc, 20.0, (width, height))

while cap.isOpened():
    ret, frame = cap.read()
    if not ret:
        break
    
    out.write(frame)
    cv2.imshow('Video', frame)
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

cap.release()
out.release()
cv2.destroyAllWindows()

4.4 视频帧率调整

cap = cv2.VideoCapture('path/to/video.mp4')

fps = cap.get(cv2.CAP_PROP_FPS)
print(f"Original FPS: {fps}")

# 调整帧率为30
cap.set(cv2.CAP_PROP_FPS, 30)

# 检查新的帧率
new_fps = cap.get(cv2.CAP_PROP_FPS)
print(f"New FPS: {new_fps}")

在这里插入图片描述

5. 图像处理

5.1 颜色空间转换

# RGB to Grayscale
gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# RGB to HSV
hsv_img = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)

# RGB to LAB
lab_img = cv2.cvtColor(img, cv2.COLOR_BGR2LAB)

5.2 边缘检测

edges = cv2.Canny(img, threshold1=100, threshold2=200)

5.3 图像平滑

# 使用均值滤波
blur = cv2.blur(img, (5, 5))

# 使用高斯模糊
gaussian_blur = cv2.GaussianBlur(img, (5, 5), 0)

# 使用中值滤波
median_blur = cv2.medianBlur(img, 5)

# 使用双边滤波
bilateral_blur = cv2.bilateralFilter(img, 9, 75, 75)

5.4 图像形态学

kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (5, 5))
erosion = cv2.erode(img, kernel, iterations=1)
dilation = cv2.dilate(img, kernel, iterations=1)

opening = cv2.morphologyEx(img, cv2.MORPH_OPEN, kernel)
closing = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel)

5.5 图像分割

# 使用简单的阈值分割
_, thresh = cv2.threshold(gray_img, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)

# 使用分水岭算法
sure_bg = cv2.dilate(thresh, kernel, iterations=3)
dist_transform = cv2.distanceTransform(thresh, cv2.DIST_L2, 5)
ret, sure_fg = cv2.threshold(dist_transform, 0.7*dist_transform.max(), 255, 0)
sure_fg = np.uint8(sure_fg)
unknown = cv2.subtract(sure_bg, sure_fg)
ret, markers = cv2.connectedComponents(sure_fg)
markers = markers + 1
markers[unknown==255] = 0
markers = cv2.watershed(img, markers)
img[markers == -1] = [255, 0, 0]

5.6 图像融合

# 使用加权融合
alpha = 0.5
beta = 1 - alpha
merged_image = cv2.addWeighted(img1, alpha, img2, beta, 0)

6. 特征检测与描述

6.1 SIFT (Scale-Invariant Feature Transform)

sift = cv2.SIFT_create()
keypoints, descriptors = sift.detectAndCompute(img, None)

6.2 SURF (Speeded Up Robust Features)

surf = cv2.SURF_create(400)
keypoints, descriptors = surf.detectAndCompute(img, None)

6.3 ORB (Oriented FAST and Rotated BRIEF)

orb = cv2.ORB_create()
keypoints, descriptors = orb.detectAndCompute(img, None)

6.4 特征匹配

# 创建BFMatcher对象
bf = cv2.BFMatcher(cv2.NORM_L2, crossCheck=True)

# 匹配描述符
matches = bf.match(descriptors1, descriptors2)

# 排序匹配结果
matches = sorted(matches, key=lambda x: x.distance)

# 绘制匹配结果
result_img = cv2.drawMatches(img1, keypoints1, img2, keypoints2, matches[:10], None, flags=cv2.DrawMatchesFlags_NOT_DRAW_SINGLE_POINTS)

6.5 特征点追踪

# 光流追踪
prev_gray = cv2.cvtColor(prev_frame, cv2.COLOR_BGR2GRAY)
next_gray = cv2.cvtColor(next_frame, cv2.COLOR_BGR2GRAY)

# 初始化特征点
prev_pts = cv2.goodFeaturesToTrack(prev_gray, maxCorners=100, qualityLevel=0.3, minDistance=7)

# 计算光流
next_pts, status, err = cv2.calcOpticalFlowPyrLK(prev_gray, next_gray, prev_pts, None)

# 追踪有效特征点
good_new = next_pts[status == 1]
good_old = prev_pts[status == 1]

6.6 特征点可视化

# 在图像上绘制特征点
for i, (new, old) in enumerate(zip(good_new, good_old)):
    a, b = new.ravel()
    c, d = old.ravel()
    mask = cv2.line(mask, (a, b), (c, d), (0, 255, 0), 2)
    frame = cv2.circle(frame, (a, b), 5, (0, 0, 255), -1)
img = cv2.add(frame, mask)

7. 高级应用

7.1 人脸识别

face_cascade = cv2.CascadeClassifier(cv2.data.haarcascades + 'haarcascade_frontalface_default.xml')

gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
faces = face_cascade.detectMultiScale(gray, 1.3, 5)

for (x, y, w, h) in faces:
    cv2.rectangle(img, (x, y), (x+w, y+h), (255, 0, 0), 2)

7.2 目标检测

# 使用YOLO v3
net = cv2.dnn.readNetFromDarknet('yolov3.cfg', 'yolov3.weights')

blob = cv2.dnn.blobFromImage(img, 1/255, (416, 416), swapRB=True, crop=False)
net.setInput(blob)
outs = net.forward(net.getUnconnectedOutLayersNames())

class_ids = []
confidences = []
boxes = []

for out in outs:
    for detection in out:
        scores = detection[5:]
        class_id = np.argmax(scores)
        confidence = scores[class_id]
        if confidence > 0.5:
            center_x, center_y, w, h = (detection[0:4] * np.array([img.shape[1], img.shape[0], img.shape[1], img.shape[0]])).astype('int')
            x, y = center_x - w // 2, center_y - h // 2
            boxes.append([x, y, w, h])
            confidences.append(float(confidence))
            class_ids.append(class_id)

indexes = cv2.dnn.NMSBoxes(boxes, confidences, 0.5, 0.4)
colors = np.random.uniform(0, 255, size=(len(class_ids), 3))

for i in range(len(boxes)):
    if i in indexes:
        x, y, w, h = boxes[i]
        label = str(classes[class_ids[i]])
        color = colors[i]
        cv2.rectangle(img, (x, y), (x + w, y + h), color, 2)
        cv2.putText(img, label, (x, y - 5), cv2.FONT_HERSHEY_SIMPLEX, 0.5, color, 2)

7.3 深度估计

# 使用立体匹配
stereo = cv2.StereoBM_create(numDisparities=16, blockSize=15)
disparity = stereo.compute(left_img, right_img)
depth = cv2.filterSpeckles(disparity, -1, 50, 2000)

8. 性能优化技巧

8.1 使用NumPy进行高效操作

# NumPy操作通常比OpenCV操作更快
mean = np.mean(img, axis=(0, 1))

8.2 减少不必要的内存复制

# 直接访问图像数据而不是复制
roi = img[50:150, 50:150, :]

8.3 并行处理

from concurrent.futures import ThreadPoolExecutor

def process_frame(frame):
    # 处理单个帧
    pass

frames = [...]  # 假设这是一个包含多个帧的列表
with ThreadPoolExecutor(max_workers=4) as executor:
    results = [executor.submit(process_frame, frame) for frame in frames]
    processed_frames = [future.result() for future in results]

8.4 GPU加速

# 使用cuDNN进行GPU加速
net.setPreferableBackend(cv2.dnn.DNN_BACKEND_CUDA)
net.setPreferableTarget(cv2.dnn.DNN_TARGET_CUDA)

8.5 缓存中间结果

# 缓存计算结果
cache = {}

def get_processed_image(image_name):
    if image_name in cache:
        return cache[image_name]
    else:
        img = cv2.imread(image_name)
        processed_img = ...  # 处理图像
        cache[image_name] = processed_img
        return processed_img

9. 结论

本文深入介绍了OpenCV的基本使用方法和一些高级功能。OpenCV是一个非常强大的工具，适用于各种计算机视觉任务。通过学习本文介绍的内容，您可以开始探索OpenCV的强大功能，并将它们应用到实际项目中。

原文地址：https://blog.csdn.net/suifengme/article/details/141365032

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：2018年国赛高教杯数学建模D题汽车总装线的配置问题解题全过程文档及程序
下一篇：代码随想录算法训练营DAY09之动态规划（一）基础题目

百度世界大会2024，当应用遇上AI，未来已来
科技更应该服务生活，期待AI技术在更多领域的应用和突破。无论是工作、生活还是娱乐，AI都将为我们带来更加便捷、高效和有趣的体验。
阅读更多2024-11-14
期权懂|交易股票期权该怎么操作？又该如何开户？
期权小懂每日分享期权知识，帮助期权新手及时有效地掌握即市趋势与新资讯！
阅读更多2024-11-14
Blender发布新风格演示视频《Project Gold》
Blender在本月初发布了一条全新风格的演示视频《Project Gold》，短片不同于传统的真实感3D视频，更类似于手绘风格。做为云渲染行业资深平台，已全面支持Blender的云渲染，服务器资源十
阅读更多2024-11-14
JavaScript 原型链的工作原理及如何实现继承
每个 JavaScript 对象在创建时都会拥有一个内部链接，指向另一个对象（称为原型对象）。这个原型对象包含了该对象可以继承的属性和方法。原型的存在使得对象可以共享一些通用的行为。在 JavaScr
阅读更多2024-11-14
如何有效进行谷歌SEO外链建设？
如果你有资源，可以搭建上百甚至上千个网站，用来发布外链，这样就能提升外链的相关性和质量。毕竟，只为了提升一个网站的SEO表现，去维护大量外链站点，并不是每家公司都能负担得起的。所以，很多企业会选择我们
阅读更多2024-11-14
SQL 分组查询中的非聚合列要求及实例解析
聚合列：指的是在SELECT语句中通过聚合函数（如SUM()AVG()MAX()MIN()COUNT()等）计算出的列。它们通常是针对分组数据进行的汇总统计，例如求某个分组中的所有值的和、平均值等。非
阅读更多2024-11-14
地理信息科学专业想搞GIS开发：学前端还是后端？
这就是GIS专业人才的优势所在，他们不仅懂得背后的原理，还懂得如何应用，所以在这个领域找到一份工作是完全可行的。谈到三维GIS领域，不得不说，这个领域的真正主导是计算机图形学和数学，GIS只是其中的一
阅读更多2024-11-14
搭建深度学习开发环境
搭建深度学习开发环境步骤
阅读更多2024-11-14
Flutter：Dio下载文件到本地
使用三方库Dio，完成文件下载
阅读更多2024-11-14
【JAVA毕业设计】基于Vue和SpringBoot的周边产品销售网站
周边产品销售网站是一个B/S模式系统，采用Spring Boot框架作为后台开发技术，前端框架是VUE，MYSQL数据库设计开发，充分保证系统的稳定性。系统具有界面清晰、操作简单，功能齐全的特点，使得
阅读更多2024-11-14