基于Python与K-Means的自动化视频分类方法

🕗 发布于 2024-09-21 20:58 python kmeans 自动化聚类视频分类

版权归作者所有，如有转发，请注明文章出处：https://cyrus-studio.github.io/blog/

实现过程

1. 特征提取：使用预训练的 InceptionV3 模型，从视频的若干帧中提取高维的视觉特征。将每个视频的所有帧特征取平均值，生成一个固定长度的特征向量来表示该视频。

2. 聚类：通过 K-Means 的聚类结果，每个视频被分配了一个簇标签，代表该视频与哪些视频在特征上最相似。

3. 分类整理：最后根据簇标签，将视频移动到相应的分类文件夹中，每个文件夹对应一个簇。

InceptionV3 模型

InceptionV3 是一种用于图像分类和特征提取的深度学习模型，它是Inception 系列模型的第三个版本，由 Google 在 2015 年提出。

它最初是作为图像分类任务的一个模型，能够将图像分类到 1000 个类别中（如狗、猫、汽车等）。通过去除模型的最后几层（分类部分），可以将 InceptionV3 用作特征提取器。

簇

簇是聚类算法的核心概念，表示数据中相似的子集，目的是将无标签的数据点分组。

K-Means

K-Means 是一种常用的无监督聚类算法，它的目标是将数据点分成 K 个簇（Cluster），使得每个簇内的数据点尽可能接近同一个中心（即簇的质心）。

算法的核心思想是通过迭代的方式找到 K 个最优的簇质心，并根据这些质心将数据进行分组。

源码

1. 安装依赖库

pip install moviepy scikit-learn tensorflow opencv-python

2. 实现代码

import os
import numpy as np
import cv2
from moviepy.editor import VideoFileClip
from sklearn.cluster import KMeans
from tensorflow.keras.applications import InceptionV3
from tensorflow.keras.applications.inception_v3 import preprocess_input
from tensorflow.keras.preprocessing import image
from tensorflow.keras.models import Model
from shutil import move

# 提取视频的帧作为特征
def extract_video_features(video_path, model, frame_interval=30):
    video = VideoFileClip(video_path)
    frame_count = 0
    features = []

    for frame in video.iter_frames(fps=1):  # 以每秒一帧的速度获取帧
        if frame_count % frame_interval == 0:
            # Resize frame to match model input size (299x299 for InceptionV3)
            img = cv2.resize(frame, (299, 299))
            img = image.img_to_array(img)
            img = np.expand_dims(img, axis=0)
            img = preprocess_input(img)

            # 提取特征
            feature = model.predict(img)
            features.append(feature.flatten())

        frame_count += 1

    # 取视频的所有帧特征的均值作为视频的最终特征
    return np.mean(features, axis=0)

# 批量提取目录下所有视频的特征
def extract_features_for_all_videos(input_dir, model, frame_interval=30):
    video_features = []
    video_files = []

    for filename in os.listdir(input_dir):
        if filename.endswith(".mp4"):  # 你可以根据需要修改文件格式
            video_path = os.path.join(input_dir, filename)
            print(f"正在处理视频: {filename}")
            features = extract_video_features(video_path, model, frame_interval)
            video_features.append(features)
            video_files.append(filename)

    return np.array(video_features), video_files

# 对视频进行聚类
def cluster_videos(video_features, num_clusters=3):
    kmeans = KMeans(n_clusters=num_clusters, random_state=42)
    kmeans.fit(video_features)
    return kmeans.labels_

# 将视频分类到不同的文件夹
def classify_videos(input_dir, output_dir, video_files, labels):
    for label, filename in zip(labels, video_files):
        output_folder = os.path.join(output_dir, f"cluster_{label}")
        if not os.path.exists(output_folder):
            os.makedirs(output_folder)

        input_path = os.path.join(input_dir, filename)
        output_path = os.path.join(output_folder, filename)

        move(input_path, output_path)
        print(f"已将视频 {filename} 移动到 {output_folder}")

# 主函数
def main(input_dir, output_dir, num_clusters=3, frame_interval=30):
    # 加载预训练的InceptionV3模型，并去掉顶层的分类部分，只用来提取特征
    base_model = InceptionV3(weights='imagenet')
    model = Model(inputs=base_model.input, outputs=base_model.get_layer('avg_pool').output)

    # 提取所有视频的特征
    video_features, video_files = extract_features_for_all_videos(input_dir, model, frame_interval)

    # 对视频进行聚类
    labels = cluster_videos(video_features, num_clusters)

    # 将视频移动到相应的分类文件夹
    classify_videos(input_dir, output_dir, video_files, labels)

# 示例调用
input_directory = "path/to/input_videos"
output_directory = "path/to/output_videos"
main(input_directory, output_directory, num_clusters=30, frame_interval=30)

3. 代码说明

1. extract_video_features：从每个视频中提取帧，使用 InceptionV3 模型提取每个帧的特征，并最终取所有帧特征的平均值作为该视频的代表特征。

2. extract_features_for_all_videos：批量提取目录中所有视频的特征。

3. cluster_videos：使用 K-Means 聚类算法对视频进行分类，将相似的视频聚到一起。

4. classify_videos：将视频根据聚类结果移动到不同的分类文件夹。

5. main：主函数，负责加载模型、提取特征、聚类以及将视频分类。

4. 调用说明

1. input_directory: 视频所在的输入文件夹。

2. output_directory: 输出文件夹，程序会根据聚类结果创建不同的文件夹，将相似的视频分类进去。

3. num_clusters: 要分类的类别数，即希望将视频分为多少类。

4. frame_interval: 每隔多少帧提取一次特征帧。值越大，提取帧的间隔越大。

源码地址：https://github.com/CYRUS-STUDIO/classify-videos-kmeans-python

原文地址：https://blog.csdn.net/linchaolong/article/details/142408463

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：C++学习笔记（29）
下一篇：【Python】使用国内镜像安装conda并创建python环境

B-树特点以及插入、删除数据过程
查找插入位置：通过树的层级结构，从根节点到叶子节点进行查找，确定插入位置。插入元素：如果目标叶子节点有空间，直接插入元素。节点分裂：如果插入导致节点超出最大容量，将节点分裂并将中间元素推送到父节点。递
阅读更多2024-11-15
JWT深度解析：Java Web中的安全传输与身份验证
JSON Web Token（JWT）是一种轻量级的身份验证和授权标准，它允许在各方之间安全地传输信息。JWT作为一种安全传输信息和身份验证的解决方案，在Java Web开发中扮演着重要角色。它通过紧
阅读更多2024-11-15
AR眼镜方案_AR智能眼镜阵列/衍射光波导显示方案
采用光波导技术的AR眼镜显示方案，核心结构通常由光机、波导和耦合器组成。光机内的微型显示器通过一系列透镜将光线耦入波导镜片，使光线在波导中以全反射形式传播，并最终通过耦合器投射到人眼。因此，系统尺寸得
阅读更多2024-11-15
Invar-RAG：基于不变性对齐的LLM检索方法提升生成质量
在检索增强型生成（Retrieval-Augmented Generation, RAG）系统中直接应用大型语言模型（Large Language Models, LLMs）时面临的挑战。特征局部性问
阅读更多2024-11-15
决策树基本 CART Python手写实现
【代码】决策树基本 CART Python手写实现。
阅读更多2024-11-15
Redis
String：简单键值存储，适合计数器、单一属性缓存。Hash：结构化存储，适用于存储对象数据（如用户信息）。List：有序队列，适合消息队列、任务队列。Set：无序集合，用于去重、唯一性统计、共同好
阅读更多2024-11-15
2、家庭网络发展现状
也就是wifi网络的更远覆盖，众所周知，经过节点mesh组网之后，速率会有一定下降，这也就是说mesh组网必须是5G组网或者有线组网，这样才可保证用户的体验，否则即使延伸了wifi信号覆盖，也会导致速
阅读更多2024-11-15
游戏引擎学习第10天
RDTS是一种低级的、高精度的方式，用于访问处理器的时间戳计数器。它广泛用于性能分析、基准测试和高精度计时。需要注意的是，在使用时可能会受到 CPU 频率变化和多核同步等问题的影响，在这种情况下，RD
阅读更多2024-11-15
Spring Data Redis常见操作总结
Spring Data Redis常见操作总结
阅读更多2024-11-15
css三角制作（二十课）
CSS 这根神奇的魔法棒，就能把三角变出来 so easy！
阅读更多2024-11-15