【机器学习实战中阶】音乐流派分类-自动化分类不同音乐风格

🕗 发布于 2025-01-19 15:58 机器学习 分类自动化 人工智能 数据挖掘

在这里插入图片描述
音乐流派分类 – 自动化分类不同音乐风格

在本教程中，我们将开发一个深度学习项目，用于自动化地从音频文件中分类不同的音乐流派。我们将使用音频文件的频率域和时间域低级特征来分类这些音频文件。

对于这个项目，我们需要一个具有相似大小和相似频率范围的音频曲目数据集。GTZAN流派分类数据集是音乐流派分类项目中最推荐的数据集，并且它是为了这个任务而收集的。

音乐流派分类器模型
在这里插入图片描述

音乐流派分类
关于数据集：
GTZAN流派收藏数据集是在2000-2001年间收集的。它由1000个音频文件组成，每个文件持续30秒。有10个类（10种音乐流派），每个类包含100个音频曲目。每个曲目都是.wav格式。该数据集包含以下10种流派的音频文件：
在这里插入图片描述

蓝调
古典音乐
乡村音乐
迪斯科
嘻哈
爵士乐
金属
流行音乐
雷鬼
摇滚
音乐流派分类方法：
在这个数据集上有多种方法可以执行分类。其中一些方法包括：

多类别支持向量机
K-均值聚类
K近邻算法
卷积神经网络
我们将使用K近邻算法，因为在各种研究中，它已经为解决此问题显示出最佳的结果。

K-近邻算法是一种广泛用于回归和分类任务的机器学习算法。它基于相似度度量，即数据点之间的距离，来进行预测。

特征提取：
音乐流派分类项目的第一个步骤是从音频文件中提取特征和组成部分。这包括识别语言内容并丢弃噪声。

梅尔频率倒谱系数（MFCC）：
这些是自动语音和语音识别研究中使用的一流特征。生成这些特征有一些步骤：

由于音频信号在不断变化，首先我们把这些信号分割成较小的帧。每个帧大约持续20-40毫秒。
然后我们尝试识别每帧中出现的不同频率。
现在，从噪声中分离出语言频率。
为了丢弃噪声，对这些频率进行离散余弦变换（DCT）。使用DCT，我们只保留有可能包含高信息量的具体频率序列。
构建音乐流派分类的步骤：
从以下链接下载GTZAN数据集：

GTZAN数据集

创建一个名为“music_genre.py”的新Python文件，并将下面步骤中的代码粘贴进去：

导入：

from python_speech_features import mfcc
import scipy.io.wavfile as wav
import numpy as np
from tempfile import TemporaryFile
import os
import pickle
import random 
import operator
import math
import numpy as np

定义一个函数以获取特征向量之间的距离并找到邻居：

def getNeighbors(trainingSet, instance, k):
    distances = []
    for x in range (len(trainingSet)):
        dist = distance(trainingSet[x], instance, k )+ distance(instance, trainingSet[x], k)
        distances.append((trainingSet[x][2], dist))
    distances.sort(key=operator.itemgetter(1))
    neighbors = []
    for x in range(k):
        neighbors.append(distances[x][0])
    return neighbors

识别最近的邻居：

def nearestClass(neighbors):
    classVote = {
   }
    for x in range(len(neighbors)):
        response = neighbors[x]
        if response in classVote:
            classVote[response]+=1 
        else:
            classVote[response]=1
    sorter = sorted(classVote

原文地址：https://blog.csdn.net/jrckkyy/article/details/145233739

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【深度学习】1.深度学习解决问题与应用领域
下一篇：20250115面试鸭特训营第23天

Redis 学习指南与资料分享
Redis 作为一款高性能内存数据库，在当今软件开发领域占据着重要地位。其丰富的数据类型、强大的功能特性以及广泛的应用场景，吸引着众多开发者深入学习。以下为你精心整理的 Redis 学习指南与实用资料
阅读更多2025-01-19
ODIN：用于 2D 和 3D 分割的单一模型
大家觉得有帮助记得及时关注和点赞！！！目录抽象1介绍2相关工作3D 实例分割3D 数据集和基准测试基于 2D 的 3D 分割3方法4实验4.13D 基准测试评估4.2模拟中多视图 RGB-D 的评估4
阅读更多2025-01-19
ARP Check
防止ARP欺骗的ARPCheck
阅读更多2025-01-19
考前64天学习笔记 - 形成“习惯体系”进行最小启动
从2025年1月18日到3月22日还剩64天。
阅读更多2025-01-19
大数据-240 离线数仓 - 广告业务测试 ADS层数据加载 DataX数据导出到 MySQL
DataX是由阿里巴巴开源的分布式离线数据同步工具，用于解决不同存储系统之间的数据传输问题。它被设计为一种高效、稳定、易扩展的工具，能够适应多种复杂的数据同步需求。
阅读更多2025-01-19
SpringBoot3集成Sa-Token详解
通过以上步骤，我们成功地在SpringBoot 3项目中集成了Sa-Token，实现了登录认证和权限控制功能。Sa-Token的集成过程简单，且提供了丰富的功能和灵活的配置选项，能够满足大多数Web应
阅读更多2025-01-19
endnote x9 如何将参考文献和文中的应用格式由annotated变为编码，例[1],[2]
在EndNoteX9中，将参考文献和文中引用格式更改为编码形式（如[1],[2]）需要以下步骤：如果需要修改编码格式（如将括号改为方括号），可以自定义输出样式：完成以上步骤后，文中引用和参考文献将以编
阅读更多2025-01-19
Android SystemUI——CarSystemBar添加到窗口（十）
上一篇文章我们看到了车载状态栏CarSystemBar视图的创建流程，这里我们继续分析将车载状态栏添加到Windows窗口中。
阅读更多2025-01-19
【STM32-学习笔记-12-】PWR电源控制
本文介绍了PWR电源控制的相关函数，以及STM32的三种低功耗模式的配置
阅读更多2025-01-19
MySQL入门（数据库、数据表、数据、字段的操作以及查询相关sql语法）
本文采用CCBY-NC-SA许可证此许可允许在使用者仅出于非商业目的以任何媒体或格式分发、重新混合、改编和构建材料，并且前提是注明创作者。如果您重新混合、改编或基于该材料进行构建，则必须按照相同的条款
阅读更多2025-01-19

【机器学习实战中阶】音乐流派分类-自动化分类不同音乐风格

相关文章