《昇思 25 天学习打卡营第 15 天 | 基于MindNLP+MusicGen生成自己的个性化音乐》

🕗 发布于 2024-07-21 07:33 学习

《昇思 25 天学习打卡营第 15 天 | 基于MindNLP+MusicGen生成自己的个性化音乐》

活动地址：https://xihe.mindspore.cn/events/mindspore-training-camp
签名：Sam9029

MusicGen概述

MusicGen是由Meta AI的Jade Copet等人提出的一种基于单个语言模型（LM）的音乐生成模型，能够根据文本描述或音频提示生成高质量的音乐样本。该模型的研究成果发表在论文《Simple and Controllable Music Generation》中。

MusicGen模型结构

MusicGen模型基于Transformer结构，分为三个阶段：

文本编码：用户输入的文本描述通过文本编码器模型转换为一系列隐形状态表示。
解码预测：训练MusicGen解码器来预测离散的隐形状态音频token。
音频恢复：使用音频压缩模型（如EnCodec）解码音频token，以恢复音频波形。

MusicGen的特点

使用谷歌的t5-base作为文本编码器模型。
使用EnCodec 32kHz作为音频压缩模型。
解码器是针对音乐生成任务训练的语言模型架构。
采用单阶段Transformer LM结合高效的token交织模式，取消了分层或上采样的多层级结构。

实验环境配置

实验环境已预装MindSpore 2.2.14，可以通过以下命令安装或更新MindSpore及相关库：

!pip uninstall mindspore -y
!pip install -i https://pypi.mirrors.ustc.edu.cn/simple mindspore==2.2.14
!pip install -i https://pypi.mirrors.ustc.edu.cn/simple mindnlp jieba soundfile librosa

MusicGen模型使用

MusicGen提供了small、medium和big三种规格的预训练权重文件。本指南使用small规格的权重，以快速生成质量较低的音频。

from mindnlp.transformers import MusicgenForConditionalGeneration
model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")

生成音乐

MusicGen支持贪心和采样两种生成模式。采样模式通常能得到更好的结果。以下代码展示了如何使用无提示生成和文本提示生成：

unconditional_inputs = model.get_unconditional_inputs(num_samples=1)
audio_values = model.generate(**unconditional_inputs, do_sample=True, max_new_tokens=256)

# 保存音频
sampling_rate = model.config.audio_encoder.sampling_rate
scipy.io.wavfile.write("musicgen_out.wav", rate=sampling_rate, data=audio_values[0, 0].asnumpy())

思考与见解

生成质量与速度：small规格的权重文件虽然生成速度快，但音频质量较低。在实际应用中，需要在速度和质量之间做出权衡。
文本提示生成：通过文本提示生成音乐时，guidance_scale参数对生成结果的影响显著。较高的guidance_scale可以生成与文本描述更匹配的音乐。
音频提示生成：MusicGen同样支持音频提示，这为音乐创作提供了更多可能性，例如在现有旋律基础上进行变奏。

通过本实验，学习了如何使用MindNLP和MusicGen生成个性化音乐。MusicGen模型的灵活性和易用性使其成为音乐创作和研究的有力工具。未来，可以探索更多基于文本和音频提示的音乐生成应用，以及如何进一步优化生成音乐的质量和多样性。

原文地址：https://blog.csdn.net/m0_61486963/article/details/140576299

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【算法】代码随想录之哈希表（更新中）
下一篇：绿色算力|暴雨服务器用芯片筑起“十四五”转型新篇章

AutoDL上进行tensorboard可视化
3.在实例中执行：tensorboard --port 6006 --logdir work_dirs。2.在实例中执行：export https_proxy=http://127.0.0.1:108
阅读更多2024-11-16
莱特币转型MEME币：背后隐含的加密市场现象
MEME币的兴起标志着加密市场的一种转型，传统的技术创新已经不再是吸引投资者的唯一因素，社区文化和社交媒体的炒作正在成为市场推动力之一。这种趋势的背后，反映了加密市场的一种深层次变化：许多项目原本依靠
阅读更多2024-11-16
STM32仿真proteus位带操作和keil增加头文件C文件
在学习 51 单片机的时候就使用过位操作，通过关键字 sbit 对单片机 IO 口进行位定义。但是 STM32 没有这样的关键字，而是通过访问位带别名区来实现。即将每个比特位膨胀成一个 32 位字，当
阅读更多2024-11-16
【机器学习】机器学习中用到的高等数学知识-5. 函数空间和泛函分析 (Functional Analysis)
函数的连续性和可微性是分析和优化模型的重要数学性质，在机器学习中，这些概念帮助我们评估模型的学习能力和泛化能力。希尔伯特空间和巴拿赫空间是泛函分析中的两个重要概念，它们描述了不同的向量空
阅读更多2024-11-16
苍穹外卖学习-day11
Apache ECharts 是一款基于 Javascript 的数据可视化图表库，提供直观，生动，可交互，可个性化定制的数据可视化图表。常见的统计图形有：柱状图，条形图，折线图不管是哪种形式的图形，
阅读更多2024-11-16
DHTMLX-gantt组件显示不同的颜色
important;important;important;
阅读更多2024-11-16
计算机毕业设计Python+大模型中医养生问答系统知识图谱医疗大数据中医可视化机器学习深度学习人工智能大数据毕业设计
计算机毕业设计Python+大模型中医养生问答系统知识图谱医疗大数据中医可视化机器学习深度学习人工智能大数据毕业设计
阅读更多2024-11-16
使用Markmap从链接生成脑图并下载为交互式HTML文件
在这篇博客中，我们将探讨如何从指定链接中提取内容，生成Markdown格式的脑图，然后使用Markmap将其可视化，并最终下载为交互式HTML文件。通过以上步骤，我们可以轻松从链接中提取内容，生成Ma
阅读更多2024-11-16
SAP+Internet主题HTML样式选择
SAP生成HTML前端界面
阅读更多2024-11-16
关于php Datetime 时区转换因为timezone_version(时区版本)问题造成的时区转换问题
php时区转换 timezone_version(时区版本)问题造成的时区转换问题
阅读更多2024-11-16

《昇思 25 天学习打卡营第 15 天 | 基于MindNLP+MusicGen生成自己的个性化音乐 》