SUTD:偏好优化提升文本到音频效果
📖标题:TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization
🌐来源:arXiv, 2412.21037
🌟摘要
🔸我们介绍了TANGOFLUX,这是一种具有515M参数的高效文本到音频(TTA)生成模型,能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。对齐TTA模型的一个关键挑战在于创建偏好对的困难,因为TTA缺乏结构化机制,如可验证的奖励或可用于大型语言模型(LLM)的黄金标准答案。
🔸为了解决这个问题,我们提出了CLAP分级偏好优化(CRPO),这是一种迭代生成和优化偏好数据以增强TTA对齐的新框架。我们证明,使用CRPO生成的音频偏好数据集优于现有的替代品。有了这个框架,TANGOFLUX在客观和主观基准测试中都达到了最先进的性能。我们开源所有代码和模型,以支持TTA生成的进一步研究。详见https://tangoflux.github.io
🛎️文章简介
🔸研究问题:文本到音频(TTA)生成模型在生成高质量音频时存在对齐问题,如何通过偏好数据优化模型以生成更符合用户意图的音频?
🔸主要贡献:论文提出了TANGOFLUX模型和CRPO(CLAP-Ranked Preference Optimization)方法,显著提升了TTA模型的性能,并在公开数据集上实现了最先进的生成效果。
📝重点思路
🔸模型架构:采用基于FluxTransformer的混合MMDiT和DiT架构,结合预训练、微调和偏好优化三个阶段进行训练。
🔸偏好优化:提出CRPO方法,通过CLAP模型作为代理奖励模型,生成偏好数据集并进行迭代优化。
🔸在线数据生成:在每次迭代中生成新的合成数据,避免使用离线数据导致的性能饱和和退化。
🔸损失函数:结合DPO和FM损失,确保优化过程的稳定性和高效性。
🔎分析总结
🔸性能提升:TANGOFLUX在多个客观和主观评估指标上均优于现有模型,特别是在处理多事件提示时表现出色。
🔸在线数据生成的重要性:在线生成数据显著优于离线数据,避免了性能退化和过优化问题。
🔸偏好数据集的有效性:CRPO生成的偏好数据集在优化效果上优于其他现有数据集,如Audio-Alpaca和BATON。
🔸推理效率:TANGOFLUX在保持高质量生成的同时,显著减少了推理时间,表现出更高的计算效率。
💡个人观点
论文的创新点在于提出了TANGOFLUX模型和CRPO方法,通过在线生成偏好数据和修正流优化,显著提升了文本到音频生成的质量和效率。
🧩附录
原文地址:https://blog.csdn.net/weixin_46739757/article/details/144986714
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!