-
timbre_painting:实现分层式快速且高保真的音频生成
资源介绍
分层音色绘制和清晰度生成
该存储库提供了“分层音色绘制和清晰度生成”的官方 PyTorch 实现
我们的方法基于 f0 和响度信号为目标乐器生成高保真音频。
在训练期间,从真实信号中提取响度和 f0 信号,这使我们能够将任何输入乐器的旋律转换为经过训练的乐器 - 任务也称为 Timbre Transfer
| | |
我们建议将生成过程分为两个连续的阶段:
清晰度 - 我们生成音频的主干和音符之间的过渡。 这是在给定条件、响度和 f0 输入的低采样率下完成的。 我们使用基于提取的 f0 信号的正弦激励,因此将生成器用作神经源过滤网络,而不是以随机噪声为条件的经典 GAN 生成器。
音色绘画 - 下一阶段由音色绘画网络组成:每个网络将先前生成的音频作为输入,并用作可学习的上采样网络。 每个音色绘制网络都会向音频剪辑添加采样率特定的细节。
依赖关系
需要的包在requirements