导航菜单

OpenAI的自动点唱机AI可以从头开始创作任何风格的音乐

导读 开放人工智能今天发布了Jukebox,一个机器学习框架,产生音乐-包括基本的歌曲-作为原始音频在各种类型和音乐风格。 提供了一个体裁,艺术家和歌词作为输入,Jukebox输出一个新的音乐
2020-05-11 16:22:19

开放人工智能今天发布了Jukebox,一个机器学习框架,产生音乐-包括基本的歌曲-作为原始音频在各种类型和音乐风格。 提供了一个体裁,艺术家和歌词作为输入,Jukebox输出一个新的音乐样本从零开始。 代码和模型在GitHub上可用,还有一个工具来探索生成的样本。

Jukebox可能不是AI和机器学习的最实际应用,但正如Open AI所指出的,音乐生成推动了生成模型的边界。 在音频级别合成歌曲是具有挑战性的,因为序列相当长-一首典型的4分钟CD质量歌曲(44kHz,16位)有超过1000万个时间步长。 因此,学习音乐的高级语义需要模型来处理非常长的依赖关系。

这是一首Jukebox创作的乡村歌曲,风格为艾伦·杰克逊:

以下是弗兰克·辛纳屈风格的经典流行音乐:

下面是埃拉·菲茨杰拉德风格的爵士乐:

jukebox通过使用所谓的自动编码器来解决这个问题,它通过丢弃一些感知上无关的信息,将原始音频压缩到一个较低的空间。 然后可以对模型进行训练,在这个空间生成音频,并将上采样返回到原始音频空间。

Jukebox的自动编码器模型使用一种称为矢量量化变分自动编码器(VQ-VAE)的方法处理音频。 三级VQ-VAE压缩44kHz原始音频8次、32次和128次;底层编码(8次)产生最高质量的重建(以“音乐代码”的形式),而顶层编码(128次)只保留基本的音乐信息,如音高、音色和音量。

在Jukebox中,一系列先验模型-一种顶级先验模型-它生成由VQ-VAE编码的最压缩的音乐代码和两个合成较少压缩代码的上采样先验模型-被训练以学习代码的分布并在压缩空间中生成音乐。 顶级先验模型对音乐的远程结构进行建模,使从其解码的样本具有较低的音频质量,但捕获高级语义(如唱歌和旋律),而中、下的上采样先验则增加了像音色这样的局部音乐结构,显著提高了音频质量。

模型训练是使用OpenAI稀疏变形金刚架构的简化变体对120万首歌曲的语料库(600,000首英文)进行的,这些歌曲来源于网络,并与歌词和元数据(例如艺术家、专辑类型、年份、共同情绪和播放列表关键字)配对。 每首歌在44.1kHz时都是32位,OpenAI通过随机地缩小左右通道来产生单音频来增强语料库。

为了使Jukebox在特定的艺术家和流派上有条件,对顶级变压器模型进行了预测压缩音频令牌的任务培训,这使得Jukebox在任何音乐风格中都能获得更好的质量,并允许研究人员引导模型以他们选择的风格生成。 为了提供更抒情的上下文框架,OpenAI开发了一个编码器,它从Jukebox的音乐解码器中添加查询使用层,以处理歌词编码器中的键和值,使Jukebox能够学习更精确的歌词和音乐对齐。

Jukebox的模型需要大量的计算和时间来训练:

在所有这些方面,Jukebox是Open AI之前的工作Muse Net的一个飞跃,Muse Net探索基于大量MIDI数据合成音乐。 使用原始音频,Jukebox模型学习处理多样性和远程结构,同时减少短期、中期或长期定时中的错误。 结果并不差一半。

但Jukebox有其局限性。 虽然它产生的歌曲在音乐上相当连贯,并且具有传统的和弦模式(甚至独奏),但它们缺乏像重复的合唱这样的结构。 此外,它们含有明显的噪音,而且这些模型的采样速度很慢-渲染一分钟的音频需要9个小时。

幸运的是,Open AI计划将Jukebox的模型提取成一个并行采样器,该采样器应该“显著”加速采样。 它还打算培训Jukebox从其他语言和世界各地的歌曲,除了英语和西方。

“我们的音频团队正在继续致力于根据不同类型的启动信息生成音频样本。 特别是,我们已经看到了MIDI文件和stem文件的早期成功条件,“Open AI写道。 “我们希望这将提高样本的音乐性(以歌词的条件改善歌唱的方式),这也将是一种让音乐家更多地控制世代的方式。 我们期望人类和模型合作将是一个越来越令人兴奋的创作空间。

音乐人工智能正在快速发展。 在2018年末,谷歌大脑努力“探索机器学习作为创造性过程中工具的作用”的Magenta项目介绍了音乐转换器,这是一个能够生成具有可识别重复的歌曲的模型。 去年3月,谷歌发布了一个算法谷歌涂鸦,让用户创建旋律谐音巴赫。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢:

最新文章: