AI 唱歌不仅中英文无压力，还会粤语！微软联手浙大研发出 DeepSinger

登录注册

AI 唱歌不仅中英文无压力，还会粤语！微软联手浙大研发出 DeepSinger

来源:网络
更新日期:2020-07-15

摘要：听微软小冰唱粤语歌会是一种怎样的体验？想必你一定听过最近大火的 "AI 女团 "，7 月 10 日，微软小冰携手小米小爱、B 站冷鸢、百度小度首次集体亮相世界人工智能大会，以一首 AI

听微软小冰唱粤语歌会是一种怎样的体验？

想必你一定听过最近大火的 AI 女团，7 月 10 日，微软小冰携手小米小爱、B 站冷鸢、百度小度首次集体亮相世界人工智能大会，以一首 AI 歌曲《智联家园》正式出道。

AI 女团的首场演唱会可谓惊艳全场。从整首歌的歌词、卡点、节奏来看，这首《智联家园》演唱得不亚于专业音乐团队。如果只听音乐，恐怕很难分辨出这是 AI 生成的歌声。

我们知道，歌声不同于正常人的语音，高低音转换，BGM 的配合，有着更复杂的模式和节奏，这对于 AI 来说并不是一件容易的事儿。

不过，最近一个研究团队，却此基础上挑战了更高阶的 AI 技术——生成多种语言风格的 AI 系统。据了解，这个团队成员正是来自浙江大学和微软研究院的六名研究员，他们研发出了一款名为 DeepSinger 的 AI 模型，可以演唱中文、英文，甚至粤语歌曲。

目前这项研究论文《DeepSinger.Singing Voice Synthesis with Data Mined Frome the Web》已经发表在了预印论文库 arXiv 上。

中文、英文、粤语，教什么会什么的 AI

具体来说，DeepSinger 是一款音乐歌声合成系统（Singing voice synthesis ），该系统利用专门设计的组件可以从嘈杂的歌唱数据中捕获歌手的音色，从而生成多种语言风格的演唱声音。

论文中，研究人员用中文、英文、粤语三种语言进行了试验，并用训练后得出的不同音色演唱了这首《Far Away Of Home》。可以先点击下方链接，听一下演唱效果：

点击链接收听：https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/

研究人员称，对于影视从业者来说，DeepSinger 会是一个非常实用的工具。当他们完成某些语音类录制工作后，如果发现录制错误，可以用 AI 辅助语音的合成和修复，而无需再次返工。不过，这款工具也存在一些弊端。就像换脸软件 Deepfake 可以合成不存在的人像一样，这款 DeepSinger 同样可以假冒歌手伪造音乐。

AI 多语言歌声合成原理

在机器学习领域，从文本到语音（TTS）的转换有着广泛的使用场景，一直是研究的重点领域。如上文所说，歌曲的韵律和环境比语音更具复杂性，因此，SVS 相比于 TTS 的研究也更有挑战性。

研究人员介绍，此次生成多种语言风格的歌声合成系统 DeepSinger，采用了一种含多个数据挖掘和数据建模步骤的研究路径，优化了现有研究的很多困境。这个路径可以分为以下五个步骤：

数据检索（Data crawling）负责从音乐网站抓取顶级歌手多种语言的流行音乐；这里抓取的是中、英、粤三种语言的歌曲，时长一般为 1-5 分钟。此阶段，需要对数据集进行初级的过滤和清洗。

唱歌和伴奏分离（Singing and accompaniment separation）：采用开源音乐分离工具 Spleeter，从伴奏中提取歌声，然后将音频逐个拆分为句子；

歌词和歌唱对齐（Lyrics-to-singing alignment）：自动提取歌词中每个音素的持续时间（从粗粒度的句子级别到细粒度的音素级别）。

数据筛选（Data filtration）：对歌词与演唱未对齐的歌声进行再处理。

这里采用分离奖励（Splitting Reward）作为过滤标准，过滤掉分离奖励低于阈值的数据。

演唱模型（Singing modeling）：通过数据爬取，分离，对齐和过滤之后，基于 FastSpeech 对唱歌数据进行建模。该模型将歌词，时长，音高信息以及参考音频作为输入来生成歌声。

点击链接：https://speechresearch.github.io/deepsinger/ 可收听不同阶段，AI 生成歌声音频。

从最终的测试结果可以看出，未经训练的音频和经过 DeepSinger 模型的音频，在音调、振幅、持续时长上基本吻合；（GT 表示真实音频波形图，DeepSinger 表示经过模型训练后的音频波形图）

论文中表明，通过歌词，持续时间，音调信息、参考音频等指标的验证，DeepSinger 在合成音调准确度和声音自然度方面表现出了不错的性能。从数据来看，中英粤语三首歌曲的音高、音准都超过了 85％。而且，在一项 20 人的用户实验中，DeepSinger 生成的歌曲与原始培训音频之间的平均差距仅为 0.34-0.76。

另外，更值得注意的是，经过数据检索和初级筛选，Singing 所使用数据集仅包含 89 位歌手演唱的 92 个小时的歌曲。

我们知道，在机器学习中数据集的质量和数量是关键，但也正是在这两个方面往往存在难点。而在本次试验中仅使用了一个小样本即达到不错的性能表现。另外，歌曲和歌词的自动对齐模型在很大程度上也减少了数据标标注带来的失误和成本。

不过，研究人员表示，接下来他们计划使用基于 WaveNet 模型等更为复杂的 AI 技术，在 DeepSinger 中训练各种子模型，以提高语音质量。WaveNet 是 Googel 研发的一款语音驱动模型。