不会跳舞的歌姬不是好 AI？腾讯 AI Lab 推出唱作人“艾灵”

登录注册

不会跳舞的歌姬不是好 AI？腾讯 AI Lab 推出唱作人“艾灵”

来源:网络
更新日期:2020-06-01

摘要：图片来源 @B 站 AI 艾灵形象六一儿童节这天，腾讯 AI" 艾灵 " 正式宣布出道。AI" 艾灵 " 诞生自腾讯 AI Lab 的实验探索性技术项目—— AI 数字人。钛媒体曾在报道《" 复活 "

图片来源 @B 站 AI 艾灵形象

六一儿童节这天，腾讯 AI 艾灵正式宣布出道。

AI 艾灵诞生自腾讯 AI Lab 的实验探索性技术项目—— AI 数字人。钛媒体曾在报道《复活马丁 · 路德 · 金，数字人时代已经被点亮》中介绍过该项目，该项目的目标是计算机视觉、语音 / 歌声合成和转换、图像 / 视频合成和迁移、自然语言理解等多模态 AI 能力融合，生成可交互内容，并打造出拟人度较高的智能数字人。在应用上，该项目主要为了推进 AI 在虚拟偶像、虚拟助理、在线教育、数字内容生成等领域的应用。

此前，该实验室还推出过电竞解说天鹅静等虚拟人，相比起天鹅静，艾灵更擅长感情充沛的歌唱、跳舞。AI 艾灵与她的师傅龟娘合唱曲目《下山》、唱跳《你最最最重要》等视频也正在陆续登陆 B 站。

六一这天，艾灵与王俊凯与雄安孩子共同推出的新歌《点亮》。新歌与众不同的地方是，在 H5 界面，用户仅需选取几个关键词，艾灵就能基于此创作歌词并完成演唱。本次艾灵能与王俊凯一同创造歌曲，则主要依托了 AI Lab 两项最新研究成果：DurIAN 个性化歌声合成和歌词创作模型 SongNet。

艾灵可依据选取关键词作词演唱

DurIAN 声学模型，让 AI 学会人类歌唱技巧

早期的自动合成语音听书软件，使用的是最原始的机器合成语音，即直接将各个字词的发音生硬地拼接到一起，没有人类在自然说话和唱歌时自然起伏的韵律。

但现在随着机器学习技术的发展，合成语音的拟真度也取得了进展，通过机器学习过程，AI 也逐渐学会了人类唱歌的技巧，比如唱腔的时长、发音的停顿以及何时该有高音等等。基于 DurIAN 声学模型，艾灵的歌声合成要经过以下三个步骤：

首先，研究者以音素为基本发音单元将任意歌曲描述为一连串音素的序列；

然后通过分析歌谱，从文字、旋律、节奏等多个维度分别提取和预测词曲中每个音素的发音、时长、停顿、音高、风格和演唱技巧等特征；

最后使用由真人（中国网络声优龟娘）演唱的歌声训练得到的深度神经网络声学模型和声码器模型，合成出与真人声线高度相似歌声音频。

艾灵的歌谱分析过程

在机器合成歌声方面，初音未来等虚拟偶像实质上并不是人工智能的产物。而是通过机器合成 + 人工调教的模式，如果缺乏了人工调教的过程，虚拟歌姬的演唱只是一堆电子音的集合，而不会有富有感情的歌唱技巧。

在贴吧中，有网友曾吐槽洛天依很难调教，因为需要一个音一个音去修改，现在基于 DurIAN 声学模型，AI 可以取代人工调教的艰难过程，让 AI 直接学会人类的歌唱技巧。

腾讯 AI Lab 在端到端语音合成模型 DurIAN 基础上进行修改，加入基频信息、说话人信息和语言信息来进行歌声合成的声学模型建模。该模型不仅可以从人的说话数据直接训练出唱歌模型，还可以实现跨语种歌声合成，比如用英文说话人的声音合成中文歌声。

对于应用与前景，腾讯 AI Lab 表示，这项技术可以用于降低歌曲制作过程中录音环节的成本，更可以用于打造虚拟偶像，成为广大专业和社区音乐人的制作工具。

除了 AI 歌声合成技术之外，腾讯 AI Lab 还在研究数据量极小和录音质量差条件下的歌声合成。

歌词创作模型 SongNet：为你写歌

在 H5 中，艾灵可以根据命题创作歌词，这是基于腾讯 AI Lab 最新研发的歌词创作模型 SongNet。该深度学习模型最大的特点是可以给定任意格式和模板来生成相契合的文本。

不过，当前艾灵只能根据系统提供的关键词生成基础歌词并合成歌曲，还未能实现自由创作。

腾讯 AI Lab 表示，这是因为艾灵使用了基于数据依赖型的深度学习方法，腾讯将继续探索自动化音乐合成及基于全新乐曲自动生成歌词模板再自动填词的新方法。

腾讯 AI Lab 以陈奕迅的《十年》做了次改词实验，设定这首歌词的格式，通过 SongNet 重新配词，可以保证格式不变，并根据原来的曲谱进行演唱：

原歌词：十年之前 / 我不认识你 / 你不属于我 / 我们还是一样 / 陪在一个陌生人左右 / 走过渐渐熟悉的街头

新配词：夜深人静 / 思念你模样 / 多少次孤单 / 想伴在你身旁 / 是什么让我如此幻想 / 为何会对你那般痴狂

该任务的挑战在于既要生成跟格式一致的文本，又要保证句子的整体性，还要有歌词的韵律以及美感。

SongNet 模型的基本骨架是一个基于 Transformer 的自回归语言模型，腾讯 AI lab 表示，他们针对格式、韵律、句子完整性设计了特殊的符号来进行标识和建模。通过局部和全局两种注意力机制达到了对上下文语义和格式同时建模的目的。

SongNet 模型框架

此外，SongNet 也采用了类似于 BERT 和 GPT 的预训练和微调范式，通过在大规模文本语料的预训练和歌词语料的微调过程，可以进一步提升模型生成歌词的质量。

SongNet 根据给定格式填词 ( 宋词和十四行诗 )

SongNet 根据给定内容局部补全精修

生成好的歌词会提交给歌声合成模块，再与对应乐曲进行融合，就能完成唱作的过程。

腾讯 AI Lab 表示，由于此次同时设置了上下文约束和蕴含特定关键词的限制，所以会在一定程度上降低模型生成歌词的逻辑性和连贯性。未来一方面会持续增强模型对歌曲主题和情感的感知度，另一方面也会设计模型策略来进一步提升生成的歌词的逻辑性、连贯性以及优美度。

谈及应用，除了本次六一献唱，未来艾灵还能借助腾讯 AI Lab 研发的王者荣耀游戏解说生成模型来生成游戏解说词，再通过语音合成实时生成生动活泼的解说。

( 本文首发钛媒体 App，作者 / 芦依，编辑 / 宇航 )

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App