摘要:我们知道,Transfromer 在处理长序列文本方面比 CNN/RNN 表现更为出色,因此,最强大的预训练模型,如 BERT、GPT 均采用的是 Transfromer 基础架构。而且事实证明,在处理诸如机器翻
我们知道,Transfromer 在处理长序列文本方面比 CNN/RNN 表现更为出色,因此,最强大的预训练模型,如 BERT、GPT 均采用的是 Transfromer 基础架构。而且事实证明,在处理诸如机器翻译、文本摘要、语音识别、问答系统等多种语言任务时,只需进行微调,即可达到 SOTA 性能。
但是,Transfromer 的自监督目标(self-supervised)更偏通用性,与下游语言任务联系性不强,也就是说它不知道下游执行的是机器翻译,还是文本摘要。如果自监督目标能够与下游任务建立紧密联系,那么,微调性能会更好。
基于这样的目的,Google AI 团队研发出了 PEGASU(天马)模型。
基于 Transfromer 编 / 译码器的天马架构
结果出人意料,研究发现 " 天马 " 模型不仅表现出了卓越的性能,而且在小样本数据下,能够达到同样的效果,极大地优化了训练效率,降低了数据成本。
目前,这项研究的论文《PEGASUS:Pre-training with Extracted Gap-sentence for Abstractive Summarization》已经发表在预印论文库 arXiv 上,而且被 ICML 国际机器学习大会收录。
从 " 间隙句子 " 到文本摘要,小样本性能更佳
研究人员假设,预训练目标越接近下游任务,微调的性能越好。为此,他们设定下游语言任务为 " 提取文本摘要 ",而预训练目标为 " 生成间隙句子 "(Gap Sentences Generation)。研究人员在输入文档中删除一些完整句子,天马模型的任务就是恢复他们。如果输出结果中能够呈现被删掉的句子,即表示与下游任务建立了联系,即生成了 GSG。如下图所示:
这个过程就像我们做填空题一样。研究人员表示,这项看似人类都无法完成的任务真的实现了。而且他们发现越是删除一些 " 重要 " 的句子,试验的效果越好。
基于此,他们在 12 个下游摘要数据集上对模型进行了微调,结果显示预训练后的输出示例与微调摘要非常相似,而且这一结果经过了 ROUGE 标准测试。ROUGE 通过 N 元语法重叠来计算两个文本的相似度。
另外,这些数据集十分丰富,包含文章,科学论文,专利,短篇小说,电子邮件,法律文件和使用说明,等,这说明天马模型在选择文本主题上方面并没有局限性。
更令人惊奇的是,研究人员发现天马模型在小样本数据集中同样表现出了卓越的性能。以下是研究人员选定 4 个数据集后,ROUGE 得分与监督样本数量的关系。(虚线表示具有全监督但没有预训练的 Transformer 编解码器性能。)
可以看出,仅 1000 个微调示例,天马模型已经有了非常好的性能表现,而且高于未经训练的示例(虚线)。这一结果,表明天马模型在优化性能的同时,可以极大的降低数据使用的成本,同时提高了训练效率。
超越人类的性能表现
为了确保实验结果的准确性,除了 ROUGE 标准的衡量外,研究人员还采取了人工评估的方法。即将实验后的摘要与人类撰写的摘要进行对比。这类似于图灵测试。
研究人员采用了 3 个不同的数据集,评分者在进行优劣判断时,并不知道哪一个是人类的,最终结果显示评分者并不总是喜欢人类编写的摘要。
而且,从 XSum、CNN /Daily Mail 和 Reddit TIFU 这三个数据集中可以看出,仅训练 1000 个示例同样达到了超越人类的水平,再次印证天马模型在小样本下的性能优势。
不过,虽然经天马模型预训练后的性能表现能够与人类相媲美,它还是会存在失误。比如研究人员就以下文本进行了预训练。XSum 数据集中的这篇示例全文没有提到数字 "4",但是在文本提取中,天马能够抽象出文本摘要 "No proposals have been submitted to preserve four Royal Navy frigates for reuse, the BBC has learned.",而且从 2-5 都是如此。
但是在第六艘护卫舰时,天马出现了失误,其摘要中显示的是 " 七 "。说明模型在重复文本提取方面还需要进一步优化。为此,研究人员也将该项目公开发布到了 Github 上。
相关文章推荐
新网新人专享,注册领SSL证书百元神券2022-09-15
新网与亚洲诚信达成战略合作,携手共建安全云生态2022-09-06
企业网站没有SSL证书,你将面临......2022-09-27
SSL协议、TLS协议,有什么区别?2022-09-26
网站跳出率高?可能是没装SSL证书2022-09-26