作者丨陈怡然
论文地址:https://openreview.net/pdf?id=Heggj7GSZ5
网页地址:https://mtg-benchmark.netlify.app/
1
前言随着人工智能的不断发展,各种文本生成模型逐渐应用于人们的生活中。例如,自动文本摘要模型能够自动生成文章的摘要,为希望快速了解文章大意的读者提供简洁核心的摘要概述;故事生成模型能够根据输入的故事前缀生成符合逻辑的结尾,为文字创作者提供灵感... 所有这些生成的文字,或直接、或间接地出现在我们的生活中。
另一方面,随着国际化的步伐不断加快,我们对于获取信息的渠道也不再局限在单种语言。现今多语言,甚至是跨语言的文本生成能力恳待提升。而当前这类多语言文本生成任务的主要瓶颈在于对应任务下的跨语言生成数据较少,集成了多个任务,提供多种跨语言文本生成数据的数据集则尤为稀缺。
在多语言、跨语言文本生成数据缺少的背景下,字节跳动人工智能实验室提出了一篇多语言文本生成工作 MTG: A Benchmark Suite for Multilingual Text Generation,收录于 NAACL 2022 Findings。该篇文章主要提供了一个囊括4种任务、5种语言的多语言、语言间对齐 (multiway) 的文本生成数据集,能够提供丰富的多语言、跨语言文本生成数据,并在多个经典多语言预训练模型上进行了细致全面的实验分析。
2
为什么要构造多语言、语言间对齐的文本生成数据集?为了达到跨语言生成的目的,当前的模型往往加入翻译模型作为辅助,这类方法的错误累积会影响到模型效果,而利用直接的跨语言数据训练则能够规避这一点,提升模型的跨语言生成表现。现存的多语言数据集,有一些并没有包含跨语言训练数据对(输入和输出分别属于两种不同语言)[1,2,3],而包含跨语言训练数据对的数据集又往往是以英语为中心的(输入或输出至少有一方是英语的)[4,5]。缺少除英语外语言间的直接跨语言数据限制了语言间知识的迁移,对此作者选择构造一个多语言且语言间完全对齐的文本生成数据集 MTG。语言间完全对齐是指同一个样本会被反复由不同语言表达,此特性使得任意两个数据集包含的语言间的跨语言数据构造成为可能:获取对齐的语言一和语言二的样本,组合语言一的输入和语言二的输出构造跨语言样本。MTG 包含了4个任务(摘要生成、标题生成、故事生成、问题生成)和5种语言(英、法、西、德、中),能够构造20种不同方向的跨语言生成数据,极大弥补了这四种生成任务中跨语言数据空缺。
3
数据集构造图一: MTG构造过程图
受限于人工标注成本,作者通过2种方法来提升 MTG数据质量。
首先,使用现存的机器翻译模型 (google translate),将四个任务的现存英语数据集翻译到法、西、德、中四个语言。由于机器翻译模型存在错误的可能性,作者进一步对翻译得到的数据进行过滤:通过将翻译得到的结果进一步翻译回英语,和原始数据对比,将和原始数据的重合率低于0.5的数据进行过滤。
其次,在第一步获得的数据中每个任务、每种语言抽取2w条数据进行人工修正,确保(1)不同语言对应样本间的语义完全对齐,(2)文本流畅,(3)翻译得到的结果符合目标语言的文化和文字习惯。将2w人工修正过的数据划分成训练集、开发集和测试集。
整体的数据集样本数量信息如下:
表一:MTG 不同任务和语言的训练、开发、测试集样本数量。
4
评估指标此论文使用了多样的评估指标来分析不同场景下多语言预训练模型的表现。包括:
相关性指标:基于 N-gram 的指标 (BLEU,ROUGE,METEOR) 和基于 embedding 的指标 (BertScore)
多样性指标 (distinct)
- 集成指标
(1)本文提出了一个模仿人工评估的指标,以相关性指标为特征,以人工评估分数为目标进行回归。(2)尝试了多种回归方式,不同回归方法和人工评估的相关性见表二上半部分,可以看到, bagging 获得了和人工评估分数最高的相关性。同时表格下半部分展示了 bagging 和其他相关性指标的对比结果,展现了该集成指标的优越性。表二: 不同回归算法和人工评估的相关性以及相关性指标和人工评估的相关性。
5
主要实验结果本文对四种经典的多语言预训练模型 (M-BERT,XLM,mBART,mT5) 在四种场景下进行了实验分析 (cross-lingual,monolingual,multilingual, zero-shot)。
论文首先分析了四个模型在四个任务上的跨语言生成表现,见图二。可以看到:(1) 有时候跨语言的生成结果会高于单语言训练结果。这是因为在这里为了验证数据集多语言对齐的优势,跨语言模型是以某一种语言为中心训练得到(如英语为中心的跨语言生成模型的训练数据由en->fr、en->es、en->de、en->zh组成),相对于单语言训练,有更多的数据,且数据之间有比较高的语义对齐,故而有更好的表现。(2) 相较于别的语言,中文在跨语言生成设定上的表现较差。这是因为中文和别的语言在词表和语法等等方面有比较大的不同,导致中文和别的语言间的跨语言生成能力较为薄弱。
图二: 四个模型在四个任务上的跨语言集成指标得分
除了跨语言生成,论文也对比了单语和多语言训练的效果,结果如表三所示。可以看到大部分情况下多语言训练有更好的模型表现。这是因为 MTG 数据集中的多语言数据完全在所有五种语言中并行,使得不同语言之间的语义融合更好,从而促进多语言的训练表现。
表三:四个模型在四个任务上单语和多语言训练的效果对比
除此之外论文还对zero-shot场景模型表现进行了分析,同时也对是否使用人工修正过的数据进行训练做了消融实验,详见论文实验结果部分。
6
MTG Leaderboard作者还提供了MTG Leaderboard对多语言、跨语言模型进行全面的评估。该leaderboard以论文提出的集成指标为基础,在多语言生成和跨语言生成两个设定下对模型进行了排名。
MTGScore 旨在评估多语言生成模型。它是模型在所有语言和任务上的集成指标得分平均值。
MTGScore-XL 通过在20个跨语言方向上测试模型,可以更好地评估跨语言生成能力。它是模型在所有任务和所有跨语言方向的集成指标得分的平均值。
四个多语言预训练模型的得分如下:
表四:四个多语言预训练模型的MTGScore和MTGScore-XL得分
7
总结在本文中,作者提出了一种多语言且语言间对齐的文本生成数据集 MTG。它包含四个典型的生成任务:故事、问题、标题生成和文本摘要,涵盖了五种语言:英、法、西、德、中。MTG 的最大特点是它具有多语言间完全对齐的数据。使得任意两个数据集包含的语言间的跨语言数据构造成为可能。另一方面,它提供了更多的评估场景,例如多语言训练、跨语言生成和零样本迁移。本文还对四个经典多语言预训练模型在不同场景下进行了多种指标下的分析,该数据集以及分析结果有助于促进多语言生成领域进一步发展。
参考文献
[1] Xglue: A new benchmark dataset for cross-lingual pretraining, understanding and generation. (Liang et al., EMNLP 2020)
[2] MLSUM: The Multilingual Summarization Corpus (Scialom et al., EMNLP 2020)
[3] Contrastive Aligned Joint Learning for Multilingual Summarization (Wang et al., ACL-IJCNLP 2021 Findings)
[4] Ncls: Neural cross-lingual summarization. (Zhu et al., EMNLP 2019)
[5] WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive Summarization (Ladhak et al., EMNLP 2020 Findings)
声明:以上内容来源于网络,如有侵权请联系我们(123@shiyan.com)删除! |