机器翻译正式度与风格控制及疫苗相关写作语言分析
机器翻译正式度与风格控制
在机器翻译中,控制输出的正式度和风格是一项重要的任务。为了实现这一目标,我们使用特定正式度的数据集,借助AutoML Translate来训练定制模型,使其偏向于相应的语域。
模型训练
- 基础模型选择 :最初使用通用的GNMT模型作为基础模型,针对每个正式度语域和语言对,在基础模型之上训练定制模型。
- 迭代训练 :多次重复训练步骤,每次都将上一步训练的定制模型作为当前步骤的基础模型。训练数据在每一步保持不变,目的是在保持良好泛化能力的同时,使模型强烈偏向于T或V形式。例如,对于法语和西班牙语,训练2 - 3次在偏向特定正式度语域的同时,能最好地保留意义和流畅性。
graph LR
A[通用GNMT模型] --> B[第一次训练定制模型]
B --> C[第二次训练定制模型]
C --> D[第三次训练定制模型]
评估
- 评估设置 :为了评估翻译模型是否成功产生所需的语域,让人类翻译人员根据相同的源片段开发不同正式度语域(正式和非正式)的翻译参考。使用从WMT ’11和’12翻译任务测试集中随机抽取的400个源片段。评估集按正式度级别划分,正式集用于评估正式模型,非正式集用于评估非正式模型。将人类翻译和机器翻译的各正式度级别翻译片段进行人工评估,以评