人类有超过7000种语言,其中包括使用人数不多、相关资料稀少的“小众语言”。美国“元”公司新研发的一个人工智能模型,能翻译200种不同语言,实现了对较多“小众语言”在线翻译。
人工智能翻译目前多利用基于人工神经网络的模型翻译各种语言。这些模型通常需要大量可在线获取的训练数据。不过,有些特定语言的数据尚不能公开和低成本获取或普遍可及,这类语言又被称为“低资源语言”。
“元”公司团队新研发的一种跨语言技术,能让基于人工神经网络的翻译模型学习如何利用已有的翻译高资源语言的能力来翻译低资源语言。团队应用该技术开发了一个名为NLLB-200的在线多语言翻译工具,可容纳200种语言,其能翻译的低资源语言的数量是高资源语言数量的3倍。这一研究成果近期发表在英国《自然》杂志上。