ニューラル機械翻訳(NMT)においては、訳語の揺れや誤訳があります。そのため、GreenTでは用語集に基づく訳文を出力できます。GreenTは翻訳者が使うことを前提としているため、用語集作りから始める手順としています。
また、原文が読みづらいことに起因する誤訳もNMTにはありがちです。そのため、簡単にできる修正であれば原文を少し修正(プリエディット)して訳文の出力結果を変える仕組みが備わっています。
以下、プリエディットで訳文の出力がどのように変化するのか紹介しています。
ただし、GreenTで用語集を適用すると、訳語が正確に反映されなかったり文章が破綻したりすることがあります。また、数字も誤訳されることもあります。
これらを踏まえ、出力された訳文を修正(ポストエディット)し最後にチェックする手順となっています。
簡単なポストエディットの例を紹介します。
出力される訳文が使いにくい場合には、エンジンを変更できます。デフォルトでは4種類のエンジンを利用できます。
上記のようなプリエディットやポストエディットをせずともある程度の自動処理をしています。以下、特許翻訳用のチューニングですが、今後他の分野でも同様の自動処理を適用していきたいと思っています。
QAチェックでは、機械的に数字や用語をチェックします。目視確認では見逃しそうな誤訳を瞬時にチェックできます。