先週の金曜日に京都で開催されたJTF翻訳祭にて、日本知的財産翻訳協会(NIPTA)の「NIPTA特許機械翻訳研究会」の研究内容報告にて登壇をさせていただきました。
タイトルは「NMTみんなで使ってみました」という90分の枠でした。私は6人の登壇者の1名として15分ほど発表をさせていただきました。
お越しいただきましたみなさま、どうもありがとうございました。
私は「NIPTA特許機械翻訳研究会」の活動に去年の10月から参加させていただきまして、他のメンバーの方々とともにニューラル機械翻訳について学んできました。
この発表では、各分野(電気、機械、化学)の特許明細書での英日・日英翻訳において、3種類のニューラル機械翻訳の訳文がどのような特徴がありどのようにすれば訳文として使えるレベルになるのかを各担当の方々が紹介されました。
その後に、私が翻訳者+ツール開発者としてニューラル機械翻訳を利用するのであればどのようにアプローチするのかを紹介しました。
以下、私の担当部分を簡単に紹介します。
<目次>
誤訳例
セミナーで紹介した誤訳は以下のようなものです。研究会のメンバーで分野毎に複数の翻訳エンジンの訳文を比較したときに気がついたものです。
(英日・日英翻訳共通)
・専門用語の間違い(誤訳、略語の誤判定)
・訳揺れ(文章間で異なる訳語)
・訳もれ(単語、文章単位、肯定/否定)
・並列関係の間違い
・フローティング(単語、フレーズが追加される)
・数字の誤記(日付、数値、参照符号の分離)
・主語や係り受けの間違い
・MT出力に起因する間違い(単語の繰り返し)
・全角/半角の表記
(英日)
・常体と敬体が混在
(日英)
・単数/複数の間違い
このような特徴を持つニューラル機械翻訳をどのように使えばいいのかを考えてツールを開発してきました。
ニューラル機械翻訳(NMT)の弱点を克服するツール
私たちが検証したのは、複数段落の特許明細書(実施例、クレーム)の機械翻訳結果でした。
この場合、訳語の不統一など後で修正する(ポストエディットをする)のは大変な手間になるのがわかりましたので、翻訳者が文章単位で誤訳をチェックしつつ訳文を作るというアプローチにしました。
また、原文を適切に前処理(プリエディット)すると訳文の質が上がることが分かっていますので、そのノウハウを用いてプリエディット作業をしやすいツールにしています。
同様に、生成された訳文の編集(ポストエディット)もしやすいツールになっています。人の判断がいらない編集は自動的に実行します。
あと、気持ちの面なのですが、NMTの訳文を必ず使わなければならないわけではなく、「使えたらラッキー」程度にしておけばいいのではないかと考えています。
上述のとおり、様々な誤訳がありますし、特許翻訳では図面を照らし合わせないと文面だけでは理解できない文章がよくあるからです。
そのようなわけで、翻訳者が自分で訳すときに文字入力がしやすい仕組みも備えています。
自動化の考え方は「2秒×1000回=30分」と同じで、手作業ですると数秒かかるような作業をワンクリックで実行できるように細かい自動処理を盛り込んだツールです。
翻訳祭では限られた時間でしたので、ツールのコンセプトの紹介にとどめて実際のデモはしませんでした。
このツールは「GreenT(グリーンティー)」として今後公開していくものです。ご興味のある方はこちらのページをご覧ください。動画説明など徐々にアップしていきます。
機械翻訳の活用例
今回の翻訳祭では機械翻訳についてのセッションが多くありました。
LinkedInのマネージャーのMike Dillinger氏による「How Machine Translation can help you most」で、Dillinger氏は機械翻訳を効果的に活用する条件の例を以下のように説明していました。(紹介していたことの一部です)
- 機械翻訳以外ではできない仕事(短納期で大量の翻訳)
- カスタマイズができる機械翻訳エンジンを使える場合
Dillinger氏は全ての案件に機械翻訳を使うことは推奨しておらず、機械翻訳には適した役割があるという感じの説明だったと思います。(資料が手元にないのでうろ覚えですが)
特に翻訳エンジンのカスタマイズについて強調していました。「アダプテーション」という技術で分野毎に適した翻訳エンジンを設定できるので、そういうエンジンを活用する(もしくはそういうエンジンを所有する)ことを提案されていました。
カスタマイズできない翻訳エンジンを使った場合、分野に適さない訳文となることがあるので、それを手直ししたりすると時間がかかって割に合わなくなる可能性があるからです。
なお、この手直しの量は訳文の用途(社内での確認用、出願用の特許明細書)に応じて変わるので、ケースバイケースで評価することになると思います。
いずれにしろ、今後、機械翻訳が進化してそれぞれの分野に(今よりも)適した訳文が生成できるようになると思います。徐々に使い方自体も工夫されてくるんだと思います。
GreenTのカスタマイズ性
ちなみに、私が開発している「GreenT」では、翻訳エンジンにGoogle Translate APIを使っています。これは特定分野に特化したものではなく汎用のエンジンと呼ばれています。
つまり、アダプテーションがされていないということです。そのため、GreenTでは専門用語(名詞)の用語集を用いて分野に適した訳文となるよう内部で制御をしています。
専門用語がきちんと反映されているだけで、かなり「意味が通じる」訳文になります。
これ以外にも、日付の表記や和文の常体・敬体の表記など統一する機能がついています。また、特許分野ではそれ相応の表記になるように少し編集しています。
プリエディットもポストエディットも翻訳者のノウハウを蓄積して自動処理できるようになっています。こういう意味で翻訳エンジンをカスタマイズできます。
今後、特定分野にアダプテーションを施した翻訳エンジンも使えるように準備を進めています。アダプテーションがなされていると名詞だけでなく動詞も適切に訳される可能性が高くなるため、より使いやすい(編集しやすい)訳文が生成できると思います。