【セミナー報告】2019/08/27（火）東京 TCシンポジウム機械翻訳を活用したエディティング

先日、東京で開催されたTCシンポジウムにて株式会社川村インターナショナルの森口功造さんとともにミニセッションを担当させていただき、「機械翻訳を活用したエディティング　～プリエディットとポストエディットによる最適化～」のタイトルで発表をいたしました。

朝早くからお越しいただきましたみなさま、どうもありがとうございました。また、TCシンポジウムを主催いただいている実行委員のみなさま、発表の機会をいただきましてどうもありがとうございました。

＜目次＞

開催概要

日時：2日間のイベントです。私は27日に発表いたしました。

2019年8月27日（火）　10:15 ～16:30（展示会は17:00まで）
2019年8月28日（水）　10:15 ～16:30（展示会は16:00まで）

場所：東京学芸大学小金井キャンパス

内容

このミニセッションでは、機械翻訳の出力文をエディットする際に気をつけることや編集のコツなどについて発表しました。

去年の株式会社川村インターナショナルさんの同シンポジウムでの発表により、機械翻訳のエラーについては説明がされているため、そのエラーを踏まえてどのようなアプローチで機械翻訳と向き合うのかを紹介しました。

私自身が機械翻訳のポストエディット案件を担当したことの経験や、機械翻訳の導入のコンサルティングの経験、あと機械翻訳を導入されている方（翻訳会社、翻訳者）との意見交換等を踏まえてこの発表の準備をしました。

機械翻訳の導入での注意点

機械翻訳を導入する際には、クライアントが求める「品質」を定義することが重要です。目指すべき訳文の品質がないと何をどこまでエディットするのかわからなくなるからです。

上記で「視点」と書いてあります。セミナーでは以下のスライドを紹介しました。

この箇条書きではわかりづらいかもしれないので、「【機械翻訳】翻訳を評価する「視点」の違いについて」もあわせてご覧ください。

「正しい訳文」がどの程度の情報を考慮したうえでの正しさなのか、クライアントと合意する必要があると思います。

たとえば、簡単な例でいえば専門用語を業界標準の言葉に正確に訳す必要があるのか、それとも機械翻訳が出力した結果をそのまま利用してもよいのか、といったことです。書類の用途によっては、専門用語でさえ機械翻訳の出力でOKとされることがありえます。

つまり、「通常の人手翻訳のように専門用語の１つ１つを裏取りをして訳語を決める必要性」の有無を決めておかないと、修正対象も修正方法もわからなくなってしまうということです。

この点についての説明を始めると発表の本題に入れなくなると思っていたので、上記のスライドを印刷資料に入れませんでした。上記内容をご確認ください。

機械翻訳のエディットの手順

私は機械翻訳のエディットをする際に、以下のような手順になると思っています。一例ですが、私は原文ファイル全体に目を通す時間を必ず設けて、文書の役割や想定する読者をイメージします。

このときに機械翻訳が難しそうな箇所も見つけておきます。

この手順は案件に与えられている時間や期待される品質、書類の長さなどにより変わりうるので一般化できないと思います。案件ごとにご検討ください。

あと、翻訳メモリのほうが使いやすい場合もあるので、必ずしも機械翻訳の出力を使わなくてもよいことも説明しました。

さらに、手翻訳のほうが訳しやすい文章は手翻訳をすればよいということも説明しました。

エディットの注意点

対象となる翻訳を短時間で仕上げることを想定しています。その場合、原文の編集方法に頭を悩ませてああだこうだ検討するのは時間の無駄と思います。訳文づくりに時間をかけるべきであって、原文編集には時間をかけないほうがいいと思います。

なので、まずは原文をそのまま機械翻訳にかけた結果をみて、ポストエディットがしにくい場合にかぎり原文を編集するというプロセスを提案しました。

プリエディットの例

紹介をしたうち2つの例を紹介します。TCシンポジウムでは日本語のマニュアルの英訳が多いということで日英翻訳におけるプリエディット方法を紹介しました。

ここで紹介した例においては、出力される英文が意味や文法面で正しいかどうかを検証しませんでした。文章の構造を壊さずに訳文を出力する方法を検討しています。

丸数字の対処方法

原文ファイル全体の一括置換で対応できることがあります。典型的な例は丸数字です。丸数字があると訳文の構造が壊れたりおかしな意味になることがあります。

原文	機械翻訳の出力
①接続先については、今後検討していく。	1We will consider the connection destination in the future.
㊿接続先については、今後検討していく。	We will study 50 connection destinations in the future.

この丸数字を(1)や（２）など丸括弧で囲んだ数字に変換するだけで機械翻訳の出力が安定します。括弧も数字も全角でも半角でも同じ結果でした。

修正後の原文	機械翻訳の出力
(1)接続先については、今後検討していく。	(1) We will consider the connection destination in the future.
(50)接続先については、今後検討していく。	(50) We will consider the connection destination in the future.

無生物主語への変換

日本語の文章における「●●においては、」「●●では、」の「●●」を無生物主語にした文章に編集すると英文が自然な表現になることが知られています（「【書籍紹介】英文“秒速”ライティング」をご参照ください）。この考え方は、私が開発しているニューラル機械翻訳の支援ツール「GreenT」の説明でもたびたび用いています。

プリエディットの例（日英特許翻訳）
プリエディットの例（日英翻訳）

GreenTでは自動処理をしているので書き換えの手間があまりないのですが、GreenTを使わない場合にはもう少し手間がかからない方法がいいですよね。

そこで、手作業で修正することを想定して、日本語の原文を最小限で修正する方法を検討しました。その際に気がついたことがあります。それは、

ということです。

この観点からの修正例を紹介します。

以下のような原文の場合、俗にいう原文が透けて見える訳文が出力されることがあります。

原文	機械翻訳の出力
この論文においては、消費増税の是非について議論されている。	In this paper, the pros and cons of the consumption tax increase are discussed.

これでは格好悪いということで原文をいじるのですが、その際に、中途半端に修正してみます。

「この論文においては」を「この論文は」としてみるのです。日本語としては極めて不自然なのですが、以下のように「This paper」を主語とする訳文が出力されます。

修正後の原文	機械翻訳の出力
この論文は、消費増税の是非について議論されている。	This paper discusses the pros and cons of the consumption tax hike.

この程度の修正で出力される文章の構造が変わるので試すといいですよ、という提案です。出力がおかしかったら、「ついて議論されている」を「を議論している」のように修正してみたらいいです。

最近のGoogle翻訳では、「●●においては、」「●●では、」の文章では無生物主語で訳文を出力することが以前よりも多くなってきているので、将来的には原文を修正しなくてもよくなるのかもしれません。