最近話題の機械翻訳エンジンDeepLを試されましたか?周りにいる翻訳者や、翻訳会社や特許事務所の方と話をしていても性能がよいと評判です。
2020年6月1日 ニューラル機械翻訳支援ツールGreenTでもDeepLを利用できるようにいたしました。
翻訳者の方であれば、Lingueeをご存じだと思います。訳語や専門用語の意味を検索すると、よく訳文検索サイトの「Linguee」にたどり着きますよね。
このサイトの運営会社が作った翻訳エンジンです。2020年3月に日本語と中国語に対応しましたが、以前からヨーロッパ言語同士の翻訳性能が高いことで有名でした。
DeepLについては無料版がウェブで公開されており、セキュリティの高い有料版も提供されています。
今のニューラル機械翻訳がどの程度までできるのか、無料版のDeepLとGoogle翻訳を使って比較してみました。
<目次>
評価の視点について
これまで有料・無料を含め、様々な機械翻訳エンジンの出力文を評価してきました。この評価の目的は、翻訳者がニューラル機械翻訳を実務で使うのであれば(つまり、機械翻訳を文字入力の支援として使うのであれば)、どう活用するのであろうか?ということです。
このときの性能の評価基準がけっこう難しいのです。機械翻訳の出力文って細かいところまで見ると何かと誤訳があって突っ込みどころがあります。
誤訳にフォーカスしすぎると「実務者として機械翻訳を活用する」というスタンスから離れてしまいます。私が出力文を評価するときには出力文の誤訳は気にせず、「自分が望む(クライアントが望む品質の)訳文に修正しやすい文であるか否か」を基準にしています。
こういうこともあり、私が開発する実務者向けのツール「GreenT」では、機械翻訳には誤訳があることを前提にして、誤訳を自動検出し修正する機能を強化しているのです。出力文の数字や用語があっていれば修正箇所が減るので、その点に注力して開発を進めています。
話が横道にそれましたが、この記事での比較では、専門用語の正しさを比較するのではなく、構文を正しくとらえられているのかという点を見ていきます。修正しづらい出力文というのは、「係り受けが間違っているために、何がどこに書かれているのか見当がつかない文」であることが多いからです。
使用するサンプル文について
機械翻訳には誤訳があると書きましたが、機械翻訳のエンジンによらず、(正確な翻訳が求められる)特許の新規出願で使う訳文としても手直しをしなくてもOKという品質の出力文になることもあります。ただ、それの場合は、原文が短くてシンプルな構造であったり、一般的な技術用語だけで書かれていたり、文脈に関係のないものだったりする時です。
実務では、翻訳対象の文書はそのような文だけで構成されているわけではありません。なので、ごくたまに登場するだけの文章をサンプルにして、機械翻訳の性能の良し悪しを言ってもしょうがないなと感じています。
一方で、文書中には一度読むだけでは理解できないような文も登場します。文脈や、その分野の背景知識、文法などを頼りにしないと言葉の係り受けがわからないのです。使われている専門用語の意味が分からない場合もあります。
このような難解な文章を機械翻訳の性能評価に使ってもしょうがないなと思うのです。機械翻訳が誤訳するのは当然だと思うからです。そして、機械翻訳の出力文が正しいのかどうかの判断にも時間がかかりますし、ここを丁寧に評価してもあんまり意味がないと思います。
で、上記のような平易な文と難解な文と中間的な文が含まれる割合って分野によっても文書によっても異なるし、書き手のスタイルにも左右されるし、そもそも平易と難解の基準も翻訳エンジンによって異なるのです。
比較することで評価する
上記のようなわけで、機械翻訳の評価で使うサンプル文ってけっこう重要なんですよね。自分が主張したいことに合わせたサンプル文を使えば、どうにでも結論をコントロールできてしまいますから。
気をつけないと、知らぬ間に「嘘じゃないんだけど、実務では当てはまらない(本当じゃない)」結果を、もっともらしく論ずることになってしまいかねません。
こういうことはしたくないので、この記事では、「Google翻訳では正確に文の構造をとらえられない場合でもDeepLであれば正しくとらえられる場合があった」という切り口でDeepLを紹介しようと思います。
私がブログで「Google翻訳では訳せないけど、GreenTでは正しく訳せますよ」と紹介していたサンプル文や、公開されている特許文献からのサンプル文を使います。
(参考:原文を意味で区切り翻訳する方法、英日特許翻訳における意味の区切りによる翻訳例)
結果的にGoogle翻訳には分が悪い記事になりましたが、DeepLはある程度の長文でも文の構造をとらえられるな、こういうこともあるな、という程度の結論であり、分野によってもサンプル文によっても評価結果が変わりうる(Google翻訳のほうがすぐれている)こともご理解ください。
DeepLにはできないけどGoogle翻訳にはできる例については、まとめられたら今後紹介したいと思います。
日英特許翻訳①
原文
遷移金属触媒として、クロロ[[1,3-ビス(2,6-ジイソプロピルフェニル)イミダゾール-2-イリデン](アセトアニリド)パラジウム(II)]を用いる請求項1~8のいずれか1項に記載の多環式化合物の製造方法。
Google翻訳(2020年4月15日)
The chloro [[1,3-bis (2,6-diisopropylphenyl) imidazole-2-ylidene] (acetanilide) palladium (II)] is used as the transition metal catalyst, according to any one of claims 1 to 8. A method for producing a polycyclic compound.
DeepL(2020年4月15日)
A method for producing a polycyclic compound according to any one of claims 1 to 8, wherein chloro [[1,3-bis(2,6-diisopropylphenyl)imidazole-2-ylidene](acetanilide)palladium(II)] is used as a transition metal catalyst.
コメント
Google翻訳の場合、2文に分割されてしまっています。化学式に含まれる半角スペースを削除するのも面倒ですね。特許翻訳者や特許の実務者であれば、DeepLの出力文のほうが修正しやすいと評価すると思います。
日英特許翻訳②
原文
かかる燃料噴射弁は、ノズルボディと、該ノズルボディの内部に設けられているノズルニードルとを備えており、ノズルボディの燃料室側には、ノズルボディの内部と燃焼室とを連通する孔である通路孔が形成されている。
Google翻訳(2020年4月19日)
Such a fuel injection valve includes a nozzle body and a nozzle needle provided inside the nozzle body, and a fuel chamber side of the nozzle body is provided with a hole that connects the inside of the nozzle body and the combustion chamber. A passage hole is formed.
DeepL(2020年4月19日)
Such a fuel injection valve is equipped with a nozzle body and a nozzle needle provided inside the nozzle body, and a passage hole, which is a hole connecting the inside of the nozzle body with the combustion chamber, is formed on the fuel chamber side of the nozzle body.
コメント
Google翻訳では、文が長くなると出力文の末尾に文の一部が訳出されることがあります。上記のような場合もありますが、"To be done."などの句が表示されることもあります。DeepLでは長文でもこのようなことがないようです。
日英特許翻訳③
原文
さらに、特にディーゼルエンジンなどの自然着火型の内燃機関では、燃料室内にどのように燃料を噴射するかにより、燃焼特性が変化するため、該燃焼特性を効果的に制御するべく、噴霧形状が意図せず変化することを抑制することが望まれる。
Google翻訳(2020年4月19日)
Furthermore, in a spontaneous ignition type internal combustion engine such as a diesel engine, the combustion characteristics change depending on how the fuel is injected into the fuel chamber. It is desired to suppress the change without doing so.
DeepL(2020年4月19日)
Furthermore, the combustion characteristics of naturally-ignited internal combustion engines, especially diesel engines, change depending on how the fuel is injected into the fuel chamber, so in order to effectively control the combustion characteristics, it is desirable to control the unintentional change in spray shape.
コメント
これもGoogle翻訳が長文に弱い例です。Google翻訳では訳抜けが発生し、意味不明な文が末尾に出力されています。
日英特許翻訳④
原文
次に、図3を用いて、本実施形態の作用効果について詳述する。
Google翻訳(2020年4月19日)
Next, the function and effect of this embodiment will be described in detail with reference to FIG.
DeepL(2020年4月19日)
Next, using Fig. 3, the action effect of the present embodiment will be described in detail.
コメント
今回の例文では、Google翻訳では数字の抜けが発生しています。
Google翻訳は図面番号に弱いという印象があります。後述の通り、英日翻訳でも誤訳する場合があります。翻訳エンジンのトレーニングで使ったコーパスで、FIG. のピリオドで文末が区切られていたのではないかと疑ってしまうほどです。
英日特許翻訳①
原文
Example of indicators of this type are disclosed in greater detail in U.S. patent application Ser. No. 10/773,897, filed Feb. 6, 2004 and entitled “ACTIVE ENCLOSURE FOR COMPUTING DEVICE,” which is herein incorporated by reference.
Google翻訳(2020年4月15日)
このタイプのインジケーターの例は、米国特許出願第08 / 079,064号に詳細に開示されている。 2004年2月6日に出願され、「コンピューティングデバイスのための能動的エンクロージャ」と題された米国特許出願第10 / 773,897号は、参照により本明細書に組み込まれる。
DeepL(2020年4月15日)
このタイプのインジケータの例は、2004年2月6日に出願された「ACTIVE ENCLOSURE FOR COMPUTING DEVICE」と題された米国特許出願第10/773,897号に、より詳細に開示されており、参照により本明細書に組み込まれている。
コメント
Google翻訳は2文に分割され「米国特許出願第08 / 079,064号」という原文にない情報が出力されています。DeepLでは1文になりました。意外と長い文でもいけますね。「which is herein incorporated by reference」の係り受けが間違っていますが、これは修正しやすい誤訳箇所だと思います。
英日特許翻訳②
原文
That is, once the laptop computer 250 recognizes the media device 200 and determines that the media device 200 includes media functionality, the laptop computer 250 can be configured to automatically deliver all or a select few of the media files (e.g., audio tracks) stored in the laptop computer 250 to the memory of the media device 200.
Google翻訳(2020年4月15日)
すなわち、ラップトップコンピュータ250がメディアデバイス200を認識し、メディアデバイス200がメディア機能を含むと決定すると、ラップトップコンピュータ250は、格納されたメディアファイル(例えば、オーディオトラック)のすべてまたは選択したいくつかを自動的に配信するように構成され得る。ラップトップコンピュータ250において、メディアデバイス200のメモリに。
DeepL(2020年4月15日)
すなわち、ラップトップコンピュータ250がメディアデバイス200を認識し、メディアデバイス200がメディア機能を含むと判断すると、ラップトップコンピュータ250は、ラップトップコンピュータ250に記憶されているメディアファイル(例えば、オーディオトラック)のすべてまたは選択されたいくつかを、メディアデバイス200のメモリに自動的に配信するように構成することができる。
コメント
比較的長い文の例です。Google翻訳では文の後半で崩れてしまっています。DeepLでは文章構造を正確にとらえていることがわかると思います。
英日特許翻訳③
原文
FIG. 9C is a block diagram of a second surface of the media device shown in FIGS. 9A and 9B according to one embodiment of the invention.
Google翻訳(2020年4月15日)
図。図9Cは、図8Aおよび図8Bに示されるメディアデバイスの第2の表面のブロック図である。本発明の一実施形態による図9Aおよび9B。
DeepL(2020年4月15日)
図9Cは、本発明の一実施形態による、図9Aおよび9Bに示された媒体装置の第2の表面のブロック図である。
コメント
Google翻訳では少なくとも半年くらい前は「イチジク。」と出力していました。これは長いことGoogle翻訳の癖として指摘されていた有名な誤訳です。今は「図。」になるんですね。これも改善というかちょっとよくなりました(笑)。でも全体としてひどい誤訳をしています。DeepLは正確に訳しています。
(参考:【セミナー報告】2019/03/07(木)東京 日本翻訳連盟(JTF)翻訳セミナー)
日英翻訳(特許以外の分野)
特許以外の分野では、Google翻訳の性能を評価してこなかったのでちょうどいい例文が手元にありません。すみませんが割愛します。
英日翻訳(特許以外の分野)①
原文
Microsoft Translator (which includes apps for Android, iOS, Windows, Presentation Translator, Translator Hub, Translator Live, Translator for Bing, and Translator for Microsoft Edge, collectively “Translator” ) processes the text, image, and speech data you submit, as well as device and usage data.
Google翻訳(2020年4月15日)
Microsoft Translator(Android、iOS、Windows、Presentation Translator、Translator Hub、Translator Live、Translator for Bing、Translator for Microsoft Edgeのアプリを含み、まとめて「Translator」)は、送信したテキスト、画像、音声データを次のように処理します同様にデバイスと使用状況データ。
DeepL(2020年4月15日)
Microsoft Translator(Android、iOS、Windows、Presentation Translator、Translator Hub、Translator Live、Translator for Bing、およびTranslator for Microsoft Edge用のアプリを含み、総称して「Translator」)は、あなたが提出するテキスト、画像、および音声データだけでなく、デバイスや使用状況のデータを処理します。
コメント
今回の例文では、括弧内の挿入句が長く主語が長くなっています。やはり長文になるとGoogle翻訳では文章が壊れるようです。
英日翻訳(特許以外の分野)②
原文
The product should not be operated by those under 18 years of age, or those with physical or mental disorders, or disabilities that lack the necessary knowledge or experience unless with appropriate instructions and sufficient safety.
Google翻訳(2020年4月15日)
18歳未満の方、または身体的または精神的な障害のある方、または適切な指示と十分な安全性がない限り、必要な知識や経験のない方はこの製品を使用しないでください。
DeepL(2020年4月15日)
本製品は、適切な指示と十分な安全性がある場合を除き、18歳未満の方、心身に障害のある方、または必要な知識や経験のない障害のある方が操作しないでください。
コメント
何れの翻訳エンジンでも、原文の「mental disorders, or disabilities」のコンマが邪魔をして係り受けが間違っています。
それでも、DeepLでは全体として原文の構文を正確に反映していると思います。