【色deチェック】英数字が合っているのに誤判定になる例と対処方法(その1)

2020年12月11日

Wordで動く翻訳チェックソフト「色deチェック」のユーザーさんから質問がありまして、以前の無料説明会(2020年9月15日)で回答いたしました。

(2020年12月12日)
動画をアップしました。
英数字が合っているのに誤判定になる例と対処方法(動画)

説明会の参加者の方々から役に立ったという声が多かったので、ブログでも紹介します。いただいた質問のおかげで、色deチェックのユーザーインターフェイスのわかりづらさにも気が付きましたので、今後の開発に反映させます。ご質問をいただいた方、どうもありがとうございました。

なお、ブログで説明しやすいようにいただく質問の内容を編集してあります。無料説明会でもいただいた質問をそのまま回答するのではなく、参加者全員に理解しやすいように編集してから題材として使っています。

質問

チェック結果が以下のようになってしまいました。どのようにチェック項目を設定したらよいのでしょうか。

(チェック前)

(チェック後)

実は、すべて合っているのですが、こんなに黄色(間違っている可能性がある箇所)がついてしまっています。これでは何のためにチェックをしているのかわからなくなります。

私がチェックするとこうなります

私が上記をチェックすると、以下のようになります。黄色にならないような設定はできるのです。

(チェック後)

色deチェックの何が問題なのでしょうか?

設定方法にコツがあります

質問をいただいた方とメールのやり取りをして気が付いたのは、設定項目に工夫が必要だということでした。

この方は化学分野の特許翻訳者です。色deチェックの体験版を利用し始めたばかりで、すべての項目をチェックする必要があると思い以下のように設定されていたのです。

実はこれはやりすぎです。

比較対象のプルダウンメニューで化学分野を選んだ場合でもここまでは選択しません。この項目の選び方次第で誤判定をぐっと減らせるのです。

黄色が出ない設定

ちなみに、私が「黄色が出ないように」選んだのは以下の項目でした。

数字とアルファベット、あと上付きと下付きのチェックだけです。今回の説明のためにあえて項目を絞りました。

また、2ページ目でも項目を絞ります。英文中の大文字アルファベット(頭字語)に関するオプションをオフにします。

項目を選択するときの基本スタンス

チェック項目はみなさんがチェックする対象を見極めて選んでください。選ぶのが難しい場合には、プルダウンメニューから「General」を選んでください。

項目を多くチェックすればいいというものではなく、案件によって変更するくらい慎重に選ぶといいと思います。

ユーザーの好みやチェック対象の文書の種類により自由に変更できるのが色deチェックの強みです。ぜひいろいろ試してください。

設定方法

「案件ごとに項目を変更」といっても、何を基準にすればいいのでしょうか。

まずは必要最低限のチェックをするところから始めます。おそらく、数字、アルファベット、上付き・下付きでしょう。私が上記で説明した項目です。

これらのチェックをして物足りないと感じたときに項目を増やしていきます。

丸括弧は原文と訳文とで使い方が異なることがありますので、外してもよいと思います。化学分野で化学式に出てくるのでチェックしたいという声を聞きます。誤判定を許容できるようでしたらチェック対象にしてください。

(2020年12月12日追記)
数字をチェックするのであればピリオド(小数点)もチェック対象にします。
項目名がわかりづらいのですが、ピリオドではなく小数点をチェックします。
このわかりづらさも今後修正します。

コンマをチェック対象から外す

和文中の「コンマ」をチェック対象から常に除外してください。色deチェックの開発当初の項目、桁区切りコンマをチェックするために作った項目が残ってしまっていました。色deチェックのユーザーインターフェイスのミスです。

また、英文中の半角のコンマはチェック対象から除外されるはずなのですが対象になってしまいます。内部処理でもミスが生じていました。バグです。

私自身がコンマをチェックしていなかったのでバグに気が付いておりませんでした。次のバージョンから項目自体を削除します。わかりづらくてすみません。

今回のように、桁区切りのコンマではなく、and の意味で全角コンマを用いるような書き方の文書においては、原文と和文とでコンマの表記が異なってしまいます。これが誤判定の原因になります。和文の「110150」自体を英文で探します。同じ記述がないので「110150」が黄色になります。

カバー層110150 the cover layers 110 and 150

仮に、以下のような表示だったとしても、英文中のコンマの後に半角スペースが書かれているので「110,」と「150」の独立した要素として判定がなされることになります。

カバー層110150 the cover layers 110, 150

その結果、和文の「110150」は英文にはないし、英文の「110,」も「150」も和文に見つからないという状態になるわけです。

いずれにしてもコンマは誤判定を生じやすいということです。

コンマのチェックについて

コンマのチェックですが、私が10年以上前に色deチェックを開発した際に、米国特許番号に使われていた桁区切りのコンマを英文と和文とで合わせてチェックをするために追加しました。

US Patent No. 1,234,567 米国特許第1,234,567号

しかし、その後、原文と訳文とで桁区切りのコンマを入力する場合としない場合とがあることがわかりまして、[桁区切りのコンマ(全・半角)を無視]というチェック項目を作りました。

これをオンにすれば、以下のような場合にでも同じ番号としてチェックができるのです。

US Patent No. 1,234,567 米国特許第1234567号

なぜなら、[桁区切りのコンマ(全・半角)を無視]をオンにしてコンマを無視する結果、以下のような数字を比較していることになるからです。

US Patent No. 1234567 米国特許第1234567号

ところが今回の場合は、たまたまですが、和文中のコンマが桁区切りのコンマのように読めるのです。

カバー層110150 the cover layers 110 and 150

[桁区切りのコンマ(全・半角)を無視]をオンにしてコンマを無視すると以下のように「110,150」が「110150」と解釈されて比較されます。

カバー層110150 the cover layers 110 and 150

こうするとまた誤判定になってしまうのです。実務のあるあるネタです。なのであまり気にしないでください。

今回のような記述スタイルの場合には、桁区切りのコンマと見なされるコンマの記述があったので誤判定になったわけです。この誤判定を「桁区切りの誤判定がまた出たな」くらいに思えるならば[桁区切りのコンマ(全・半角)を無視]をオンにしてもかまいません。

また、[桁区切りのコンマ(全・半角)を無視]のチェックもオフにしてもいいかもしれません。そうすれば、和文中の「110」と「150」をそれぞれ個別に英文中で探せます。ただ、米国特許番号のような記述では「合っているのに黄色」(誤判定)になります。

結局、機械的にチェックをしているので誤判定は出てしまいます。誤判定の出現頻度やユーザーのみなさんがどのくらい気になるのかによりオン・オフを決めてください。

このように考えていくと、チェック項目を1つ1つ検討しなければならなくなって面倒な気がしますが、使っていくうちにどちらが好きなのかわかると思います。イライラしない方法を選んでください。

チェック項目を選ぶ理由を説明できるようになると、誤判定を減らせるようになりますし、誤判定が出たときに誤判定が出た理由を解釈できるので落ち着いて対処できるようになります。

これまでの設定でこうなります

[英数字記号1]タブの設定を以下のようにします。

以下の結果が得られます。

(チェック結果)

次の記事で、2行目が黄色になっている理由を説明します。

(参考)英数字が合っているのに誤判定になる例と対処方法(その2)

関連記事

-アドイン
-, ,