対訳表現自動抽出

機械翻訳と対訳辞書

機械翻訳とは,ある言語で書かれた文書を他の言語へ変換する作業をコンピュータによって行うことです.これまでにも様々な研究がなされており,現在も盛んに研究が行われています.

こうした翻訳においては,対訳辞書と呼ばれる翻訳用の辞書が必要となります.皆さんが普段使用している英和辞書なども対訳辞書の一種です.こうした辞書を人間の手で作成する場合,多くの人と時間が必要になります.

日本語と英語との間の辞書であれば,もう充分大きな辞書があるじゃないか,と思うかもしれませんが,専門用語に関しては不十分な分野もありますし,世の中では新しい語が次々と産まれてきます.また,日本語で使用する人が少ない言語の辞書は,あまり大くの単語を含んでいません.

そうした問題を簡潔するために,コンピュータを使って辞書を作ろうという研究があります.その一環として,対訳表現自動抽出があります.

対訳表現と対訳コーパス

対訳表現とは,ある言語の表現と,それに対応する別の言語の表現のペアを言います.「犬」と“dog”のような単語同士のペアだけでなく,「楽しみにしています」と“I'm looking forward to”のような長い表現も含んでいます.

こうした対訳表現をどうやって集めるのでしょうか? それにはまず,ある言語で書かれた文書と,それを他の言語に翻訳した文書を大量に集めます.このように集められた文書をコーパスと呼びます.今回のようにある文書とそれを翻訳した文書のペアの場合は,特に対訳コーパスと呼びます.

コーパスは,自然言語に関する研究を進める上で重要な資源であり,これまでに様々なコーパスが作成されています.我々の研究室でも日英法律文コーパスを始めとして,各種のコーパスを作成しています.

対訳表現自動抽出

では,対訳コーパスから,どのように対訳表現を抽出するのでしょうか? それには,以下の仮定を用います.

仮定1
文 S にある語 x が含まれていれば,文 S を翻訳した文 S' に,xの訳語 x' が含まれている.
仮定2
文 S にある語 x が含まれていなければ,文 S を翻訳した文 S' に,xの訳語 x' が含まれていない

簡単な例を挙げますと,例えば「コンピュータ」という語を含んだ「コンピュータの進歩が人類を変える.」という文の翻訳には,“computer”という語が含まれているはずですし,「明日は雨の予報です.」のように「コンピュータ」を含まない文の翻訳には“computer”が含まれているはずはありません.

こうした仮定の元,以下の順番で対訳表現を推定します.例として,日本語とそれを謎の言語に翻訳した対訳コーパスから,「電話勧誘販売」の対訳表現を推定することを考えます.

1. 対訳コーパスから「電話勧誘販売」を含んでいる日本語文と,その翻訳文を集めます.

2. それらの翻訳文のすべてに出現する表現を収集します.

第十八条、第十九条及び第二十一条から前条までの規定は、次の電話勧誘販売については、適用しない。 Uif qspwjtjpot pg Bsujdmft 18, 19, boe 21 up 25 tibmm opu bqqmz up uif gpmmpxjoh Ufmfnbslfujoh Tbmft
老人その他の者の判断力の不足に乗じ、電話勧誘販売に係る売買契約又は役務提供契約を締結させること。 bo bdu pg ubljoh bewboubhf pg uif jnqbjsfe kvehnfou pg bo fmefsmz ps puifs qfstpo boe ibwjoh tvdi qfstpo dpodmvef b tbmft dpousbdu ps b Tfswjdf Dpousbdu qfsubjojoh up Ufmfnbslfujoh Tbmft;
前三節の規定は、次の販売又は役務の提供で訪問販売、通信販売又は電話勧誘販売に該当するものについては、適用しない。 Uif qspwjtjpot pg uif qsfdfejoh uisff tfdujpot tibmm opu bqqmz up uif gpmmpxjoh tbmft ps pggfs pg tfswjdft uibu gbmm voefs Epps-up-Epps Tbmft, Nbjm Psefs Tbmft, ps Ufmfnbslfujoh Tbmft
第二十条の規定は、割賦販売等で電話勧誘販売に該当するものについては、適用しない。 Uif qspwjtjpot pg Bsujdmf 20 tibmm opu bqqmz up jotubmmnfou tbmft, fud. uibu gbmm voefs Ufmfnbslfujoh Tbmft.

ここが仮定1に対応します.この段階で,上の表のように “uif”,“pg”,“up”,“tbmft”,“Ufmfnbslfujoh Tbmft”という五つの表現がすべての翻訳文に現れていますので,これらを対訳表現の候補とします.

3. 対訳表現候補が,「電話勧誘販売」を含まない他の日本語文の翻訳に出現するかどうか調べ,出現した場合は取り除きます.

第四条から第十条までの規定は、次の訪問販売については、適用しない。 Uif qspwjtjpot pg Bsujdmft 4 up 10 tibmm opu bqqmz up uif gpmmpxjoh Epps-up-Epps Tbmft
老人その他の者の判断力の不足に乗じ、訪問販売に係る売買契約又は役務提供契約を締結させること。 bo bdu pg ubljoh bewboubhf pg uif jnqbjsfe kvehnfou pg bo fmefsmz ps puifs qfstpo boe ibwjoh tvdi qfstpo dpodmvef b tbmft dpousbdu ps b Tfswjdf Dpousbdu qfsubjojoh up Epps-up-Epps Tbmft;
商品若しくは権利の販売のあつせん又は役務の提供のあつせんについては、当該あつせんについて条件のあるときは、その内容 Xjui sfhbse up nfejbujpo pg tbmft pg uif Hppet ps uif sjhiut ps nfejbujpo pg pggfst pg tvdi tfswjdft, xifsf uifsf bsf boz dpoejujpot pg tbje nfejbujpo, uif efubjmt pg tvdi dpoejujpot

ここが仮定2になります.上の表では,日本語文に「電話勧誘販売」がありません.しかし,翻訳文には,“uif”,“pg”,“up”,“tbmft”が出現していますので,これらを対訳表現の候補から取り除き,最終的に“Ufmfnbslfujoh Tbmft”を対訳表現として得ることになります.実際には,複雑な計算式があって,それを利用して候補を絞りますが,基本的な考え方は上記の通りです.

この手法の良い点は,対訳コーパスがあれば,言語に関する知識が何もなくても適用可能な点です.実際,例のような謎の言語からも対訳表現を獲得することができました.

なお,この謎の言語の正体ですが,これは英語のアルファベットを a→b,b→c,…,z→a のように一文字ずつずらしたものです. つまり,“uif”,“pg”,“up”,“tbmft”,“Ufmfnbslfujoh Tbmft”は,それぞれ“the”,“of”,“to”,“sales”,“Telemarketing Sales”に対応します.この方法により,「電話勧誘販売」の訳語として“Telemarketing Sales”を得ることができ,“the”,“of”,“to”のような一般的な語が排除されることが分かります.

こうした対訳表現自動抽出をビジュアル化し,ユーザが対話的に使用できるようにしたものが我々の研究室で開発したBilingual KWICです.