日本語−ウイグル語機械翻訳
ウイグル語と日本語
ウイグル語は中国の新疆ウイグル自治区などで使用されている言語です.言語学的には,アルタイ語族テュルク諸語に属する言語と言われています.
もっと大きな分類では,膠着語と呼ばれる言語の仲間であり,日本語も膠着語です (ちなみに,英語やドイツ語は屈折語,中国語は孤立語という分類になります).実はこのウイグル語は,日本語と文法的に良く似た言語なのです.図1は,日本語の「肉をたくさん食べた」をウイグル語に翻訳した例です.なお,現在のウイグル語ではアラビア文字を使うのが主流ですが,読みやすさを考慮して,ここではローマ字を使用しています.
日本語の各単語を翻訳し,それを繋げるだけで翻訳ができています.
これは日本語とウイグル語に共通する以下のような性質があるからです.
- 語順がほぼ同じ
- 名詞の後に助詞がつくことによって,文中での意味を表す
- 主語はなくても良い
我々の研究室では,こうした類似点に着目して日本語−ウイグル語機械翻訳の研究を進めています.
ウイグル語と派生文法
日本語とウイグル語が似ていると書きましたが,実は動詞の扱いに違いがあります.日本語の動詞は活用しますが,ウイグル語の動詞は活用しません.そのため,そのままだと日本語の活用処理が必要となります.
しかし,日本語は活用していないとする派生文法を使えば,この問題は考える必要がなくなります.
例えば「書かせられました。」のような複雑な動詞句を処理する場合を考えます.従来の活用に基づく場合は,動詞「書く」の未然形に助動詞「せる」の未然形が接続して,その後に助動詞「られる」の連用形が続いて……,のように複雑な処理が必要になります.
しかし,派生文法の考えに従えば,図2のようになります.この場合,動詞の活用を考える必要もありませんし,動詞接尾辞もウイグル語の接尾辞と綺麗に対応しています.なお,ウイグル語の受身の接尾辞が“(i)l”となっているのは,括弧内の“i”が,派生文法のところで説明した連結母音であることを示しています.つまり,連結母音は日本語だけでなく,ウイグル語にもあるのです.
我々の研究室では,派生文法を利用することによって,日本語とウイグル語の類似点をより明確にし,それに基づいた日本語−ウイグル語機械翻訳を進めています.