形態素解析

日本語の形態素解析処理においては,従来,日本語の活用を前提として研究がなされてきた.しかしアルタイ言語学者の清瀬義三郎則府は,日本語は活用しないことを前提とする派生文法を提案した.派生文法を利用することにより,これまで複雑な処理が必要であった動詞の変形(いわゆる活用)が簡明に表現することが可能となり,日本語形態素解析においても単純に処理することが可能となる.

形態素解析グループでは,派生文法を利用した自然言語処理として,以下の研究テーマに取り組んでいる.

派生文法に基づく日本語形態素解析

我々は派生文法に基づいた日本語形態素解析システムMAJO(Morphological Analyzer of Japanese based On derivational grammar)を作成している.

従来の日本語形態素解析においては,用言の活用を扱うための複雑な処理が必要であった.しかし,派生文法に基づくと,活用という概念を用いることなく,形態素文法を構築することができる.派生文法を利用した日本語形態素解析システムに関しては既にいくつかの報告があるが,いずれも既存のシステムを利用して実現されており,そのために文法を変更している.それに対してMAJOは,派生文法に合わせてシステムを構築したものであり,文法規則の数が少ない簡潔なシステムとなっている.

派生文法を利用した日本語-ウイグル語機械翻訳

日本語とウイグル語は言語分類において共に膠着言語であるとされ,語順がほぼ同じであるなど,構文的にも類似した点が多い.そのため日本語-ウイグル語翻訳は,日本語入力文の形態素解析が終了した段階で,各単語を対応するウイグル語の訳語に置き換えることで可能となる.

これまでは日本語の動詞は活用するが,ウイグル語の動詞は活用しないとされてきた.しかし派生文法を用いると,日本語も活用という概念を用いることなく記述することができる.そこで我々は日本語,ウイグル語を共に派生文法で記述することにより,単純でかつ体系的な機械翻訳を目指している.

我々が開発している日本語-ウイグル語機械翻訳システムにおいては,日本語形態素解析はMAJO,ウイグル語整形システムは独立のモジュールを用いて行っている.この手法は派生文法で記述可能な他の膠着語への翻訳にも応用可能なシステムとなっている.翻訳の具体的な様子はこちらで見ることが可能です.