外山グループでは,よりグローバルでより高度なコミュニケーションの実現を目指して,

言語処理と知識処理に基づく情報システムの基礎技術の開発とその社会への応用

に関する研究を行っています.

法制執務支援

法制執務とは,法令文書の起草・改正・公開・翻訳などに関わる作業のことで,電子政府の実現,地方分権などの機運から,情報技術を用いた支援というニーズが高まっています. 具体的には,XMLなどデータ技術を用いた法令文書の構造化・データベース化・バージョン管理や,自然言語処理・テキストマイニングなどを用いた法令文の作成・読解・翻訳支援などを研究しています.

そのなかで,日本政府・法務省に協力しており,日本法令外国語訳データベースシステム(図1)の設計・開発を担当しました.

このページには,現在23万件/日のページビューがあります. この研究は,本学法学研究科法情報研究センター(JaLII)や民間企業,韓国政府法制処・韓国法制研究院,台湾国立中正大学などとの産学官連携・国際連携に基づく共同研究により推進しており,わが国唯一の世界的拠点になっています.

具体的な内容は,以下をご覧下さい.

図1 : 日本法令外国語訳データベースシステム

図1 : 日本法令外国語訳データベースシステム
(画像クリックで拡大)

対訳表現自動抽出(ワード・アライメント)

図2は,本研究室で開発した対訳表現抽出支援ツール Bilingual KWICです. これは原文とその翻訳文の対を集めたデータベース(対訳コーパス)から訳語を自動推定し,その結果を用例も含めて表示するツールで,対訳辞書がなくてもよい,言語に依存しないという特徴を持っています.

対訳辞書構築や翻訳文作成の支援に有用で,翻訳家の業務のなかで実際に使われています.

また,その技術の応用として,作成した翻訳文の品質を検査する手法やツールも開発しています.

具体的な内容は,以下をご覧下さい.

図2 : Bilingual KWIC

図2 : Bilingual KWIC
(画像クリックで拡大)

膠着言語間機械翻訳

アジアでは,日本語の他にも膠着語と呼ばれる言語が多く使われています. そこで,膠着語の特徴を活かした機械翻訳の実現を目指しています.

我々は膠着語の特徴を捉えた派生文法を利用することによって,日本語から他の膠着語への翻訳がスムーズに行えると考えて研究を進めています. 現在は,日本語−ウイグル語,日本語−ウズベク語機械翻訳システムを開発しています(図3).

また,その技術の応用として,作成した翻訳文の品質を検査する手法やツールも開発しています.

具体的な内容は,以下をご覧下さい.

図3 : 日本語−ウイグル語機械翻訳

図3 : 日本語−ウイグル語機械翻訳
(画像クリックで拡大)

シソーラス自動構築

シソーラス(類義語辞典)は自然言語処理に有用な言語知識源のひとつで,Web検索エンジンの性能向上などの応用があります. その自動生成のために,ギガバイトサイズの大規模文例データベース(コーパス)から語と語の間の種々の関係を統計的手法に基づいて求める研究に取り組んでいます. その一環として,語の左右の文脈に注目した類義語自動獲得手法を開発しましたが,この手法は形態素解析が容易でない言語に対しても有効であるという特徴があります.

具体的な内容は,以下をご覧下さい.