外山グループでは,よりグローバルでより高度なコミュニケーションの実現を目指して,

言語処理と知識処理に基づく情報システムの基礎技術の開発とその社会への応用

に関する研究を行っています.

法制執務支援

法制執務とは,法令文書の起草・改正・公開・翻訳などに関わる作業のことで,電子政府の実現,地方分権などの機運から,情報技術を用いた支援というニーズが高まっています. 具体的には,XMLなどデータ技術を用いた法令文書の構造化・データベース化・バージョン管理や,自然言語処理・テキストマイニングなどを用いた法令文の作成・読解・翻訳支援などを研究しています.

そのなかで,日本政府・法務省に協力しており,日本法令外国語訳データベースシステム(図1)の設計・開発を担当しました.

このページには,現在23万件/日のページビューがあります. この研究は,本学法学研究科法情報研究センター(JaLII)や民間企業,韓国政府法制処・韓国法制研究院,台湾国立中正大学などとの産学官連携・国際連携に基づく共同研究により推進しており,わが国唯一の世界的拠点になっています.

具体的な内容は,以下をご覧下さい.

また,情報学研究科の情報玉手箱においてもLegalTechにおける自然言語処理の適用を執筆していますので,そちらもご覧下さい.

図1 : 日本法令外国語訳データベースシステム

図1 : 日本法令外国語訳データベースシステム
(画像クリックで拡大)

対訳表現自動抽出(ワード・アライメント)

図2は,本研究室で開発した対訳表現抽出支援ツール Bilingual KWICです. これは原文とその翻訳文の対を集めたデータベース(対訳コーパス)から訳語を自動推定し,その結果を用例も含めて表示するツールで,対訳辞書がなくてもよい,言語に依存しないという特徴を持っています.

対訳辞書構築や翻訳文作成の支援に有用で,翻訳家の業務のなかで実際に使われています.

また,その技術の応用として,作成した翻訳文の品質を検査する手法やツールも開発しています.

具体的な内容は,以下をご覧下さい.

図2 : Bilingual KWIC

図2 : Bilingual KWIC
(画像クリックで拡大)

法令沿革 Linked Open Data

図3は,本研究で構築した法令沿革オントロジーです.このオントロジーは,日本における法令をすべてカバーした LOD (Linked Open Data) の構築の基礎となります.このオントロジーを基に,国立国会図書館 日本法令索引に掲載されている法令データから,法令沿革LODが作成しています.2019年12月時点で,106,341法令を持つLODで,日本で最も多くの法令を含んでいます.

LOD に対する分析技術の開発も行っています.具体的には,キーワード検索や自然言語問合せ,対話的問合せなどの検索技術,固有名詞表現出出やエンティティリンキングなどの自然言語処理技術,PageRank や Random Walk with Restart などのグラフ分析技術,の開発を行っています.

具体的な内容は,以下をご覧下さい.

Law History Ontology

図3 : 法令沿革LOD
(画像クリックで拡大)

膠着言語間機械翻訳

アジアでは,日本語の他にも膠着語と呼ばれる言語が多く使われています. そこで,膠着語の特徴を活かした機械翻訳の実現を目指しています.

我々は膠着語の特徴を捉えた派生文法を利用することによって,日本語から他の膠着語への翻訳がスムーズに行えると考えて研究を進めています. 現在は,日本語−ウイグル語,日本語−ウズベク語機械翻訳システムを開発しています(図4).

また,その技術の応用として,作成した翻訳文の品質を検査する手法やツールも開発しています.

具体的な内容は,以下をご覧下さい.

日本語−ウイグル語機械翻訳

図4 : 日本語−ウイグル語機械翻訳
(画像クリックで拡大)

シソーラス自動構築

シソーラス(類義語辞典)は自然言語処理に有用な言語知識源のひとつで,Web検索エンジンの性能向上などの応用があります. その自動生成のために,ギガバイトサイズの大規模文例データベース(コーパス)から語と語の間の種々の関係を統計的手法に基づいて求める研究に取り組んでいます. その一環として,語の左右の文脈に注目した類義語自動獲得手法を開発しましたが,この手法は形態素解析が容易でない言語に対しても有効であるという特徴があります.

具体的な内容は,以下をご覧下さい.