詳しい説明は,以下のとおりです.
推定総単語数は,その本の本編を構成する総単語数の推定値です.本編とは,ストーリー本体の記述されている部分であり,解説,書評などの部分は除きます.
「±」で示されているのは,有意水準5%の平均の信頼区間です.簡単に言うと,実際の総単語数がこの範囲にある確率が95%であるという意味です.
STTR(単語の多様さ)は,その文章の単語の多様さを表す指標です.少ない種類の単語を繰り返し用いることで記述されている文章では,この値が小さくなり,逆に,多くの種類の単語を用いて記述されている文章では,この値は大きくなります.したがって,この値が大きい文章ほど難しいと言えます.「標準的な英語」ではこの値は41程度です(WordBankでは40.75).
具体的には,STTRはStandardized Type/Token Ratioの略で,その文章に使われている単語の種類の数「異なり語数」を,その文章の総単語数である「述べ語数」で割った値であるTTR(Type/Token Ratio)を1000語ごとに求め,平均することで求められています.なお,単位は%で表示しています.
単語難易度は左のようなグラフで表されます.横軸は単語のレベルを,縦軸は各レベルの単語の出現頻度を表しています.
単語のレベルは,アルク社による「標準語彙水準12000」(SVL=Standard Vocabulary List)に基づいており,1が最も簡単で,数字が大きくなるほど難しくなります.
単語の出現頻度は,「標準的な英語」における出現頻度を「1.0」とし,数字が大きいほど出現頻度が大きくなります.数字の意味は「各レベルの単語の出現する割合が,標準的な英語の何倍か」です.例えば左図ではレベル4の値が0.6となっていますが,これはレベル4の単語の出現する割合が,標準的な英語の0.6倍である,すなわちレベル4の単語が出現する割合は標準よりも少ない,ということを表しています.
なお,基準となる「標準的な英語」については,Collins COBUILD Advanced Learner's English Dictionary CD-ROMに付属の500万語のコーパス(用例データベース)であるWordbankを解析し,それぞれのレベルの出現頻度を計算しています.(Wordbankは,HarperCollins Publishersによる2億語のコーパス ”Bank of English” からの抜粋です).
もちろん,一冊の本全体を解析対象とすることは現実的に不可能なので,以上のデータは,無作為に10ページを選び出し,その部分を対象に解析を行うことで算出されています.よって,推定総単語数は,その10ページの各単語数を用いて,1ページあたりの平均単語数と信頼区間を求め,その数字に本のページ数を掛けることで計算しています.tokenizer/stemmer(要するに,動詞の原形を求めたり短縮形を元に戻したりするツール)にはTreeTaggerを,解析には,オリジナルのRubyスクリプトを用いて行っています.現段階ではドキュメントが整っていないためスクリプトは公開しませんが,いずれ公開する予定です.
重要頻出単語は,自然言語処理の分野でのtf・idf法に似たランク付けを各単語について行い,重要頻出単語を選定しています.
具体的には,ある単語wの重要度は,(1)wの解析対象内での出現回数,(2)一般的な英語(上記のコーパス)内でのwの出現回数の逆,(3)wのSVLに応じた重み,の3つの要素の積で計算しています.
(1)のwの解析対象内での出現回数は,その名の通り,単語wが解析対象内で出現した回数で,整数値です.これだけを考えると,aやtheやbeといった単語の値が当然大きくなります.しかし,これらの単語は頻出ですが重要な単語とは言えないので,次の(2)の要素が効いてきます.
(2)の一般的な英語(上記のコーパス)内でのwの出現回数の逆とは,wが上記のコーパス内に出現した回数が多いほど,値が小さくなるようにした値のことを指します.aやtheやbeなど,解析対象だけではなく一般的な英語にも頻繁に出現するような単語についてはこの値が小さくなるため,重要度が低くなります.この(1)と(2)の積によって,解析対象だけに頻繁に出現する単語を求めることができます.
具体的には,上記コーパス内でのwの出現する回数をtf(w)とすると,この要素の値は(2) = exp{-λ・tf(w)}として計算しています.idfは通常はdfの逆数の対数をとりますが,ここではそもそも文書という概念が存在しないということに加え,予備実験による結果を考慮し,この式を用いることに決定しました.ここで,λは(2)の要素の「効き具合」を定める定数で,今は2000にセットしてあります.この値も,実際に予備実験によって決定しました.
(3)のwのSVLに応じた重みについては,いくらその解析対象に頻繁に出現するような単語でも,SVLのレベルが1や2の簡単な単語は重要単語にはなり得ないということから,SVLのレベルの低い単語についての重みを低くするためのものです.具体的には,SVL=1の単語に対しては0.2,SVL=2の単語に対しては0.5, SVL=3の単語に対しては0.8を乗じています.
なお,固有名詞や,国の名前,国を表す形容詞("iraqi", "russian"など)はリストから除外しています.また,メディアの英語に対しては,長い記事があるとそこに頻繁に出現する単語が重要単語と見なされてしまい,ある分野に依存した単語が多くなってしまう可能性があります.そのため,記事が長い場合は,先頭から5KBを超えない長さに切り,その部分だけを解析に用いています.これによって,記事の長さが平等になり,特定の分野に依存した単語が重要単語と見なされにくくなります.
参考:石川研究室ホームページ http://www11.ocn.ne.jp/~iskwshin/wordsmith.html