形態素解析辞書のチューニング

LINEで送る
Pocket

PRUVは、これでも一応は毎日進化しています。例えば、形態素解析辞書のチューニングです。

形態素解析は、入力された文を単語に分割して品詞を決定する処理です。

今日は秋晴れだ

を、

今日(名詞・副詞可能)は(助詞・係助詞)秋晴れ(名詞・一般)だ(助動詞)

のようにします。この処理の基になるのが、形態素解析辞書。「今日」も「は」も「秋晴れ」も辞書に登録ているから正しく分割できるのです。PRUVでは、ネットで公開されている辞書を独自に拡張したものを利用しています。

ただ、ネットで公開されている辞書は登録数が多い半面、ほとんどの名詞が「固有名詞」に分類されているため、名詞の種類を文法解析に利用しようと思うとうまくいきません。

そこで、ん百万語の固有名詞を、普通名詞やサ変名詞、固有名詞(人名)や固有名詞(地名)などに振り分ける作業をしています。「株式会社○○」「△△高等学校」のような単語はプログラム的な処理が可能なのですが、大半は目視チェックするしかありません。

とにかく単語の数が膨大なので、いつ終わるのか見当も付きません。が、とにかく少しずつ、単なる「固有名詞」でしかなかった単語が地名、人名、組織名、国名その他であると区別できるようになっています。