Wikipediaのテキストデータを解析

LINEで送る
Pocket

PRUVの辞書の拡充の一環として、Wikipediaのテキストデータ解析を行っています。

Wikipediaのデータ(XML)をテキストデータに変換して、それを形態素解析しつつデータベースに放り込みます。全部入れると大変なので、取りあえず約30MBのテキストデータを取り込んで解析。見た目がいろいろ残念な自作ツールを使います。

このテキストデータのグループでは、格助詞「が」が4万199回出現していました。この格助詞「が」の後ろにどのような単語が続いているのか。「が」の直後の単語を助詞に絞り込んだのが下の画面。


「が」の後に助詞「を」が続く例が1回だけあることが分かります。確率は0.0025%。そこで、別途データベースを検索して助詞「が」+助詞「を」が出現した文を取り出すと、

連邦同盟の軍人だったがを開始した。

でした。

どう見ても間違いです。出現確率的にもその用例的にも、やはり助詞「が」+助詞「を」というパターンはあり得ないようです。こうした例を見つけては、辞書に追加しています。

いずれは、
・テキストデータの読み込み
・あり得る/あり得ない言語法則の発見
・ホワイトリスト、ブラックリストの生成
を自動化したいのもです。