Wikipediaのテキストデータを解析

PRUVの辞書の拡充の一環として、Wikipediaのテキストデータ解析を行っています。

Wikipediaのデータ(XML)をテキストデータに変換して、それを形態素解析しつつデータベースに放り込みます。全部入れると大変なので、取りあえず約30MBのテキストデータを取り込んで解析。見た目がいろいろ残念な自作ツールを使います。

このテキストデータのグループでは、格助詞「が」が4万199回出現していました。この格助詞「が」の後ろにどのような単語が続いているのか。「が」の直後の単語を助詞に絞り込んだのが下の画面。
続きを読む →

地名と市区町村の対応チェック機能

オンライン文章校正支援サービス「PRUV」に新機能を追加しました。

都道府県と市区町村の対応チェック機能で実装した都道府県と市区町村の対応チェックに加えて、地名と市区町村の対応チェックを行います。

例:
×千葉県稲毛市 → ○千葉県千葉市稲毛区
×茨城県大洗市 → ○茨城県大洗町

驚くことに、「茨城県大洗市」とか書いちゃった記事が実在したのです。がっかりしますね。本当に恥ずかしい話です。Webメディアはまだまだレベルが低いと言わざるを得ません。早く紙媒体の新聞・出版社に追いつきたいものです。

引き続き、辞書の拡張も行っているので、牛歩のごとき速度ながら一応進化はしています。一応。