PRUV開発室

AIを校正に応用する挑戦

カテゴリー:お知らせ  作成日:2019-04-15

PRUVにAIを応用できないものかと考えて幾年、ようやく形になってきました。「AI」といっても知能と呼べるようなシロモノではなく、単に「ディープラーニングによって構築した言語モデルでパターンマッチングを行い、単語(形態素)の出現確率を推論する機能」なのですが、長いので便宜上「AI」に短縮します。

正しい(あるいは誤りが少ないと思われる)文章を学習させ、「次に現れる単語」の確率を計算させます。この確率がしきい値以下であれば、「間違いじゃね?」という反応をするというわけです。以下のように結果を出力します。ある商用Webメディアに実際に掲載されていた文です。


私はGoogleのような演算リソースも学習用データも持っていないので、徹底的に割り切ったコンセプトでAIを実現しています。少ない演算量で「それらしい結果」を得ることを追求した結果、現在の言語モデル(ディープラーニングで生成した学習済みデータ)のファイルサイズはわずか250KBです。

演算リソースもデータも開発能力も乏しい私が作った言語モデルということで、「PLM」(Poor man’s Language Model:貧者の言語モデル)と呼んでいます。この貧乏くさい言語モデルがそれらしい結果を出すのだから驚きです。

形態素解析後の形態素を前提にしているので、「エネルギー」が「エネレギー」になっていても検出できません。このAIは「エネレギー」を未知の「名詞」として扱います。一方で従来のルールベースの辞書では対応しきれない不規則な入力ミスに強く、ルールベースのチェックを補完してくれます。

現在はディープラーニング手法としてLSTMを利用しているのですが、限界も見えてきたのでQRNN化することを検討しています。他に、学習データを増やす、学習データの品質を高める、形態素解析辞書の拡張・チューニングで形態素解析の品質を高めるなど、やるべきことは山盛りです。

リソースが限られている個人でも、意外にそれらしい物ができるものです。皆さんもディープラーニングに挑戦してみてはいかがでしょうか。面白いですよ。