チェックルール作成入門
辞書のチェックルール作成は慣れるまで難しいかもしれません。そこで幾つか実例を挙げながら作成の勘所を紹介します。
基礎の基礎
まずは「単語ルール」から。文章中に「すでに」があったら「既に」にするように指摘するルールを作ってみます。それには、PRUVが「すでに」を含む文をどのように分割するかを知る必要があります。
そこでPRUVの「形態素解析モード」を使って確認します。前後の単語によって文の分割方法が変わる可能性があるので、単に「すでに」だけ入力するのではなく実際に使われる場面を想定した例文を作ることをお勧めします。そして「形態素解析のみ」をオンにして「チェック開始」をクリックします。

画面1 「形態素解析のみ」をオンにする
結果は以下の通り。

画面2 形態素解析モードの結果
これで、文の分割によって「すでに」になることが確認できました。PRUVが形態素解析によって文をどのように分割するのか。これが全てのルール作成の大原則となります。これを無視したルールは機能しないので注意してください。
単語ルールは簡単です。単語として認識された「すでに」を「対象語」に入れ、修正語とコメントに任意の文字列を入力します。

画面3 「対象語」はPRUVが単語として認識する文字列でなければならない
簡易ヘルプ(「i」アイコンにマウスポインタを合わせると表示)にある通り、「対象語」は正規表現が使えません。繰り返しになりますが「単語として認識された文字列」である必要があります。
活用語
例えば「たべたいです」を「食べたいです」にしたいとします。感覚的には「たべたい」を対象語にしたくなりますが、残念ながらこれでは機能しません。形態素解析モードで確認しましょう。

画面4 「たべたい」を形態素解析
PRUVは「たべたい」を「たべ」と「たい」に分割してしまいます。よって対象語に「たべたい」と入力すると、PRUVは文章に「たべたい」が含まれていてもこれを見つけることができません。この場合、対象語としては「たべ」を入力する必要があります。
ただし、「たべたい」を漢字にするなら「たべる」や「たべれば」「たべろよ」なども漢字にすべきでしょう。もちろん活用形を一つ一つ手入力してもいいのですが、「単語(品詞指定)ルール」を使えば活用語の基本形を入力するだけで活用形を生成します。
形態素解析の結果「たべる」は分割されずに単語と認識されるので、対象語に「たべる」を入力します。このルールでの注意点は「修正語」も基本形で入力することです。すると修正語も活用形を自動生成します。そして「活用形を自動生成する」をオンにして「新規作成」をクリックします。

画面5 「活用形を自動生成する」をオンにする
これで活用形に対応したルールが生成されます。

予想しにくい単語区切りと誤検知の低減
PRUVがどのように文を区切るのか予想しにくい場合と、誤検知を最小化する考え方をテーマにしてみましょう。
例として誤用の典型である「AにもかかわらずBだ」を使います。これは漢字を使うなら「拘わらず」なので「関わらず」では誤りということになります。
例によって形態素解析モードで確認します。

画面7 これをどうルール化するか
これで「A」「に」「も」「関わら」「ず」「B」と分割されることが分かりました。これをどうルール化すべきでしょうか。関係する単語が多い場合は「3単語ルール」を使います。
まず、「A」と「B」は無限の可能性があるので考えないことにします。残りは「に」「も」「関わら」「ず」の4つですが、3単語ルールで指定できるのは3つだけです。
「も」「関わら」「ず」の3つにした場合、「その問題には彼も関わらず静観していた」にもマッチしてしまいます。
「に」「も」「関わら」の3つであれば、誤検知の可能性は少なくなりそうです(「AにもBにも関わらずにいた」など、誤検知しそうな文は考えられますが)。というわけでこの3つの単語でルール化してみます。
3単語ルールの場合、「単語(前)」は必ず「単語と認識される文字列」である必要があります。「単語(中)」と「単語(後)」は正規表現を使うことができますが、今回のケースでは「関わら」の活用形は不要なのでそのまま「関わら」を入力します。

形態素解析辞書に存在しない文字列
ここまで、形態素解析で「単語と認識される文字列」としつこく書いてきましたが、そうでない文字列を対象語などに指定したらどうなるでしょうか。
対象語に「憶円」(Googleで検索すると、使われてしまっていることが分かります)と入れてルールを作成しようとするとアラートが表示されます。

画面9 アラート
アラートは出ますが、このルールの登録は可能です。形態素解析辞書に存在しない単語を対象語にできないようにすることは可能ですが、それでは「憶円」のパターンに対応できないからです。
形態素解析モードで「1憶円」を確認すると以下のようになります。

画面10 「憶円」は未登録語
形態素解析辞書にない文字列が現れた場合、PRUVは取りあえず単語分割します。「憶」「円」なのか「憶円」かなど、どのように分割されるのか予測するのは難しいので形態素解析モードで確認するしかありません。この場合は「憶円」で分割されたので対象語を「憶円」、修正語を「億円」にすれば機能します。仮に「憶」「円」となった場合は「2単語ルール」で「憶」「円」を指定します。
以上の説明でお分かりいただけたと思いますが、PRUVの辞書機能を活用するには形態素解析モードが不可欠です。形態素解析モードを無視したルールは機能しません。
各ルール作成画面の簡易ヘルプ(「i」アイコン)もぜひ活用してください。