PRUV開発室
名前ゆれチェック支援機能、テスト実装
カテゴリー:新機能 作成日:2022-07-11ある記事をチェックしていると、「髙木氏」(ハシゴダカのタカギさん)の中に1カ所だけ「高木氏」(常用漢字のタカギさん)が混じっていました。たまたまフォントを拡大していたので気気付けましたが、拡大していなかったら気付かなかったかもしれません。
このケースは「高木」と「髙木」が両方とも形態素解析辞書に登録されていたので、表記ゆれチェックの「“読み”チェック」でも検知できました。しかし全ての名字が登録されているわけではなく、読み方が複数ある名字だと検知できない可能性があります。
しかし特に取材記事などでは人名のミスは致命的です。
そこで「名前ゆれチェック」機能なるものを検討しています。文章中から人名らしき文字列を抜き出して一覧表示するというものです。間違いを検出するのではなく、人間による目視チェックを支援することを目的とします。
文字列を人名と見なすトリガーとなるのが、「さん」「様」「氏」などの敬称です。敬称が付いていないと人名であってもリストアップしません(できません)。逆に、企業名に敬称が付いていると企業名もリストアップされます。
現在はユーティリティーの一つとしてテスト実装を公開しています。仕様が固まったらPRUV本体に組み込む予定です。