ニュース

無償テキストエディター「Mery」が「あいまい検索」に対応~最新ベータ版v3.5で

多少の表記ゆれもしっかり拾ってくれる「Word」でおなじみの便利機能

「Mery」が「あいまい検索」に対応

 フリーの高機能テキストエディター「Mery」ベータ版が4月29日、v3.5.0へアップデートされた。本バージョンでは「Microsoft Word」でおなじみの「あいまい検索」が新たにサポートされている。

 「あいまい検索」は大文字・小文字やひらがな・カタカナ、長音、漢字表記の揺れ(異体字)などを区別せずに検索する機能。たとえば「バナナ」で検索すると、「バナナ」だけでなく「ばなな」にもマッチする。「Word」では初期状態で有効化されていることもあり、混乱を招くとして批判されることも多いが、多少の表記ゆれにも対応できるので、使い方次第では有用な機能だ。

「Microsoft Word」の「あいまい検索」オプション

 「Mery」の場合、この「あいまい検索」は初期状態で無効。検索ダイアログや置換ダイアログで[あいまい検索]オプションをONにしない限り、ひらがなやカタカナを区別せずにマッチすることはない。

 「Mery」の[あいまい検索]オプションダイアログでは、濁点・半濁点やひらがな・カタカナといった区別しない文字種のON/OFFを切り替えられる。さらに、[類似度]と[最大編集距離]を指定して、あいまい検索で許容する表記ゆれのレベルを調整することも可能だ。

「Mery」の[あいまい検索]オプションダイアログ。[類似度]と[最大編集距離]を指定して、あいまい検索で許容する表記ゆれのレベルを調整できる

 「編集距離」とは2つの異なる文字列を同じ文字列にするのに必要な文字の挿入、削除、置換の回数(レーベンシュタイン距離)を指す。たとえば「アボカド」と「アボガド」は「カ」と「ガ」を1カ所置換すれば一緒になるので、編集距離は「1」だ。

 「類似度」は「1 - 編集距離 ÷ 文字数」で求められる数値で、初期値は「2/3」(66%)。編集距離だけ見ていては文字列が長くなったときに許容されるあいまいさが相対的に小さくなるが、「類似度」の計算式であれば違和感の少ない結果が得られる。

 一般に「類似度」を増やすと検索・置換の際に許容される「あいまいさ」が増えるが、「編集距離」は長くなればなるほど処理が遅くなる。そのため、パフォーマンスも重視するならば[最大編集距離]で一定の制限を設けたほうがよいようだ(初期設定は「3」)。

 ちなみに、「Mery」では「編集距離」の算出に「制限ダメラウ・レーベンシュタイン距離」を採用しているとのこと。これは文字の挿入、削除、置換を1回の操作として数える「レーベンシュタイン距離」を改良し、転置(隣り合う文字の入れ替え)を1回の操作として数え、かつ文字列を2回以上編集する操作を許容しないもの。

 「ふんいき」と「ふいんき」の場合、レーベンシュタイン距離では編集距離が「2」、類似度が「50%」となり、あいまい検索にマッチさせるかどうか判断が微妙なラインとなるが、「ダメラウ・レーベンシュタイン距離」ならば編集距離が「1」、類似度が「75%」となり、直観に近い結果が得られる。「制限」を課すのは、処理速度の向上を狙ってのことだという。

 「Mery」ベータ版は、64bit版を含むWindows XP/Vista/7/8/10/11に対応する寄付歓迎のフリーソフト。現在、作者のWebサイトからダウンロードできる。執筆時の最新版は、5月11日公開のv3.5.2。

ソフトウェア情報

「Mery」ベータ版
【著作権者】
kuro 氏
【対応OS】
64bit版を含むWindows XP/Vista/7/8/10/11
【ソフト種別】
フリーソフト(寄付歓迎)
【バージョン】
3.5.2(23/05/11)