ニュース

よく使われている単語・IPアドレスを抽出してCSVに ~「EmEditor」v19.5が正式公開

データの分析に役立つ[頻出文字列を抽出]コマンドを導入

「EmEditor Professional」v19.5

 米Emurasoftは12月19日(日本時間)、テキストエディター「EmEditor Professional」の最新版v19.5を正式公開した。64bit版を含むWindows 7/8.1/10およびWindows Server 2008 R2以降に対応するシェアウェアで、現在同社のWebサイトや窓の杜ライブラリからダウンロードできる。

 v19.5の目玉は、[頻出文字列を抽出]コマンドだ。ドキュメントやテーブルデータでよく使われている文字列を抽出・リストアップし、CSV形式で出力することが可能で、データの分析に役立つ。

[検索]-[頻出文字列を抽出]コマンド

 この機能を利用するには、[検索]-[頻出文字列を抽出]コマンドを実行する。ダイアログで抽出の単位(“行全体”または“単語”)、CSV出力の行数と区切り文字、無視する文字列といったパラメーターをセットし、[OK]ボタンを押せば、結果が新しいタブに出力される。

[頻出文字列を抽出]ダイアログ

 たとえば英文記事でどの単語がよく利用されているのか調べたい場合は、抽出の単位を“単語”にセットして[OK]ボタンを押せばよい。[大文字と小文字の区別]オプションをOFFにしたり、冠詞(a、an、the)を無視するよう設定しておけば、より良質な結果が得られるだろう。

英文記事でどの単語がよく利用されているのか調べる

 また、検索結果をもとに頻出文字列の出現数リストを生成することも可能。[検索]ダイアログの[抽出]ボタンのプルダウンメニューから[抽出オプション]ダイアログを開き、[一致した文字列のみ][頻出文字列を数える]オプションを選ぶことで利用できる。

 たとえば、ドキュメントに含まれるIPv4アドレスを頻出順に並べたいといった場合には、検索モードを“数値範囲”に切り替えて“0.0.0.0/0”で検索し、[抽出オプション]ダイアログで上記のオプションを選んで、抽出を実行すればよい。

検索モードを“数値範囲”に切り替えて“0.0.0.0/0”と検索することでドキュメントに含まれるIPv4アドレスを検索
これに[抽出]コマンドを適用し、IPv4アドレスを頻出順に並べる

 「EmEditor Professional」は、Windowsプラットフォームで定番のテキストエディター。プラグインで機能を拡張できるのが特徴で、CSVデータを扱うための機能も非常に充実している。有償ソフトだが30日間の試用が可能で、試用期間後は個人利用に限り機能制限のある無償版「EmEditor Free」として使用できる。また、インストーラー版のほかにも、“Microsoft Store”から入手できるストア版が用意されており、年額19.99米ドルで利用可能。最新のストア版は数日以内にリリースされる予定で、利用中の場合は自動でアップデートされる。

ソフトウェア情報

「EmEditor Professional」
【著作権者】
Emurasoft, Inc.
【対応OS】
64bit版を含むWindows 7/8.1/10およびWindows Server 2008 R2以降
【ソフト種別】
シェアウェア 年額税抜き4,800円(永久ライセンスは税抜き21,600円、30日間の試用期間後は個人利用に限り機能制限のある無償版「EmEditor Free」として使用可能)
【バージョン】
19.5(19/12/18)