独自エンジンを搭載したフリーの日本語OCRソフト「SmartOCR Lite Edition」

元画像のレイアウトを保持したWord/Excelファイルやテキスト検索可能なPDFで保存

「SmartOCR Lite Edition」v1.0.3

B5判書籍を600dpiでスキャンした画像の認識サンプル

　独自エンジンで画像から文字を認識し、Word/ExcelファイルやRTF/HTML/CSV/PDF形式で保存できる日本語OCRソフト「SmartOCR Lite Edition」v1.0.3が、17日に公開された。Windows XP/2000に対応するフリーソフトで、現在作者のホームページからダウンロードできる。

　「SmartOCR Lite Edition」は、独自のエンジンを搭載したOCRソフト。スキャナー画像やBMP/TIFF/JPEG/PNG/GIF/WMF/EMF形式のファイルから読み取った文字情報をテキスト文字列に変換してTXTファイルとして保存できるほか、元画像のレイアウトや表組みを保持したWord/ExcelファイルやRTF/HTML/CSV/PDF形式でも保存できる。また元画像にテキスト情報を埋め込み、画像を選択してテキストコピーしたり文字列検索ができる“透明テキストつきPDF”としても保存可能。

　また、画像上で選択した範囲を即座に文字認識する“スマート認識”や、認識と同時に算用数字を漢数字に変換したり、文字の上に表示されるふりがななどの“ルビ”を文字のうしろに括弧つきで挿入するといった独自の文字列変換機能を備えている。そのほか、設定画面やファイル一覧、画像の拡大表示といった複数のペインをウィンドウ内に自由に配置したり、1つのペインにまとめてタブで切り替えられるのも特長。

　本ソフトで文字認識を行うには、まず画像を読み込もう。画像は自動で傾きが補正されるほか、ノイズの除去やコントラスト、デジカメ画像特有の“歪み”の自動補正を行える。次に、ツールバーの［レイアウト］ボタンを押すと、画像上でテキストとして認識される範囲が段落ごとに複数設定され、さらに認識範囲の追加や変更、削除が可能。

　認識範囲が確定したら［文字認識］ボタンを押すと文字の認識が行われる。また、“スマート認識”モードに切り替えれば、画像を範囲選択するだけで、［レイアウト］［認識］ボタンを押さずに選択範囲を即座に文字認識させることが可能だ。

　文字認識を行ったテキストは、元画像のレイアウトを保持した形でプレビューしたり、エディター風の画面で確認や修正が可能。さらに文字の上で右クリックすると、別の認識候補がポップアップメニューで表示され、選択して文字変更することができる。

　また、テキストは“ひらがな”“カタカナ”“英数字”“漢字”といった文字種別ごとに色分けされるほか、認識が間違っている可能性が高い文字だけを赤色で表示することも可能。認識結果を確定させたら、ファイル形式を指定して保存しよう。

　なお、本ソフトに機能を付加した有料版「SmartOCR Professional Edition」の発売が予定されているとのこと。複数画像の連続認識機能、画像読み込み時に自動でさまざまな補正を行う機能、本ソフト終了時の作業状態を保存し次回起動時に続きから作業できる機能などを搭載し、また認識速度が低い代わりに精度が高い認識モードを利用できるが、発売日や価格、販売形態などは不明。

【著作権者】スマートリーディング
【対応OS】Windows XP/2000
【ソフト種別】フリーソフト
【バージョン】1.0.3（05/11/17）

□画像処理、活字 OCR の専門家集団スマートリーディング
http://www.smartread.biz/