ニュース

国会図書館が古典籍資料からテキスト抽出する軽量OCRツールを公開 ~GPUなしでも動作

「NDL古典籍OCR-Lite」のソースコードとバイナリが「GitHub」で公開

古典籍資料の写真からテキストデータを抽出できるツール「NDL古典籍OCR-Lite」

 古典籍資料の写真からテキストデータを抽出できるツール「NDL古典籍OCR-Lite」が11月26日、国会図書館の実験的なサービスを提供する「NDLラボ」の公式「GitHub」サイトで公開された。ライセンスは「CC-BY-4.0」で、ソースコードとWindows/Mac/Linux向けのバイナリが無償でダウンロードできる。

『人間万事賽翁馬 3巻』からテキストを抽出するデモ

 本ツールは国立国会図書館が実験的に開発した「NDL古典籍OCR」を改良し、GPUなしでも利用できるようにしたもの。「NDL古典籍OCR ver.3」と比べると精度が2%程度低下してしまうが、ノートPCなどでも問題なく動作するのが魅力だ。コマンドラインのほかGUIアプリケーションが付属しており、NDLラボでは以下の環境で動作を確認しているとのこと。

  • Windows:Windows 10
  • Mac:macOS Sequoia(Intelデバイス)
  • Linux:Ubuntu 22.04

 「NDL古典籍OCR-Lite」は江戸期以前の和古書、清代以前の漢籍といった古典籍資料に対応しており、デジタル化された画像資料から文章を読み取り、テキストデータとして抽出できる。レイアウト認識、文字列認識、読み順整序の3モジュールを組み合わせており、挿絵のある資料からもテキストの位置と判断し、読み順整序のうえテキストデータを取得可能だ。