ニュース

国立国会図書館、戦前・戦中期の帝国議会会議録を全文検索可能に

「帝国議会会議録検索システム」で速記録の画像をOCR処理し、テキストデータ化

 国立国会図書館は8月23日、「帝国議会会議録検索システム」で戦前・戦中期分(1890年11月~1945年8月)の速記録約27万ページの画像データをOCR処理した本文テキストデータを新たに公開した。

 「帝国議会会議録検索システム」とは、1890年に開設され、1947年まで92回開かれた帝国議会の本会議・委員会の速記録全文を電子化し、Web上で無料公開しているデータベース。テキストまたは画像で閲覧でき、キーワードや会議の開催日、院名・会議名から検索することもできる。

 今回、戦前・戦中期分の本文テキストデータが新たに公開されたことにより、既に提供されている戦後期分(1945年9月~1947年3月)と合わせて、帝国議会全期間にわたる速記録の全文検索とテキスト表示が可能になった。

 なお、今回公開した戦前・戦中期分の本文テキストデータは、人手による校正を行った戦後期分と異なり、OCR処理の誤認識による誤字・脱字や、認識不能を意味する文字「〓」(ゲタ文字)があり、検索や表示(発言単位の切り分け)が正確に行えない場合がある。これらについては、公開後もデータ整備を行っていくとしている。