やじうまの杜
知らなかった……“青空文庫”の全データは“GitHub”から一括ダウンロードできる!
“データを丸ごとほしい!”という場合に便利
2018年7月24日 06:45
“やじうまの杜”では、ニュース・レビューにこだわらない幅広い話題をお伝えします。
筆者も知らなかったのですが、“青空文庫”のデータは“GitHub”でも公開されているのだそうです。
青空文庫全体のデータがGitHubからダウンロード可能になっている!これはテキストマイニングとかで最高なのではないだろうか。https://t.co/mtXrY4WKwL
— asciian (@asciian)2018年7月14日
たしかに“青空文庫FAQ”には以下のように書かれていました。
Q:青空文庫の収録作品を、一括してダウンロードすることはできないのですか?
A:青空文庫のデータ一式は github にも置かれ、毎日更新されています。公開サーバーで削除したものを消してないという難もありますが、あるがままの状態でかまわなければご利用ください。(https://github.com/aozorabunko/aozorabunko)
“青空文庫FAQ”より引用
コミットの履歴をたどってみると、どうやら2011年5月からずっとアップデートされ続けているようですね(自動でやっているのでしょうか?)。“GitHub”の“Contributions Calendar”(活動履歴を可視化したカレンダー。コミットの数などに応じて、その日のマスに塗られる緑色が濃くなる)は深い緑一色です。
上述のツイートでも触れられているように、大量のテキストを自然言語処理などで分析して有用な情報を抽出する“テキストマイニング”などには役立ちそう。“青空文庫”を全部読破したいけど、いちいちファイルをダウンロードするのは面倒という場合にも使えるかもしれません。
なお、たまに誤解している方が見受けられますが、“青空文庫”に収録されているテキストのなかには著作権の切れていないものも含まれています。取り扱いの際は、あらかじめ“青空文庫”に掲載されている基準を参照することをお勧めします。