Book Watch/鷹野凌のデジタル出版最前線

 第3回

青空文庫はこうやって運営され、こうやって活用されてます

 10月14日に開催された青空文庫20周年記念シンポジウム“青空文庫の今とこれから”レポートの後半は、青空文庫にボランティアとして関わりたい方へ向けた入門セッションと、青空文庫の活用事例セッションをお届けする。レポート前編はこちら

【青空文庫20周年記念シンポジウム“青空文庫の今とこれから”レポート】
前編)青空文庫に生き続ける富田倫生氏の遺志 ~著作権保護期間延長反対に今後も関心を
後編)青空文庫はこうやって運営され、こうやって活用されてます

ボランティアによる入力・点検作業の実際

 “青空文庫 作業チュートリアル”では、実際の入力作業や、青空文庫の仕様に合致させるための点検作業がどのように行われているかなどの実演が行われた。きめ細やかな品質管理を行うためとはいえ、筆者が事前に想像していた以上に手作業が多く、富田晶子氏によると『デジタルだけど家内制手工業』だという。

入力作業を実演する大久保ゆう氏
入力用の端末と書見台・電子辞書

 “どの本を入力するか?”はボランティア工作員自身の意志で決められ、底本の確保も自分で行い、入力申請を行う。点検チームは申請に基づき、著作権が切れているか、底本に問題はないかをチェックし、入力作業のGOサインを出す。底本は古い場合が多くそのまま使うと痛んでしまうため、大久保ゆう氏はコピーをとって書見台に置いているそうだ。

 底本の状態がいい場合は、スキャンして取り込み、OCR(光学的文字認識)を利用する場合もあるという。ただ、いちから手入力だと作品の内容を追いかけられるので入力作業も楽しめるけど、OCRは機械的な作業なので地道すぎて病んでくるそうだ。

 なお、青空文庫のテキストデータには入力ルール(注記一覧)があるが、これは青空文庫オリジナルではなく、視覚障碍者読書支援協会のマニュアルを参考にし、そこから独自に発展させていったのだという。例えば旧字は現代表記で入力するルールになっている(“渚”→“渚”など、“旧字、旧仮名で書かれた作品を、現代表記にあらためる際の作業指針”参照)。そのため、入力時には1文字ずつ判断が必要になるのだという。

点検作業について説明する富田晶子氏

 入力の次の工程である点検作業は、非常に細かなルールが規定されており、その次の工程の校正作業とはまた違った様式のチェックが必要となる。正規表現を活用して入力データを検索し、ミスがないかどうかのチェックを行うといった作業をいくつも行うことになる。

 例えば、機種依存文字の混在を調べられる「チェッカー君」や、旧字のファイルに紛れ込んだ新字や俗字を調べられる「校閲君」など、自動でチェックできるツールも有志の手によって用意されている(結城浩氏による“青空文庫の応援ページ”)。

正規表現を使った入力ミスのチェック
間違いやすい漢字の典型例

 しかし、そういったチェック項目は、当セッションにおいて確認できただけで16項目ほど存在している。文末の余計な空白や、半角記号やアルファベット(全角にする)、OCRで混在するひらがなの“へ”“べ”“ぺ”とカタカナの“ヘ”“ベ”“ペ”のチェックなど、良質なテキストデータを提供するためには非常に地道な作業が必要なのだ。

 質疑応答では、青空文庫のデータにはシフトJISコードが用いられているため、海外の方がファイルを開くと文字化けしてしまうなどの問題が指摘された。Unicodeを採用すると、旧字をどうするか? などのルール変更が必要なので、これからの青空文庫の課題として考えていきますという回答がなされた。

さまざまなところに活用されている青空文庫

 続いての活用セッションでは、青空文庫を活用しているさまざまな事例が紹介された。

アクセシビリティに配慮したプリント・オンデマンド書籍

 インプレスR&Dの福浦一宏氏は“青空文庫POD”を紹介。青空文庫のテキストデータを用い、独自の自動組版技術によって同一作品を3つの判型・文字サイズに展開。注文に応じて紙の本を1冊ずつ印刷・製本する、プリント・オンデマンドで販売している。在庫を持たなくていいので、返品が発生しないところが大きな特徴だ。なお、売上の一部は青空文庫に還元されている。

インプレスR&D 福浦一宏氏
三省堂神保町本店に常設コーナーがある

文法研究のための“コーパス”として活用

 翻訳者の高橋さきの氏は、青空文庫を“コーパス(テキストや発話を大規模に集めてデータベース化した言語資料)”として使っている事例を紹介。電子辞書の共通規格形式に変換された“青空WING”を辞書ブラウザーで検索すると、辞書で調べた語彙をどんな作家がどのように使用しているかがすぐ調べられるという。『学研国語大辞典 第二版』では用例がうまく選ばれているが、他の用例やどうしようもない用例、用例の前後も読みたくなるなど、欲が湧くのだそうだ。詳細は高橋氏による“カレントアウェアネス・ポータル”の記事を参照いただきたい。

翻訳者 高橋さきの氏
青空WINGの作家別用例辞典

プロのアナウンサーによる社会貢献活動“青空朗読”

 一般社団法人青空朗読 代表理事の谷岡理香氏(東海大学文学部広報メディア学科教授で元アナウンサー)は“青空朗読”を紹介。8年前にフリーアナウンサーの社会貢献活動としてスタートし、2016年に一般社団法人化。商業利用を持ちかけられることもあるが、協力いただいたアナウンサーに“非営利で”と約束しているので、外部への提供は公的なところに限定している。現在掲載されているのは330作品。試用版として、音声同期EPUBの提供も開始している。

青空朗読 代表理事 谷岡理香氏
青空朗読の概要

人文情報学(デジタル・ヒューマニティー)と青空文庫

 人文学オープンデータ共同利用センター特任研究員の鈴木親彦氏は、人文情報学での青空文庫活用事例を紹介。鈴木氏によると人文情報学とは、人文学がデジタルを使う、人文学がデジタルで変わる、人文学がデジタルを変える学問のこと。青空文庫のデジタル化されたテキストを活用することで、俯瞰視点と微細視点の2つの傾向が強まっているのだという。

人文学オープンデータ共同利用センター特任研究員 鈴木親彦氏
俯瞰視点と微細視点
俯瞰視点:「MIMA Search」による自然言語処理と用語抽出などのテキストマイニング機能と共起関係可視化
微細視点:TEI(Text Encoding Initiative)でマークアップされた『走れメロス』

まだまだあるぞ、こんな活用事例

津田大介氏によるビデオメッセージ

 “本の未来基金”運営委員の津田大介氏はビデオメッセージで、青空文庫を『インターネットが本来持っていた良さを体現するサービス』だと賞賛した。続くライトニングトークセッションでは、さらにさまざまな青空文庫活用事例が紹介された。

青空文庫工作員 845雪森氏(左)

 青空文庫工作員の845雪森氏は、青空文庫工作員になったきっかけを紹介。『エコノミスト』2012年12月18日号に富田倫生氏のインタビューが載っていて、『青空文庫の最大の課題は校正待ちが3,000作品以上』『辛い作業でやりたがる人が少ない』などと書かれていたため、『そんなこと言っちゃうとやる人がいなくなっちゃう』と心配になり、工作員登録を行ったという。

最年少工作員 桑原みなみ氏(左)と福井健策氏(右)

 桑原みなみ氏は日本大学芸術学部3年生で、現在最年少の工作員。本の未来基金運営委員で日本大学藝術学部客員教授でもある福井健策氏の教え子だ。福井氏は、桑原氏が答案用紙の余白に『青空文庫のボランティア登録をして打ち込みを始めた。正確に入力しないといけないので語彙力も付くし文人たちの技術も学べる。文章を学ぶ者には得るものが多い活動だと思った』と書いていたことをツイートしたら、数千リツイートと大きな反響があったエピソードを紹介。『答案用紙に余計なことを書かないほうがいい』と笑いをとった。

東京大学大学院情報学環 時実象一氏

 時実象一氏は5年前、愛知大学文学部図書館情報学のゼミで、学生に青空文庫の工作員をやらせてみたエピソードを紹介。底本は地元作家の新美南吉。手入力班とOCR班の二手にわかれて作業を行ったそうだ。底本の文字がつぶれて読みづらかったり、文字の読み取りがうまくいかない(例:漢数字の“一”、マイナスの“-”、長音の“ー”など)などの苦労があったという。

国際日本文化研究センター 山田奨治氏

 国際日本文化研究センターの山田奨治氏は、海外における日本語・日本文化の教育研究において活用されている青空文庫に対する、中国やインドなどの学生の声を紹介。もし青空文庫の活動が停滞したら困るので、保護期間が延長されたとしても青空文庫を停滞させないセーフティーネットが必要だと訴えた。

 大日本印刷の花田一郎氏は、図書館向けの電子書籍貸出サービス“TRC-DL”を紹介。紙の本は“貸与権”に非営利無償の例外規定があるので、許諾をとらずに図書館で貸し出すことができる。ところが電子書籍になった瞬間“公衆送信権”が絡むため、許諾が必要となる。そのため、現在電子書店で販売されている日本語電子書籍は約60万点だが、図書館向けにラインアップされているのは約5万点。

 そのいっぽうで、自由に利用できるはずの青空文庫のテキストデータは、自治体にあまり認知されていないのが現状という。図書館という開かれたチャネルを通じて配信することにより青空文庫の認知向上が図れること、デジタル時代において読み手に対し図書館ができること、青空文庫の利活用を通じてライセンスの理解が深まることで図書館の情報発信にも活かせるのではないか、つまり、情報の再生産が図れるのではないか、というのが花田氏の持論だ。

 花田氏の話を受け、本の未来基金 事務局の香月啓佑氏は、福岡市科学館ライブラリスペースの大画面で青空文庫が読めるようになっている事例を紹介した。

大日本印刷 花田一郎氏
本の未来基金 事務局 香月啓佑氏
達人出版会 高橋征義氏

 達人出版会の高橋征義氏からは、“青空文庫と式年遷宮アーキテクチャ 青空文庫200周年に向けて”というユニークなプレゼン。『とりあえず一桁増やしてみました』と笑顔で語った。知らない人から知らない人へ技術を継承する仕組みとして、伊勢神宮が20年ごとに行っている“式年遷宮”を紹介。ソフトウェアにも“犠牲的アーキテクチャ(Sacrificial Architecture)”という概念があるという。少しずつ入れ替えていくと全体がより良いものになるので、途切れさせないことが重要とし、“#aozorahack”の活動を紹介した。

佐藤健一氏

 佐藤健一氏は、“Code for 青空文庫”アイディアソンとその後のハッカソンをきっかけに作成した“青空文庫APIサーバ”を紹介。現状の青空文庫は他のサービスと連携しづらいため、本のリスト、著者のリスト、メタ情報などを配信するAPIサーバーを用意したという。ただ、まだ“Heroku”の無料プランで動いてるプロトタイプ版。詳細は“GitHub aozorahack/pubserver”を参照いただきたい。

ピクシブ 吉岡康平氏

 ピクシブの吉岡康平氏は、“pixivコミック”の作品タグ付け精度を向上させるために青空文庫のテキストデータを活用している事例を紹介。“逆文書頻度(IDF)”を利用し、作品固有の単語なら高スコア、頻出単語なら低ストアという重みを与えて、タグの並び替え順を変えているという。詳細は“pixiv inside”の記事を参照いただきたい。

工作員 level氏

 工作員のlevel氏は、青空文庫の作品を読みやすくするため自分用の“Kindle本”を作ったついでに、Amazonで売り出してみた事例について紹介。短編集やシリーズもの、超長編などを一冊の電子本にまとめて配信している。20点配信しているが、売れるのはほぼビクトル・ユーゴー『レ・ミゼラブル』と紫式部『全訳源氏物語』の2点だけ。Kindleストアの立ち上げ時期で競合が少なかったことや、誰でも知ってるけど超人気作ではないという絶妙なラインだった点を要因として推測しているという。

 シンポジウムという限られた時間の中で紹介された活用事例は以上だが、これだけでもその活動の偉大さに改めて頭が下がる。20年という歴史の中において、青空文庫がどれほど多くの方に活用されてきたことか。筆者の個人的見解だが、2012年以降の電子書籍市場勃興において、青空文庫が果たした役割は非常に大きかったと思う。“水増し”などと揶揄されるようなこともあったが、富田倫生氏は『願わくば、水のように、空気のように。なんてな。』と、“水”という言われ方をむしろ気に入っていたようだ。まるで当たり前のようにそこにある存在だけど、無くてはならないもの、ということなのではないだろうか。

【青空文庫20周年記念シンポジウム“青空文庫の今とこれから”レポート】
前編)青空文庫に生き続ける富田倫生氏の遺志 ~著作権保護期間延長反対に今後も関心を
後編)青空文庫はこうやって運営され、こうやって活用されてます

鷹野 凌

©樫津りんご

 フリーライターでブロガー。NPO法人日本独立作家同盟 理事長。実践女子短期大学でデジタル出版論とデジタル出版演習を担当。明星大学でデジタル編集論を担当。主な著書は『クリエイターが知っておくべき権利や法律を教わってきました。著作権のことをきちんと知りたい人のための本』(インプレス)。