レビュー
テキスト装飾されたWord文書をMarkdown書式のプレーンテキストへ変換「docx2md」
リンクや引用ブロックにもちゃんと対応
2020年1月28日 06:45
「docx2md」は、「Microsoft Word」形式のドキュメントファイルをMarkdown記法で書かれたプレーンテキストファイルへ変換するコマンドラインツール。Windows/Mac/Linuxに対応するオープンソースプロジェクトで、ライセンスは“MIT License”。編集部にてWindows 10で動作を確認した。“GitHub”のプロジェクトページから、ソースコードとバイナリをダウンロードできる。
「Word」は紙で印刷する文書を作成するのに適しているが、閲覧するのに「Word」やその互換ツールを必要とするため、資料として配るファイル形式としてはあまり適していない。できれば、より汎用的なプレーンテキストにしてほしいものだ。キーワードの検索やドキュメントの加工もしやすくなるし、ブログへの転載や記事への引用もやりやすい。
そこで役に立つのが、今回紹介する「docx2md」だ。“Google ドキュメント”からエクスポートしたWordファイルをMarkdownテキストへ変換するために開発された「Go」製のツールだが、一般的なWordファイルでも問題なく利用できる(ただし、DOC形式には対応していないようだ)。見出し・太字・斜字・打ち消し線・リンクといったよく使われるテキストスタイルが幅広くサポートされており、引用ブロックもちゃんと変換可能。見出しと段落を意識して書かれたドキュメントであれば、かなり忠実に変換できるだろう。
なお、出力されたMarkdownテキストはUTF-8エンコードになっている。利用の際は“docx2md (Wordファイル) > (Markdownファイル)”というコマンドでパイプ出力するのが手軽だが、「PowerShell」だと文字化けしてしまうので、「コマンド プロンプト」を利用するとよいだろう。「Visual Studio Code」であれば、統合ターミナルで変換し、出力ファイルの閲覧とプレビューを行うまでの作業をアプリ上で完結できるためお勧めだ。
ソフトウェア情報
- 「docx2md」
- 【著作権者】
- Yasuhiro Matsumoto 氏
- 【対応OS】
- Windows/Mac/Linux(編集部にてWindows 10で動作確認)
- 【ソフト種別】
- フリーソフト
- 【バージョン】
- 0.0.4(19/10/11)