レビュー

テキスト装飾されたWord文書をMarkdown書式のプレーンテキストへ変換「docx2md」

リンクや引用ブロックにもちゃんと対応

「docx2md」

 「docx2md」は、「Microsoft Word」形式のドキュメントファイルをMarkdown記法で書かれたプレーンテキストファイルへ変換するコマンドラインツール。Windows/Mac/Linuxに対応するオープンソースプロジェクトで、ライセンスは“MIT License”。編集部にてWindows 10で動作を確認した。“GitHub”のプロジェクトページから、ソースコードとバイナリをダウンロードできる。

 「Word」は紙で印刷する文書を作成するのに適しているが、閲覧するのに「Word」やその互換ツールを必要とするため、資料として配るファイル形式としてはあまり適していない。できれば、より汎用的なプレーンテキストにしてほしいものだ。キーワードの検索やドキュメントの加工もしやすくなるし、ブログへの転載や記事への引用もやりやすい。

このような見出し・太字・斜字・打ち消し線・リンクで装飾されたWordファイルをMarkdownテキストへ変換

 そこで役に立つのが、今回紹介する「docx2md」だ。“Google ドキュメント”からエクスポートしたWordファイルをMarkdownテキストへ変換するために開発された「Go」製のツールだが、一般的なWordファイルでも問題なく利用できる(ただし、DOC形式には対応していないようだ)。見出し・太字・斜字・打ち消し線・リンクといったよく使われるテキストスタイルが幅広くサポートされており、引用ブロックもちゃんと変換可能。見出しと段落を意識して書かれたドキュメントであれば、かなり忠実に変換できるだろう。

 なお、出力されたMarkdownテキストはUTF-8エンコードになっている。利用の際は“docx2md (Wordファイル) > (Markdownファイル)”というコマンドでパイプ出力するのが手軽だが、「PowerShell」だと文字化けしてしまうので、「コマンド プロンプト」を利用するとよいだろう。「Visual Studio Code」であれば、統合ターミナルで変換し、出力ファイルの閲覧とプレビューを行うまでの作業をアプリ上で完結できるためお勧めだ。

「Visual Studio Code」であれば、統合ターミナルで変換し、出力ファイルの閲覧とプレビューを行うまでの作業をアプリ上で完結できる

ソフトウェア情報

「docx2md」
【著作権者】
Yasuhiro Matsumoto 氏
【対応OS】
Windows/Mac/Linux(編集部にてWindows 10で動作確認)
【ソフト種別】
フリーソフト
【バージョン】
0.0.4(19/10/11)