やじうまの杜

Microsoftの“なんでもMarkdownにしてくれるライブラリ”が話題、手軽なWebアプリもさっそく登場

PDF、Word、Excel、PowerPoint、音声・画像までカバー

 「やじうまの杜」では、ニュース・レビューにこだわらない幅広い話題をお伝えします。

MicrosoftがなんでもMarkdownにしてくれるライブラリ「MarkItDown」をリリース

 MicrosoftがなんでもMarkdownにしてくれるライブラリを作ってくれたと、「X」(旧称:Twitter)で話題になっています。「MarkItDown」という名前で「GitHub」にホストされている「Python」製のツールで、ライセンスは「MIT」。

 対応するファイルはPDF、「Microsoft Office」ドキュメント(Word、Excel、PowerPoint)など。画像や音楽などのファイルのメタデータを取得してMarkdown形式にしたりもできるようです。

  • PDF(.pdf)
  • PowerPoint(.pptx)
  • Word (.docx)
  • Excel(.xlsx)
  • 画像(EXIFメタデータ、OCR)
  • オーディオ(EXIFメタデータ、音声の書き起こし)
  • HTML(Wikipedia向けの特別処理など)
  • そのほかのテキストベースフォーマット(csv、json、xml……)

 インストールはWindows版「Python」がインストールされていれば、「pip」コマンド一発(「Python」をセットアップする際、既定で「pip」もインストールされます)。とても簡単です。

「pip」コマンドで簡単インストール

 中身は……「pdfminer」(PDFからテキストを抽出)や「mammoth」(各種オフィス文書形式の変換ライブラリ)、「markdownify」(HTML文書をMarkdownテキストに変換)といったサードパーティ製ライブラリをいろいろ束ねて、簡単に呼び出せるようにしたものという感じですね。OpenAIにデータをぶん投げて、AIに解析・テキスト化してもらうこともできます。「Copilot」をはじめ、Markdownを採用しているAIツールは少なくないので、こういったライブラリに需要があるんでしょうね。

 内製されている要素があまりないので、Microsoft公式のツールと呼ぶにはちょっと……という感じですが、それでも便利なのは確か。「Webアプリとしてサクッと使えるようにならないかな?」という要望に応え、「getmarkdown.com」というWebサイトもさっそく登場しています。

 なお、ご利用は自己責任で。このWebサイトがそうというつもりはありませんが、流行りに乗って悪意あるツールを広めようとする人がいないとも限りません。いくら便利だからと言って、業務用のデータを突っ込むような真似はやめましょう。

Webから手軽に扱える「getmarkdown.com」もさっそく登場
手持ちのPDFドキュメントがMarkdownになりました