やじうまの杜
Microsoftの“なんでもMarkdownにしてくれるライブラリ”が話題、手軽なWebアプリもさっそく登場
PDF、Word、Excel、PowerPoint、音声・画像までカバー
2024年12月16日 09:15
「やじうまの杜」では、ニュース・レビューにこだわらない幅広い話題をお伝えします。
MicrosoftがなんでもMarkdownにしてくれるライブラリを作ってくれたと、「X」(旧称:Twitter)で話題になっています。「MarkItDown」という名前で「GitHub」にホストされている「Python」製のツールで、ライセンスは「MIT」。
マイクロソフトが開発した MarkItDown
— daka | Microsoft | AI (@daiki15036604)December 14, 2024
PDFだけじゃなく、Word、Excel、PowerPointなどの多様なファイル形式をMarkdownに変換し、テキスト分析やインデックス作成を容易できるのよい!https://t.co/DgCxamEpTs
対応するファイルはPDF、「Microsoft Office」ドキュメント(Word、Excel、PowerPoint)など。画像や音楽などのファイルのメタデータを取得してMarkdown形式にしたりもできるようです。
- PDF(.pdf)
- PowerPoint(.pptx)
- Word (.docx)
- Excel(.xlsx)
- 画像(EXIFメタデータ、OCR)
- オーディオ(EXIFメタデータ、音声の書き起こし)
- HTML(Wikipedia向けの特別処理など)
- そのほかのテキストベースフォーマット(csv、json、xml……)
インストールはWindows版「Python」がインストールされていれば、「pip」コマンド一発(「Python」をセットアップする際、既定で「pip」もインストールされます)。とても簡単です。
中身は……「pdfminer」(PDFからテキストを抽出)や「mammoth」(各種オフィス文書形式の変換ライブラリ)、「markdownify」(HTML文書をMarkdownテキストに変換)といったサードパーティ製ライブラリをいろいろ束ねて、簡単に呼び出せるようにしたものという感じですね。OpenAIにデータをぶん投げて、AIに解析・テキスト化してもらうこともできます。「Copilot」をはじめ、Markdownを採用しているAIツールは少なくないので、こういったライブラリに需要があるんでしょうね。
内製されている要素があまりないので、Microsoft公式のツールと呼ぶにはちょっと……という感じですが、それでも便利なのは確か。「Webアプリとしてサクッと使えるようにならないかな?」という要望に応え、「getmarkdown.com」というWebサイトもさっそく登場しています。
— Aark Kodur (@aarkkodur)December 14, 2024
なお、ご利用は自己責任で。このWebサイトがそうというつもりはありませんが、流行りに乗って悪意あるツールを広めようとする人がいないとも限りません。いくら便利だからと言って、業務用のデータを突っ込むような真似はやめましょう。