柳谷智宣の「実は色々できるPDFの活用法」

【AI×PDF】ChatGPT・Claude 3などの生成AIでPDFファイルを10倍活用する方法

AIに難解なPDFの解説役、総務代わりのヘルプデスクになってもらおう!

 本連載「柳谷智宣の『実は色々できるPDFの活用法』」では、無料・有料のPDFツールを活用し、ビジネスシーンで活躍しそうなPDFのテクニックを解説していく。今までは、もらったPDFを閲覧することしかしたことがない、という人にぜひ読んでいただきたい。
今回は生成AIでPDFファイルを10倍活用する方法をご紹介する

 企業などの組織が文書を公開する際はPDFファイルにしていることが多い。プレスリリースや白書、論文、調査結果、各種レポートなど、さまざまなPDFが日々流れてくる。最新情報を入手したければ、当然英語の文書もチェックしなければならない。筆者も仕事柄、大量のPDFをチェックしているが、読みやすい文書もあれば読みにくい文書もあり、とても手間がかかっていた。

 しかし、2022年に「ChatGPT」が登場し、生成AIが雨後のタケノコのように乱立。PDFファイルを扱えるようになると世界が一変した。どんなPDFも手間をかけずに、短時間で、内容をまるっと確実に把握できるようになったのだ。

 総務省が公開している「令和5年版 情報通信白書(ICT白書)」は307ページ、約30万文字とボリュームが大きい。もちろん、じっくり読めば内容を理解できるが、字が細かくとても時間がかかりそう。そんなときは生成AIに解説役となってもらおう。

 ChatGPTは無料版もあるが、PDFをアップロードして分析してもらうには、有料版の契約が必要となる。LLMは「GPT-4」を選択し、PDFファイルをChatGPTの画面にドラッグ&ドロップすればアップロードできる。

最新の白書やレポートはPDFで配布されることが多い
PDFによっては一目で内容を把握しにくいものもある
PDFファイルをドラッグ&ドロップしてアップロードする

 ChatGPTはPDFの内容を完全に把握している専門家として、何でも好きに質問していい。最初はまず内容の把握から始めよう。

 ファイルをアップロードしたら、同じフォーム内にプロンプトを入力する。単に内容について質問するなら、シンプルに「何が書かれている?」と質問すればよい。その上で、解説してもらうなり、要約してもらうなりすればいい。何も指定しないと、少なめの文字数でまとめられるので、しっかりと解説してもらいたいなら「詳細に」といった指示を入れておこう。「●●文字で」と指定する手もあるのだが、日本語だとあまりきちんと対応してくれないためだ。

#プロンプト

★PDFをアップロード

このPDFファイルには何が書かれていますか? 詳細に解説してください。

#出力

このPDFファイルは、「令和5年版 情報通信白書(ICT白書)」と題された文書です。日本の総務省が編集し、情報通信技術(ICT)の進展、現状、および未来の方向性について詳細に解説しています。白書は、新時代における強靱(きょうじん)で健全なデータ流通社会の実現に向けての内容を主軸にしています。以下は、文書の主な内容です:

・序章では、情報通信・デジタル技術の発展とそれがもたらす可能性とリスクについて述べられています。また、デジタル空間の国際的な側面と、G7群馬高崎デジタル・技術大臣会合やG7広島サミットでの議論内容が紹介されています。

~略

 PDFの内容を要約してもらい、全体を把握できた。しかし、これだけではあまり意味がない。気になる部分をさらに詳細に解説してもらおう。

 ChatGPTは一度にあまり大量のテキストを生成させることができないので、必要に応じて部分部分の処理を指定する方が効率よく作業できる。

 その際、内容が難しいのであれば「高校生にもわかるように」「小学生にもわかるように」と指定すると、噛み砕いて解説してくれるので理解しやすい。特に、難しい論文を読む際には非常に助かる。

#プロンプト

第1部について、小学生にもわかるように、詳細に解説してください。

#出力

インターネットの進化

昔、人々は手紙や電話でしか遠くの人と話すことができませんでした。でも今、私たちはインターネットを使って、世界中の誰とでも瞬時に話したり、情報を共有したりできるようになりました。これは、通信インフラと呼ばれるインターネットの土台が進化したからです。

データの海

インターネット上では、毎日とてもたくさんの情報(これをデータと言います)がやりとりされています。みんながインターネットを使って、写真や動画をシェアしたり、お話をしたりしています。でも、このたくさんの情報を上手に扱うには、ルールが必要です。どのように情報を安全に、そしてみんなが平等に使えるようにするかが、大切なポイントです。

~略

PDFを理解するための質問も生成AIに考えてもらう

 次は、Anthropicが提供する「Claude 3」を利用してみよう。

 「Claude 3」はChatGPTのライバルで、最上位の「Opus」プランはGPT-4を超える性能を持つという人もいる。「Sonnet」プランは無料で利用できるが、最上位性能の「Opus」プランを利用するには月額20ドルかかる。

 もちろん、PDFをアップロードし、内容を理解させることも可能だ。ChatGPTと同様、PDFをドラッグ&ドロップし、質問すればよい。英語のファイルをアップロードしても、日本語で質問すれば、日本語で出力してくれる。ここでは、FBIのサイバー部門の中にあるIC3(Internet Crime Complaint Center)が出した、「2023 INTERNET CRIME REPORT」のPDFファイルを使った。

Claude 3の入力欄の近くにPDFファイルをドラッグ&ドロップできる

 前出のように、気になるポイントを要約・解説してもらってもいいが、いい質問が思い浮かばない、ということもあるだろう。そんなときは、その質問自体も生成AIに考えてもらえばよい。文書を理解するのに最適な質問を5個考えてくれ、とプロンプトに入れてみよう。

#プロンプト

★PDFをアップロード

このPDF文書を理解するのに最適な質問を5つ考えてください。そして、その5つそれぞれに詳細に解説してください。回答はPDFの内容を利用し、数字や具体例を引用しつつ、わかりやすく噛み砕いてください。

#出力

はい、このPDF文書の内容を理解するのに適した5つの質問とその解説は以下の通りです。

  1. 2023年にIC3が受け取った苦情件数と被害総額はどのくらいでしたか?
    2023年、IC3は過去最高の880,418件の苦情を受け取りました。被害総額は125億ドル以上に上りました。
    2022年と比べて、苦情件数は約10%増加し、被害額は22%増加しました。
    これらの数字は2023年のサイバー犯罪の実態を控えめに示したものだと報告書は指摘しています。
  2. 2023年に最も被害額が大きかった犯罪の種類は何でしたか?

~略

 いい感じの質問が生成され、その回答も続けて出力してくれる。実際、とても参考になる質問だった。

 そのうえで、さらに質問を考えてもらったり、興味のある項目について深堀りしていけばよいだろう。相手はAIなので、くだらない質問をしても、誤字脱字をしても、同じ質問を繰り返しても、嫌な顔一つせず対応してくれる。存分に、PDFの内容を絞りつくせるのだ。

社内マニュアルをアップロードして総務の代わりにヘルプデスクになってもらう

 新入社員に業務マニュアルを渡しても、なかなか読んでもらうことは難しい。そのため、何かあると社内ヘルプデスクの担当者に質問してくることになるだろう。業務マニュアルに記載していることやFAQに対応していると、いくら時間があっても足りない。そんなときも生成AIの出番だ。

 業務マニュアルのPDFをアップロードし、質問に回答するように指示すればよい。プロンプトには、マニュアルの内容を参照して回答するように指示し、内容を要約したりせず、「はい」とだけ応えるようにしておくとよいだろう。必要に応じて、業務以外の内容の回答は避けたり、わからないことがある場合は「情シスに連絡」など定型文を出力するような指示を入れておこう。

#プロンプト

★PDFをアップロード

このマニュアルの内容を覚えて、はい、とだけ答えてください。その後、私の質問に、マニュアルの内容から回答してください。

 社員は何でも聞いてOK。例えば、「有給の取り方を教えて」と入力すれば、マニュアルから該当部分を引用して教えてくれる。PDFをアップロードしていないと、一般的な企業のフローを答えてくるが、業務マニュアルがあれば「kintoneのフォームに入力」といった具体的な手続きを提示してくれる。マニュアルに記載があればURLのリンクも教えてくれる。

 出勤時にやること、会社のミッション、掃除の仕方など、何でも聞くことができる。内容が理解できなければ、「小学生にもわかるように説明して」とプロンプトに入れればよい。

有給の取り方を聞いてみた

 Claude 3の場合、10MBまでのファイルを5つまでアップロードできる。マニュアル以外にも、社員のIDリストをアップロードしておけば、自分のIDがわからなくなったユーザーからの質問にも自動回答してくれる。

自分のIDやクラウドサービスのURLを質問することもできる
【生成AIへのファイルアップロードの注意点】

 今回利用したClaude 3やChatGPT Teamプランでは、入力されたデータはAIの学習に使われることはありません。

 しかし、ChatGPTの無料プランやPlusプランの場合は使われる可能性があるので、「OpenAI Privacy Request Portal」の「Make a Privacy Request」からオプトアウトし、学習されない設定にしておきましょう。ほかの生成AIを使う場合も、入力したデータが学習に使われるかどうかを確認し、可能であれば学習しないようにオプトアウトしておくことをお勧めします。

 また、万一のことも考え、Webサービスにはビジネス上の機密情報などはアップロードしないようにしておきましょう。もしデータを学習に使われた場合、ほかの人の出力に表示される可能性がゼロではないからです。もし機密情報もアップロードし、安全に運用したい場合は、「Azure OpenAI Service」などを利用して自社で生成AI環境を用意しましょう。

 以上が、ChatGPT・Claude 3などの生成AIでPDFファイルを10倍活用する方法となる。最新&海外のPDFファイルでも、生成AIがあれば怖くはない。積極的に活用して業務効率をアップさせよう。

著者プロフィール:柳谷 智宣

IT・ビジネス関連のライター。キャリアは25年目で、デジタルガジェットからWebサービス、コンシューマー製品からエンタープライズ製品まで幅広く手掛けている。日々、大量の原稿を執筆しており、PDFファイルも日常的に利用している。メインのPDFツールは「Acrobat Pro」を活用。

・著者Webサイト:https://prof.yanagiya.biz/

柳谷智宣の「実は色々できるPDFの活用法」 記事一覧