柳谷智宣のAI ウォッチ!

「GPT-5」シリーズはどのくらい賢くなったのか、過去シリーズと比較してみた

待望のOpenAI最新モデルが爆誕、ファーストレビュー[特別編]

 本連載「柳谷智宣のAI ウォッチ!」では、いま話題のAI(生成AI)を活用したサービスを中心に取り上げていく(基本的に1サービスにつき前後編を予定)。今回は特別編としてOpenAIの最新モデル「GPT-5」のファーストレビューをお届けする。
「GPT-5」がお目見えした

 米国時間8月7日、待望の「GPT-5」(ChatGPT-5)がリリースされた。OpenAIによると「GPT-4o」や「OpenAI o3」といった従来モデルよりも飛躍的に性能が向上しており、幅広い分野で高いパフォーマンスを発揮するという。コード生成などの専門分野はもちろん、文章生成のクオリティもアップした。

 「GPT-5」は今後、ChatGPTのデフォルトモデルとなり、これまで乱立していたAIモデル名も統一される。メインはGPT-4oの後継である「GPT-5」、推論モデルはOpenAI o3の後継である「GPT-5 Thinking」となる。どちらも無料プランを含むすべてのプランで利用できる。そして、Team/Education/Pro/Enterpriseプランでは、OpenAI o3 Proの後継である「GPT-5 Pro」が利用できる。

 無料プランでは、5時間ごとに10回の利用制限があり、制限がかかるとGPT-4o miniの後継である「GPT-5 Thinking mini」(以後「GPT-5 mini」)に切り替わる。最初から「GPT-5 mini」を選択することはできない(アップデートにより、オプション設定から選択肢を表示可能に)。「GPT-5 Thinking」は1日1回まで。

 月額20米ドルのPlusプランでは「GPT-5」を常時利用可能で、無料プランの5倍利用できる。無料プランと同様、制限にかかると「GPT-5 mini」に切り替わる。混雑状況にもよるが、3時間で80回(現在は倍増中で160回)利用できる。Deep Researchも利用可能。「GPT-5 Thinking」は週に200回まで(アップデートで3,000回に)。月額200米ドルのProプランでは「GPT-5」を無制限に利用でき、さらに高精度な「GPT-5 Pro」も利用できる。

執筆現在のモデル選択画面(選択肢の名称は今後のアップデートで変更の可能性あり)

GPT-5、GPT-5 Thinking、GPT-5 Proは実際どのくらい使えるのか

 「GPT-5」シリーズの高性能を示すベンチマーク結果がいろいろと公開されており、最高性能のAIであることは間違いない。

 しかし、実はリリース直後から「GPT-4o」を利用できなくしたことで炎上してしまった。コーディング性能は高まったものの、普通のやりとりが事務的になり、創造性が落ちてしまったという声が上がったのだ。しかも、Plusプランでは利用制限が厳しくなり、すぐに利用制限にかかってしまうのも炎上に油を注いだ。

 もはや大企業となっているOpenAIだが、驚くべきことにサム・アルトマンCEOは2日後の8月9日に戦略を修正。Plusユーザーのレート制限を2倍にして「GPT-4o」も復活させたのだ。



 こうなると気になるのは「GPT-5」「GPT-5 Thinking」そして「GPT-5 Pro」が実際どのくらい使えるのか、だろう。「GPT-4o」よりも性能が低いなら使い物にならない。そこでいろいろとテストしてみた。

 まずは、定番の小数点比較「10.11と10.9のどっちが大きい?」をテストしてみると見事正解。「バージョン比較なら、10.11の方が上」などと余裕まで見せている。

「GPT-5」に10.11と10.9のどちらが大きいかを聞いてみた(以下、画像は執筆時点のバージョンのもの)

 続いて、もう少し難しい論理問題を出してみた。

 異なる速度で移動する複数の対象(タクシーと歩行者)の時間差を利用して距離を逆算する、時間・速度・距離の関係式と連立方程式の理解が試される移動問題だ。過去に「GPT-4o」で試したときは正解できなかったのだが、「GPT-5 Thinking」であっけなく正解。流石推論モデルだ。

連立方程式の問題にも軽々正解

 「GPT-4o」はもちろん「o1 pro mode」でも解けなかった問題も出してみた。

 2023年の慶應義塾大学理工学部の入試問題で、テーマは確率。筆者では手も足も出ない難問だ。6つの小問があるのだが、こちらも「GPT-5 Thinking」が全問正解。以前はどうやっても解けなかったのに、「GPT-5 Pro」の出番を待たずに正解してしまった。

大学入試レベルの難問もさくっと正解してしまった

画像生成、長文生成の処理能力はどうか

 とはいえ、「GPT-5」シリーズの論理的な処理性能が向上しているのはベンチマーク結果からも明らかなので、ここまでは想定内。では、アナログ寄りのタスクの処理能力はいかほどだろうか。

 「GPT-5」シリーズは画像生成や学習モードなど、一通りの機能を統合している。そこで、かつて「GPT-4o」で生成した万有引力の解説画像を、同じプロンプトで「GPT-5 Thinking」に生成させてみた。

GPT-4oで生成した万有引力の解説画像

 すぐに似たようなイラストが生成された。

 文字の表現力は格段に向上しているが、日本語フォントとしてはまだわずかに違和感が残る。また、「離れられない~」はリンゴのセリフなのだが、地球寄りになっている。まだ商業媒体の解説図に使えるほどのクオリティはないが、あと一歩というところまで来ている。順当に進化していることは間違いない。

同じプロンプトでGPT-5 Thinkingに生成させた画像

 では、長文の生成能力を見てみよう。

 過去の履歴から、下原稿を書かせたプロンプトを引っ張り出して「o3」と「GPT-5 Thinking」の出力を比較してみた。サム・アルトマンCEOがFRBの会議で講演した発言を文字起こししたものから、解説原稿を書かせたものだ。

英語の発言を文字起こししたものから解説原稿を書いてもらった

 その差は歴然だった。

 プロンプトでは5,000文字と指示したものの、「o3」では3,110文字しか出てこなかったのだが、「GPT-5 Thinking」では6,755文字と十分。「o3」では無視された小見出しの後には改行を入れる、英数字は半角にする、といった指示もきちんと対応している。ちなみに「GPT-5」では2,197文字で、引用の指示も無視しており、o3以下のクオリティだった。

 大見出しを比較してみると、o3の「知性の原価崩壊」は意味がわからない。また、プロンプトにあるからといって、導入文に「その核心を5,000字で掘り下げる」などと入れるのはナンセンスだ。そもそも、です・ます調と指示しているのに、だ・である調で書いているのがアウト。

 一方、GPT-5 Thinkingの大見出しは流石。筆者では思いつかないフレーズで講演の内容を表現している。きちんとですます調だし、英数字の半角表記も完ぺきだ。小見出しの後には空白行を入れて見やすくしているのも手間が省ける。

  • o3の大見出し
    AI革命が金融を揺らす日、サム・アルトマンが語った『知性の原価崩壊』
  • GPT-5 Thinkingの大見出し
    ウェブは「壊される」のか——サム・アルトマンが語った、金融と日常をのみ込むAIの現実

 文章を比較したところ、賢くなっている部分も見られるが、以前できていたことができなくなっているところも多かった。例えば、元発言を引用するときは、英文を入れたあとにカッコで日本語を追記していたのだが、「GPT-5 Thinking」では効いていなかった。

 また、良いことを言おうとして全体的に余計な一言が追加されることも多い。文法的には合っているのだが、冗長になっている。「GPT-4o」用にチューニングしてきたプロンプトは一度捨てて、作り直す必要がありそうだ。

GPT-5にはエモーショナルプロンプトが有効か

 いろいろと試していたところ、いまは廃れたテクニックが有効なケースがあった。

 以前、生成AIの出力を向上させるテクニックとしてエモーショナルプロンプトが流行ったことがある。「プロンプトをもう一度読み直して、全力で作成してください」などと指示すると、出力のクオリティが上がるのだ。しかし、LLMの性能向上に伴い、指示しなくとも全力で処理してくれるようになったので必要がなくなっていた。

 しかし「GPT-5 Thinking」で、このエモーショナルプロンプトを試したところ、たった1行加えるだけで大きな効果が得られた。引用に日本語訳も付いて、文章のクオリティも少し向上したのだ。

エモーショナルプロンプトを入れてみるのもアリ

 「GPT-5 Pro」に同じプロンプトを入れてみたところ、5,541文字のアウトプットが得られた。プロンプトの指示をきちんと反映させているだけでなく、文章のレベルも格段に向上した。

 筆者の執筆用プロンプトは100行以上に及ぶが、それもほとんど理解した上で生成していることがうかがえる。いまはまだ、このままポン出しで成果物をメディアに掲載できるレベルではないものの、もうプロライターのレベルに近いクオリティになっている。ドラフト原稿としてはかつてないレベルだ。

GPT-5 Proの文章生成能力はダントツ

 以上が「GPT-5」シリーズのファーストレビューとなる。

 ここまで持ち上げまくってはいるものの、実は、筆者は「GPT-5は世界を変えるAGIなのでは」と勝手に期待値を上げていたので、ちょっと肩透かし感はあった。しかし、「GPT-5 Thinking」の性能は十分高く、「GPT-5 Pro」にいたってはこれまでで最高の使い勝手となっている。コーディングに関しては検証しきれていないが、ビジネスシーンで大活躍してくれることは間違いない。

 最近、Geminiの文章生成能力が格段に向上していて、しばらくChatGPTは使っていなかったのだが、これでまた一軍復帰となる。やはり「GPT-5 Pro」の性能が凄いので、Proプランの契約は続行せざるを得ない。ぜひ皆さんも「GPT-5 Thinking」を触ってみることをお勧めする。それ以上の性能を持つ「GPT-5 Pro」への誘惑にかられること請け合いだ。

著者プロフィール:柳谷 智宣

IT・ビジネス関連のライター。キャリアは26年目で、デジタルガジェットからWebサービス、コンシューマー製品からエンタープライズ製品まで幅広く手掛ける。近年はAI、SaaS、DX領域に注力している。日々、大量の原稿を執筆しており、生成AIがないと仕事をさばけない状態になっている。

・著者Webサイト:https://prof.yanagiya.biz/

柳谷智宣のAI ウォッチ! 記事一覧