ニュース

「Claude」の作業を「GPT-5.4」が批判、「GitHub Copilot CLI」に新機能「Rubber Duck」

AIのセカンドオピニオンで問題の芽を摘み取る

樽井秀人

2026年4月7日 09:12

同社のアナウンス

　米Microsoft傘下のGitHubは4月6日（現地時間）、「GitHub Copilot CLI」の新機能「Rubber Duck」を発表した。メインのエージェントと異なるモデルファミリーにメインエージェントの計画やレビューさせる、いわばセカンドオピニオン機能だ。

　コーディングエージェントは計画、実装、テストのループで動作するが、初期工程に誤った判断があると、後工程で大きな問題に発展しやすい。そのため、それぞれの工程で誤りがないかチェックするレビューが有効となる。しかし、レビューをメインのエージェントと同じモデルにやらせても、同じ盲点を抱えていればよい結果は得られないだろう。

　そこで考案されたのが「Rubber Duck」だ。たとえばメインモデルに「Claude Sonnet」を利用している場合、「Rubber Duck」はその批評モデルとして、「GPT‑5.4」といった他社製モデルを採用する。「GPT‑5.4」は「Claude Sonnet」と異なる視点やアプローチを備えているので、「Claude Sonnet」が見落としやすい不具合や設計の際に混入する前提のズレ、複数ファイルにまたがる依存関係の破綻、テストの抜け漏れなどを鋭く指摘できるだろう。「Rubber Duck」という名前は、アヒルのおもちゃに1行ずつコードの説明をすると、その過程で問題点を発見したり、よりよい解決策を思いつくことがあるという「ラバーダックデバッギング」に由来するようだ。

　実際、同社のテストによると、「Claude Sonnet」と「Rubber Duck」（GPT-5.4）の組み合わせは、同じ「Claude」の「Sonnet」と「Opus」を組み合わせた場合に比べ、ステップ数が長く、多くのファイルにまたがる難しい問題で大きな改善が見られたとのこと。

　こうしたメインモデルと批評モデルを組み合わせることで出力品質を改善する取り組みは、Microsoftの調査エージェント「Researcher」でも、同様の仕組み「Critique」がテストされている。今後のトレンドになるのかもしれない。