エンジニアに人気の「Claude Code」は何がすごい？～開発現場で起きている変化から紐解く(3/6)

プログラミング能力を測定するベンチマーク「SWE-bench Verified」における各モデルの正答率。新しいモデルはこれまでのモデルより飛躍的に性能が向上しています（SWE-benchより引用）