プログラミング能力を測定するベンチマーク「SWE-bench Verified」における各モデルの正答率。新しいモデルはこれまでのモデルより飛躍的に性能が向上しています(<a href="https://www.swebench.com/" class="n" target="_blank">SWE-bench</a>より引用)

プログラミング能力を測定するベンチマーク「SWE-bench Verified」における各モデルの正答率。新しいモデルはこれまでのモデルより飛躍的に性能が向上しています(SWE-benchより引用)