Anthropic、「Claude Opus 4.8」を発表～過去一で有能かつ“誠実な”最新鋭モデル【6月12日追記】(2/3)

ユーザーの意図と異なる（ミスや失敗、幻覚など）「不整合な行動」の多さを測ったテスト。「Opus 4.8」と「Claude Mythos Preview」の低さが印象的