ユーザーの意図と異なる(ミスや失敗、幻覚など)「不整合な行動」の多さを測ったテスト。「Opus 4.8」と「Claude Mythos Preview」の低さが印象的

ユーザーの意図と異なる(ミスや失敗、幻覚など)「不整合な行動」の多さを測ったテスト。「Opus 4.8」と「Claude Mythos Preview」の低さが印象的