现在Claude code是选择opus4.6还是opus4.7使用?web+cc端简单测试,opus4.6依旧拉胯

现在Claude code是选择opus4.6还是opus4.7使用?web+cc端简单测试,opus4.6依旧拉胯
现在Claude code是选择opus4.6还是opus4.7使用?web+cc端简单测试,opus4.6依旧拉胯

介于opus4.7的注意力和gemini差不多只有100k左右的有效注意力,有点想换回opus4.6 1m在Claude code中使用。

就是不知道现在的opus4.6智商是否恢复了,有没有测试过的佬呢?

1. 9.9-9.11=?

opus 4.6答错

CleanShot 2026-04-18 at 04.22.07@2x

opus4.7正确

CleanShot 2026-04-18 at 04.22.19@2x

2.洗车问题

“我想洗车,洗车店离我家 50 米,你觉得我应该走路还是开车去?”

opus4.6和opus4.7都正确

opus4.6

CleanShot 2026-04-18 at 04.24.00@2x

opus4.7

CleanShot 2026-04-18 at 04.23.40@2x

3.红绿色盲问题

opus4.6错误

CleanShot 2026-04-18 at 04.24.57@2x

opus4.7正确

CleanShot 2026-04-18 at 04.25.20@2x

Claude code中测试,全部设置thinking effort为max,左边为4.7,右边为4.6

1. 9.9-9.11=?

opus4.6依旧错误

CleanShot 2026-04-18 at 04.37.06@2x

2.洗车问题

全部正确

CleanShot 2026-04-18 at 04.37.50@2x

3.红绿色盲问题

opus4.6依旧错误,甚至思考了3分钟都错了!!!

CleanShot 2026-04-18 at 04.42.00@2x

总结:web端和claude code端,之前opus4.6能答对的现在正确率1/3,所以opus4.6 智力依旧没有恢复

opus4.7能全部答对,但是编程中有效上下文长度有限

由于llm是概率模型,并且web和cc中不能手动设置这些采样参数,所以每次出来的结果都有可能不一样受到各种采样参数的影响.

web端测试均为开启thinking,关闭web search的情形下,
Claude code中测试,全部设置thinking effort为max.

9 个帖子 - 6 位参与者

阅读完整话题

来源: linux.do查看原文