介于opus4.7的注意力和gemini差不多只有100k左右的有效注意力,有点想换回opus4.6 1m在Claude code中使用。
就是不知道现在的opus4.6智商是否恢复了,有没有测试过的佬呢?
1. 9.9-9.11=?
opus 4.6答错
opus4.7正确
2.洗车问题
“我想洗车,洗车店离我家 50 米,你觉得我应该走路还是开车去?”
opus4.6和opus4.7都正确
opus4.6
opus4.7
3.红绿色盲问题
opus4.6错误
opus4.7正确
Claude code中测试,全部设置thinking effort为max,左边为4.7,右边为4.6
1. 9.9-9.11=?
opus4.6依旧错误
2.洗车问题
全部正确
3.红绿色盲问题
opus4.6依旧错误,甚至思考了3分钟都错了!!!
总结:web端和claude code端,之前opus4.6能答对的现在正确率1/3,所以opus4.6 智力依旧没有恢复
opus4.7能全部答对,但是编程中有效上下文长度有限
由于llm是概率模型,并且web和cc中不能手动设置这些采样参数,所以每次出来的结果都有可能不一样受到各种采样参数的影响.
web端测试均为开启thinking,关闭web search的情形下,
Claude code中测试,全部设置thinking effort为max.
9 个帖子 - 6 位参与者