因为自己贫瘠的表达能力,上个帖子因为措辞不太准确导致带有一定的倾向性被删除了,认真回复的佬们实在对不起了。
![]()
重新组织了下语言,想把这个观点说清楚。
国产开源模型发布时,习惯性拿顶级(或者次顶级,比如qwen 3.6 plus对标的是Opus 4.5而不是4.6)商业闭源模型来做对比,这本身其实并不奇怪,因为顶级模型本来就是它们追赶的目标,发布时拿最强的对手来展示进步幅度,也是一种很常见的表达方式。
问题不在于“和顶级比”,而在于很多人会把某些benchmark接近直接理解成整体能力已经追平,这里面其实有很大的偏差。
(注意我不在这里讨论关于benchmark过拟合等问题,这个不是我要讨论的范围。)
benchmark接近,通常只能说明模型在特定方向上已经缩小了差距,但这并不意味着在真实使用里,特别是大任务,复杂任务,需要长时间运行的agent等更加极致的场景也已经和顶级闭源模型处在同一水平。
局部接近,不等于整体追平;单项的进步,也不等于真实体验没有差距。
当然,这里也不能否认有些厂商在宣传上会用一些比较擦边的方式,让人产生“已经差不多了”甚至“超越”的联想。再加上一些自媒体的放大,最后很容易把大家的预期拉得过高。等真正上手做复杂任务时,发现效果并没有想象中那么接近,就又会从一个极端滑到另一个极端。
我想说明的点(上一篇其实也是,但是因为表达能力不够太绕了)其实就这几点:
- 国产开源模型和顶级闭源商业模型存在差距,这个差距是客观存在的;
- 拿顶级模型做对标没有问题,因为顶级就是目标;
- 但不能因为几个榜单看起来接近,就默认已经追平,更不能进一步幻想一个新开源模型出来就立刻能和当前最强闭源打平甚至反超。
- 正视差距的同时,也对国产模型更加的包容,期待他们的不断进步;
更适合的态度是什么呢,我这里引用一些之前帖子佬的评论:
“承认它们这几年进步很快,也承认它们和顶级闭源之间仍然有现实差距。不要因为不靠谱的宣传口径就过度乐观,也不会因为还有差距就直接全盘否定。讨论回到真实场景、真实任务和真实体验,结论通常会更靠谱一些。”
“不是所有场景都需要顶级模型,一些场景用国产模型更经济”
总之,就是不要指望一口气登天,但是希望不断缩小差距。
10 个帖子 - 9 位参与者