智能助手网
标签聚合 差距

/tag/差距

linux.do · 2026-04-18 06:51:23+08:00 · tech

今天看到一篇帖子: 10年内,小白和大牛用ai工具vibecoding,能做到几乎没差别吗 我看完了下面的所有的评论,在我自己所在一些AI群里曾经看到过好多次群友提出类似的问题,我跟身边的同事朋友也经常会谈论到这样的话题,我其实已经做了一些Research,所以与其在帖子下面留言,我想自己开一篇表达一下自己的想法。 本篇完全手搓,不过有借助AI整理思路和提纲同时做数据收集,希望是合规的,如果不是也请告知,今天是我入L站的第二天 。 首先我自己的工作是某大厂的IT项目经理,管理开发团队10年有余,团队里一大把30年以上工作经验的资深构架师和程序员,我自己爱人也是20年以上的Senior SW Engineer,当然也有不少大学刚毕业的实习生和毕设学生。所以对于我以下所提到的观点和结论自认还是站得住脚的。 关于Vibe Coding, 应该追溯到2025 年 2 月,Andrej Karpathy 发了一条推文,定义了一种新的编程方式:完全沉浸在感觉里,拥抱指数级增长,忘掉代码本身的存在。他管这叫 vibe coding 。 这条推文截止我写文现在已经有了 680 万次浏览。同年11月,Collins 词典把它评为年度词汇。 现在 2026 年已经快过去一半,92% 的美国开发者已经在用 AI 编程工具,GitHub 上 46% 的新代码由 AI 生成。一个 85 亿美元的市场,从一条推文里长了出来。 但一个问题也跟着浮出水面: 小白用 AI 写代码,做出来的东西 bug 满天飞,项目稍大就是屎山。大牛用同样的工具,生产率却在飞涨。 (源于原帖主) 随着 AI 工具不断进化,小白和大牛之间的差距会缩小吗?10 年后,一个编程零基础的人,能靠 vibe coding 做出和资深工程师一样水平的东西吗? 这个问题的答案能决定不少人的命运,至少几百万吧。如果 AI 能抹平差距,"学编程"这件事的意义就要被重新定义。如果相反差距在扩大,那正在用 vibe coding 做项目的小白们,可能正在铤而走险。 为什么这么说呢?我们来看下面这组数据。具体数据来源参考最后的参考链接。 数据给出了一个反直觉的答案: 用了 AI 反而更慢 2025年 一个叫 METR 的研究机构做了一项严格的随机对照试验,让 16 名资深开发者完成 246 个编码任务。用 AI 工具 (Cursor+Claude) 的那一半,完成速度 慢了 19% 。但魔幻的是他们自认为快了 20%。感知和现实之间差了 39 个百分点 。 与此同时,高级开发者报告了 81% 的生产力提升,32% 的人超过一半代码由 AI 生成。初级开发者呢?只有 13% 达到同样比例,Anthropic 的研究还发现他们的代码理解力 下降了 17% 。 同一个工具,让强者更强,弱者更弱。 工具救不了判断力 我至今所看到的小白卡的几个地方: 描述不清需求。 小白说"帮我做个登录功能",大牛会指定 JWT 认证、bcrypt hash decrypt、rate limiting、OAuth2。两个 prompt 产出的代码质量天壤之别。大牛脑子里有完整的安全威胁模型,小白根本不知道自己漏了什么。 看不见安全漏洞。 2026 年初,安全公司 Escape 做了一项大规模扫描。他们检查了 5600 个公开部署的 vibe coding 应用 。发现 2000 多个高危漏洞和 400 多个泄露的密钥。 Veracode 的研究更系统,他们测试发现 45% 的 AI 代码含 OWASP Top-10 漏洞,两年的模型改进没有改善这个数字。对小白来说 AI 输出是黑盒,对大牛来说是白盒。 屎山不可避免。 AI 生成的代码是局部最优的。没有人在全局层面做架构决策,完美的代码片段拼在一起也会变成灾难。项目越大,这个问题越致命。 Token 消耗就是知识税。 大牛一个精确的 prompt 就能拿到正确代码,小白可能要 10 轮对话、5 次返工、3 次推倒重来。多出来的 token 本质上是在为"不知道自己要什么"和"不知道怎么判断结果好坏"付费。你的知识越少,同样的结果你付出的代价越高。 大牛的 81% 从哪来 高级开发者的提升来自三件事: 用 AI 消灭样板代码等重复劳动 用 AI 加速对陌生技术栈的探索 用 AI 扩展自己的能力边界(比如后端工程师用 AI 写前端)。 这三件事有一个共同前提:你得有足够的知识来判断 AI 输出的质量。AI 工具越强大,能执行的指令越复杂,而越复杂的指令越需要深厚的技术功底才能发出。 就像给所有人一架钢琴。钢琴越好,郎朗和初学者之间的差距越明显。好钢琴能更忠实地反映演奏者的水平。 回到原帖的问题:十年后会怎样 我想大概有三种可能。 地板上升: 小白从 20 分涨到 80 分,大牛从 90 分涨到 99 分。差距缩小了,但当所有人都能做到 80 分时,80 分就不值钱了。就像智能手机让人人都能拍出 80 分的照片,但专业摄影师并没有失业。 差距扩大: 如果 AI 工具继续朝"更强大的 agent"方向发展,高级用户获得更多控制权,初级用户并没有获得更多保护网。差距可能从 2 倍变成 10 倍。 职业重构: 如果 AI 能自主完成从需求到部署的全部工作,"程序员"这个职业本身会被重新定义。写代码的差距消失了,但"理解问题"和"做决策"的差距可能更大。 最准确的判断可能是按项目规模来分:做小应用,差别不大。做平台级产品,差距依然巨大。 回到本帖的问题 Vibe Coding 能抹平小白和大牛的差距吗? 我的回答是:在某些维度上,差距会缩小到可以忽略。在另一些维度上,差别会大到让人绝望。 而决定你站在哪一边的,从来 都是你脑子里装了什么。 如果觉得这篇对你的认识的更新产生了影响,请点一个免费的小心心 ,也欢迎留言表达你的想法。 参考链接 METR 研究:AI 工具让开发者慢了 19% particula.tech – 13 Mar 26 AI Coding Tools Make Developers 19% Slower: What the Research Says A gold-standard RCT found experienced devs are 19% slower with AI tools—while believing they're 20% faster. Here's what the data actually means for your engineering team. The state of vibe coding in 2026 hashnode.com The state of vibe coding in 2026: Adoption won, now what? tldr: 92% of US developers use AI coding tools daily. 46% of new code is AI-generated. Trust in that code has dropped from 77% to 60%. Vibe coding won the adoption war. The quality war is just startin Forbes: Vibe Coding Has A Massive Security Problem https://www.forbes.com/sites/jodiecook/2026/03/20/vibe-coding-has-a-massive-security-problem/ 高级开发者 81% 生产力提升 https://blog.vibecoder.me/vibe-coding-for-senior-developers 24 个帖子 - 16 位参与者 阅读完整话题

linux.do · 2026-04-15 23:04:13+08:00 · tech

今天去公司汇报,我写出来的harness 可以弥补glm-5和sonnet 4.6的差距,然后所有人都说我吹牛,我也真的是没事给自己找事做,我只好两段一样的提示词,同样往sonnet 4.6和glm-5+harness里面丢。 结果就是harness + glm-5的产出已经开始第二轮增强迭代了,sonnect 4.6的产出物,我这会还要用claude code给他修复bug。 顺便一提,我现在用上harness之后好焦虑啊,harness没有跑代码我就焦虑怎么能不跑代码呢,先跑上我好去干别的,软件人的职业病,并行。跑起来了我又在焦虑,这怎么要跑这么长时间啊,这harness的性能怎么能优化下呢。跑完了,我又开始焦虑了,唉,又要开始验证了。这一来二去,恍惚间都这个点了。 在这边给大家看下sonnet 4.6的劣质品,harness的成品在harness那边帖子上 6 个帖子 - 3 位参与者 阅读完整话题

www.solidot.org · 2026-04-14 22:37:21+08:00 · tech

斯坦福大学研究院 Institute for Human-Centered Artificial Intelligence(HAI)发布了年度报告 AI Index,报告认为中国顶级 AI 与美国 AI 相差无几。2024 年 1 月美国顶级 AI 的得分比中国顶级 AI 高 10% 左右,到 2026 年 3 月美国 Anthropic 和字节跳动的 AI 得分差距仅为 2.7%。在衡量语言、数学和编程领域难题正确率的基准测试中,差距也在缩小,中美之间的性能差距已基本消除。在开发和运营数据中心数量方面,美国有 5427 个遥遥领先于其他国家,2025 年民间投资额美国也以 2859 亿美元遥遥领先其他国家。中国的民间投资仅为 124 亿美元,但政府投资较大,实际投资额尚不明确。在被引用最多的前 100 篇论文中,中国的论文在 2024 年达到 41 篇,比上年增加 7 篇,缩小了与排名第一的美国(46 篇)的差距。

linux.do · 2026-04-14 18:44:38+08:00 · tech

因为自己贫瘠的表达能力,上个帖子因为措辞不太准确导致带有一定的倾向性被删除了,认真回复的佬们实在对不起了。 重新组织了下语言,想把这个观点说清楚。 国产开源模型发布时,习惯性拿顶级(或者次顶级,比如qwen 3.6 plus对标的是Opus 4.5而不是4.6)商业闭源模型来做对比,这本身其实并不奇怪,因为顶级模型本来就是它们追赶的目标,发布时拿最强的对手来展示进步幅度,也是一种很常见的表达方式。 问题不在于“和顶级比”,而在于很多人会把 某些benchmark接近 直接理解成 整体能力已经追平 ,这里面其实有很大的偏差。 (注意我不在这里讨论关于benchmark过拟合等问题,这个不是我要讨论的范围。) benchmark接近,通常只能说明模型在特定方向上已经缩小了差距,但这并不意味着在真实使用里,特别是大任务,复杂任务,需要长时间运行的agent等更加极致的场景也已经和顶级闭源模型处在同一水平。 局部接近,不等于整体追平;单项的进步,也不等于真实体验没有差距。 当然,这里也不能否认有些厂商在宣传上会用一些比较擦边的方式,让人产生“已经差不多了”甚至“超越”的联想。再加上一些自媒体的放大,最后很容易把大家的预期拉得过高。等真正上手做复杂任务时,发现效果并没有想象中那么接近,就又会从一个极端滑到另一个极端。 我想说明的点(上一篇其实也是,但是因为表达能力不够太绕了)其实就这几点: 国产开源模型和顶级闭源商业模型存在差距,这个差距是客观存在的; 拿顶级模型做对标没有问题,因为顶级就是目标; 但不能因为几个榜单看起来接近,就默认已经追平,更不能进一步幻想 一个新开源模型出来就立刻能和当前最强闭源打平甚至反超 。 正视差距的同时,也对国产模型更加的包容,期待他们的不断进步; 更适合的态度是什么呢,我这里引用一些之前帖子佬的评论: “承认它们这几年进步很快,也承认它们和顶级闭源之间仍然有现实差距。不要因为不靠谱的宣传口径就过度乐观,也不会因为还有差距就直接全盘否定。讨论回到真实场景、真实任务和真实体验,结论通常会更靠谱一些。” “不是所有场景都需要顶级模型,一些场景用国产模型更经济” 总之,就是不要指望一口气登天,但是希望不断缩小差距。 10 个帖子 - 9 位参与者 阅读完整话题

www.ithome.com · 2026-04-14 11:37:45+08:00 · tech

今天,斯坦福 HAI 重磅发布「2026 年 AI 指数报告」!这份长达 423 页的年度报告,全面揭示了全球 AI 产业的最新权力版图。 它给出了一条核心结论:AI 的本事涨得飞快;但人类衡量和管好它的能力,却没怎么跟上步伐。 其中,最震撼的结论是 —— 中美 AI 模型性能差距已基本消失,双方在巅峰对决中频繁易主,目前 Anthropic 领先优势仅剩 2.7%。 美国在 AI 上砸的钱比谁都多,但招揽顶尖人才却越来越吃力了。 报告还指出,AI 的进化不仅没有遭遇所谓的「瓶颈」,反而正以史无前例的速度狂飙。过去一年,全球超 90% 的顶尖模型,在博士级科学问题、多模态推理、竞赛数学上的表现,追平甚至超越了人类。 特别是在代码能力上,SWE-bench 的成绩在一年内,从 60% 飙升至近 100%。 然而,AI 的「偏科」现象极其严重,呈现出一种畸形的现状:LLM 可以拿下 IMO 金牌,却读不对模拟时钟,正确率仅为 50.1%。与此同时,AI 抢饭碗这事儿已经从预测变成了现实,而且最先遭殃的就是当代年轻「打工人」。 下面直接上干货,「2026 年 AI 指数报告」最值得关注的 12 个硬核趋势。 其他亮点速览: 全球 AI 算力 3 年涨 30 倍,英伟达独占 60%,几乎所有芯片都出自一家台积电 2025 年全球企业 AI 投资 5817 亿美元,同比翻倍,美国一国吃下近一半 进入美国的 AI 研究人员 7 年跌 89%,仅过去一年就跌 80% 22-25 岁软件开发者就业自 2024 年起下滑 20%,入门岗位被精准切掉 中国累计建成 85 台公共 AI 超算,是北美的两倍以上,全球第一 中国职场 AI 使用率超 80%,远超全球 58% 的平均 最强模型越来越黑箱,95 个代表性模型里 80 个没有公开训练代码 中美贴脸,差距只剩 2.7% 斯坦福把 2023 年 5 月以来 Arena 榜单上的美国第一和中国第一,画在了同一张坐标系里。2023 年 5 月,gpt-4-0314 拿 1320 分领跑,中国这边还是 chatglm-6b,差距 300 多分。2025 年 2 月,DeepSeek-R1 第一次和美国头部模型短暂打平。 2026 年 3 月,美国的 Claude Opus 4.6 拿到 1503 分,中国 dola-seed-2.0-preview 拿到 1464 分。如今中美 AI 之间的差距,仅有 39 分。换算成百分比,2.7%。 更值得说的是过去一年的换位频率。从 2025 年初开始,两国头部模型已经在 Arena 上你来我往换了好几次位置。 数量上同样接近五五开。2025 年美国发布了 50 个「显著模型」,中国紧跟着也发布了 30 个顶尖大模型。 第一梯队里 OpenAI、谷歌、阿里、Anthropic、xAI 同台站位,全球 TOP 5 五五分账。再往下看到 TOP 10,中国机构和企业占了四席,阿里、DeepSeek、清华、字节。 开源生态这一年的重心也明显东移。DeepSeek、Qwen、GLM、MiniMax、Kimi 一路把开源权重的能力曲线往前推。再算上论文发表量、被引数、专利产出量、工业机器人装机量,中国统统全球第一。 价格层面是另一条战线。海外开发者在 X 上算过一笔账,Seed 2.0 Pro 的输出价格大约只有 Claude Opus 4.6 的十分之一。性能贴脸,价格只要十分之一。这件事的连锁反应才刚刚开始。 90% 前沿模型出自产业,封神速度史无前例 去年发布的 95 个最具代表性的模型里,超过九成都来自产业界,不是学术机构,也不是政府实验室。学术界已经追不上前沿了。 发布速度也在变态加速。光是 2026 年 2 月一个月,就有 Gemini 3.1 Pro、Claude Opus 4.6、GPT-5.3 Codex、Grok 4.20、Qwen 3.5、Seed 2.0 Pro、MiniMax M2.5、GLM-5 八九个旗舰模型同月入场。封神周期从「年」变成了「月」。 基准一年封顶,AI 没有瓶颈 最猛的曲线是编程。SWE-bench Verified 这个真实修 Bug 的基准,一年时间从 60% 涨到接近 100%。不是涨了几个点,是基本封顶。 Terminal-Bench 测试 Agent 处理真实终端任务的能力,从去年的 20% 涨到 77.3%。网络安全 Agent 解决问题的成功率,从 15% 涨到 93%。 Gemini Deep Think 在国际数学奥林匹克拿到金牌。PhD 级科学问答(GPQA Diamond)、竞赛数学(AIME)、多模态推理(MMMU)这些原本被认为「人类不可超越」的硬骨头,全部被前沿模型啃了下来。 最能说明问题的是 Humanity's Last Exam。这是一个专门被设计来「难倒 AI、偏袒人类专家」的测试,题目由各个领域的顶尖专家提供。 去年 OpenAI 的 o1 拿到 8.8%,前沿模型在一年时间里把分数往上又推了 30 个百分点,目前 Claude Opus 4.6 和 Gemini 3.1 Pro 已经双双过了 50%。 锯齿前沿,能拿 IMO 金牌却看不懂表 但同一份指数甩出了另一组数字。最强模型在「读模拟时钟」这个任务上的正确率,是 50.1%。 机器人在实验室仿真环境(RLBench)里的操作成功率已经达到 89.4%。但搬到真实家庭场景里完成洗碗、叠衣服这类家务,成功率立刻掉到 12%。 实验室和厨房之间,差了 77 个百分点。 研究者把这种现象命名为「锯齿前沿」(jagged frontier)。AI 能力的分布是凹凸不平的,能拿数学奥赛金牌,却没法稳定地告诉你现在几点。 AI 能在数学奥赛拿金牌,但只有一半的概率能看懂模拟时钟。AI 在加速,但加速的不是同一个方向。 另外,在智能体任务中,OSWorld 测试中,前沿 AI 实力(66.3%)正逼近人类基线。 然而,在专门评估科研逻辑的 PaperArena 测试中,最强 AI 加持的 Agent,得分仅 39%,只有博士生一半的功力。 但这种凹凸已经不影响企业把 AI 往生产线上塞。AI Index 给出的另一个数字是,全球企业 AI 采用率达到 88%。九成的公司已经把 AI 接进了某个工作流。 代价同步在涨。AI 相关事故记录从 2024 年的 233 起涨到 362 起。 钱在加速,5817 亿砸进 AI 2025 年全球企业 AI 投资达到 5817 亿美元,同比增长 130%。其中私募投资 3447 亿美元,同比增长 127.5%。 两条曲线都几乎翻倍。 国别上,美国一骑绝尘。2025 年美国私募 AI 投资 2859 亿美元。并且一年新增 1953 家 AI 创业公司,也是排名第二的 10 倍以上。 钱在加速涌向美国。但美国的另一项核心资源,正在反向流动。 人在流走,进美国的 AI 研究者跌了 89% 里面有一组数字让人愣了一下。2017 年到现在,进入美国的 AI 研究人员和开发者数量下降了 89%。 更关键的是,这个下降在加速。仅仅过去一年,下降幅度就达到 80%。 美国仍然是全球 AI 研究人员密度最高的国家,但流入的水龙头正在拧紧。钱和人这两条曲线开始反向。这是过去十年没出现过的局面。 算力三年涨 30 倍,命门都在一家公司手里 AI 能力曲线在加速,背后那条算力曲线跑得更猛。从 2021 年到现在,全球 AI 算力总量涨了 30 倍。过去三年里,每年都在翻三倍以上。 撑起这条曲线的是少数几家公司。 英伟达一家的 GPU,占据了全世界 AI 算力的 60% 以上。亚马逊和谷歌靠自研芯片排在二三位,但加起来也远远追不上英伟达。 而几乎所有这些芯片,都来自一家代工厂,台积电。算力曲线越陡,命门就越窄。 与此同时,代价也在加大。 全球 AI 数据中心的总功率已经达到 29.6 GW,相当于纽约州在用电高峰时段的全部用电需求。xAI Grok 4 一次训练的估算碳排放是 72816 吨二氧化碳当量,相当于 17000 辆汽车开一整年的尾气。 数据中心建在哪里,电从哪里来,芯片从哪里产,这三个问题已经变成今年所有 AI 公司 CEO 案头最头疼的事。 生成式 AI 三年渗透 53%,中国职场使用率破 80% 生成式 AI 在三年内达到了 53% 的全球人口渗透率。这个速度比个人电脑快,比互联网快。 但渗透速度和国别相关性极强。新加坡 61%,阿联酋 54%,都跑在美国前面。美国在调查覆盖国家中只排第 24 位,渗透率 28.3%。 如果把维度从消费者换成职场,反差更大。 报告里另一组数据显示,2025 年全球 58% 的员工在工作中已经开始经常性使用 AI。但在中国、印度、尼日利亚、阿联酋、沙特这 5 个国家,这个比例超过了 80%。 中国的职场 AI 渗透率,已经比全球平均高出 20 个百分点以上。 更有意思的是消费者价值。AI Index 估算,到 2026 年初,生成式 AI 工具每年给美国消费者创造 1720 亿美元的价值。从 2025 年到 2026 年,每个用户的中位数价值翻了三倍。 绝大多数用户用的还是免费版。普通人愿意为 AI 付的钱,远低于 AI 给他们创造的价值。这中间的剪刀差是现在所有 AI 公司都在试图弥合的东西。 入门岗位锐减,22-25 岁开发岗狂砍 20% 整份 AI Index 里最让中文读者沉默的,可能是关于年轻就业的部分。22 到 25 岁的软件开发者群体,从 2024 年至今,就业人数下降了大约 20%。同期,年纪更大的同行群体反而在增长。 不止开发岗。客服等其他高 AI 暴露行业,也在出现同样的模式。更让人担心的是企业问卷的结果。受访高管普遍预期,未来的裁员幅度会比过去几个月还要大。 这不是宏观失业率的事,是入口岗位被精准切掉的事。第一份工作没了,整个职业阶梯就断了一格。这件事的长期影响,现在没人能算清。 AI 正在改写科学发现的方式 如果说就业那一段是冷的,科学这段就是热的。 自然科学、物理科学、生命科学领域的 AI 相关论文,2025 年同比增长了 26% 到 28%。 具体到应用,今年第一次有 AI 完整跑通了端到端的天气预报流程。从原始气象观测数据直接吐出温度、风速、湿度的最终预报,中间没有任何传统数值模型介入。 AI 从「帮你写论文」「帮你算数字」,正在变成「自己做发现」。 医院里也是一样。2025 年大量医院开始部署能从就诊对话自动生成临床记录的 AI 工具。多个医院系统的医生反馈,写病历的时间减少了多达 83%,工作倦怠显著下降。 但同一份指数给医疗 AI 泼了一盆冷水。一份针对 500 多个临床 AI 研究的综述发现,将近一半的研究依赖考试题式的数据集,只有 5% 用了真实临床数据。 AI 能减少医生敲键盘的时间,这件事是确定的。AI 在真实病人身上的临床价值,目前还有大量问号。 自学浪潮全球开炸, 正规教育已经掉队 正规教育跟不上 AI 了。美国有 4/5 的高中生和大学生现在用 AI 完成学校作业。但只有一半的中学有 AI 使用政策,只有 6% 的老师认为这些政策写得清楚。 学生跑在前面,老师还在原地,规则还没出现。 正规教育跟不上的同时,自学浪潮在全球开炸。里面写,学 AI 工程技能增长最快的三个国家分别是阿联酋、智利和南非。 不是美国,不是欧洲。 技能曲线的最陡峭的那一段,长在所有人都没在看的地方。 最强模型变成最不透明的, 专家和公众撕裂 最强的模型,正在变成最不透明的模型。 Foundation Model Transparency Index 今年的平均分从去年的 58 分跌到了 40 分。AI Index 直接点名,谷歌、Anthropic、OpenAI 都已经放弃公开最新模型的训练数据规模和训练时长。 去年发布的 95 个最具代表性的模型里,80 个没有公开训练代码。公众的情绪也变得更复杂。 全球范围内,认为 AI 利大于弊的比例从 52% 上升到 59%。但同期,对 AI 感到紧张的比例从 50% 上升到 52%。 两个方向在同时增长。最分裂的是美国。只有 33% 的美国人认为 AI 会让自己的工作变得更好,全球平均是 40%。美国人对本国政府监管 AI 的信任度,是受访国家里最低的,31%。 新加坡人对自己政府监管 AI 的信任度,是 81%。 最近 Sam Altman 家被袭击的事件之后,硅谷圈内人「惊讶地发现」Instagram 评论区里的普通人对此并不同情,甚至有人觉得「应该更激烈一点」。 他们没意识到事情已经糟到这个程度。 研报引用的 Pew 和 Ipsos 数据,专家和公众在 AI 影响就业、医疗、经济这些维度上的观感差距,普遍超过 30 个百分点,最大的一项达到 50 个百分点。 一边是实验室里的曲线在飞涨,一边是普通人心里的不安在累积。中间没有桥。 写在最后 423 页的报告里有几百张图表,但其实只画了一张图。横轴是时间,纵轴是能力。模型能力的曲线在飞,算力曲线在飞,投资曲线在飞,采用率曲线在飞。其他全都在原地踏步或者向下。 这就是 2026 年 AI Index 的全部内容。AI 在加速。其他所有东西都在脱节。 如果你是这个行业里的人,现在该问的问题不是「未来会怎样」,而是「自己站在哪一条曲线上」。 参考资料: https://hai.stanford.edu/ai-index/2026-ai-index-report https://hai.stanford.edu/news/inside-the-ai-index-12-takeaways-from-the-2026-report https://www.nature.com/articles/d41586-026-01199-z https://hai.stanford.edu/assets/files/ai_index_report_2026.pdf 本文来自微信公众号: 新智元(ID:AI_era) ,作者:新智元

linux.do · 2026-04-14 06:58:56+08:00 · tech

话说前头,由于本人没用过opus 4.6,只用过sonnect 4.6,也是我用过最好的模型,只能用这个来打比方了。 怎么说呢,我总结出来这个,我自己也着实被吓了一跳。我最近一直在研究自己的harness工程,用于构建web应用,导致我已经习惯了用GLM-5,流程跑完端出来的就应该是直接可用的成品,然后呢,我准备写一个claude code web,我就想着不用harnes试试呢,结果让我愣了一下,怎么流程走完了,还是一滩烂泥,怎么跟我之前不一样呢。 这时,我明白了,是harness的功劳。 怎么说呢,打个比方,用大模型来煮饭。 直接用glm-5,端出来的最终会是一碗三五成熟的饭, 直接用sonnect 4.6,端出来的会是一碗9成熟的饭, 但是,glm-5 + 我的harness,端出来的却是一碗十成十,全熟的饭。 故事就是这样,过早去了。 关于我的harness帖子,有以下几个: 分享一下harness工程的落地,邀请共建 开发调优 此harness是以claude code plugin为加载,以command 为协同,以claude code + agent为执行器和审查器,目前可以保证一次命令运行直接产出web应用, 不过还不完善,邀请佬 们共建。 [image] 我构建web应用的harness,被我改成单skill了 开发调优 我一开始构建web应用的harness,是有共识文件目录的,作为记忆系统,然后分一个调度器,7个职能智能体,尝试以reality like的形式进行工作。 但是呢,真的是太理想化了,因为我这还是线性调度的,没有并行路线,变相增加了很多鸡肋的工作量,所以化零为整,移除智能体,改成了skill。 当改成skill 的时候,我蒙B了,怎么就变成skill了!!我的harness工程怎么走上回头路了,… 我好像看到了我的harness工程进度了【已完结】 开发调优 书接上文 虽然但是,我又改成了command加多智能体了,单智能体不符合上下文分离的规范,而且skill不能100%触发,所以又是command + subagent了,不过只有3个,planner \ coder \ verifier,claude code的subagent是支持上下文分离的。 说下新设计的想法: 1.放弃原有的职能设计,why:因为职能设计是需要主观的,且具有突变思维… Anthropic 出了harness 产品 开发调优 这是Anthropic的harness产品文档: 这是我昨天刚刚验证成功,使用我自己研发的harness生产的过程,我这也成功了,但是比不上人家的,算了,去研究anthropic的harness了 等等:我刚刚把Anthropic的文档搂了一遍,我的好像比Anthropic的牛啊,他只是提供了一套SDK,但是没有实践辅助辅助的,只是提供了智能体、运行环境、测试套件的API,没有实物的啊,等… 【长期贴】开个帖子,分享一下我自己是如何做harness【已更新完主要内容,等待佬们交作业】 开发调优 据网上传,目前Anthropic的所有产品均为harness模式,不过最近他们推了一个harness产品,原本把我吓了一跳,但实质一看,并不是干货,多少有点恶心人了,好东西都藏起来。我昨晚也成功验证了自己的第二个harness,工程量比是一开始做demo的100倍,平均跑完要30-50M token,10个小时左右(glm-5),并且效果还挺好。不过还是有很多优化点的,这也正是本贴的由来,在接下来… 8 个帖子 - 7 位参与者 阅读完整话题

linux.do · 2026-04-12 20:31:44+08:00 · tech

我们先把free plus team 归为一类. pro 20x 由于基数大所以放在一个地方. 一下数据是前天的plus账户 跑出来的额度.前前后后大约15个plus 下面的数据是pro 20号池跑出来的数据 基础数据一览 Plus 账户池 :共 16 个账户,累计消耗 20 亿 token (已用满周限额)。 Pro 账户池 :共 3 个账户,累计消耗 10 亿 token (仅使用了周限额的 21% )。 价格关系 :Pro 账户定价约为 Plus 账户的 20 倍 。 实际可用 Token 推算 单个 Plus 账户实际可用量 = 20 亿 token / 16 个 = 1.25 亿 token / 个 单个 Pro 账户实际可用量 = 10 亿 token / 0.21 = 47.6 亿 token / 个 倍数对比 47.6 亿 ÷ 1.25 亿 ≈ 38 倍 (此差异仅基于周限额消耗比例,尚未计入 Pro 更高的并发与稳定性优势。) 那么原因为什么? 差异根源分析 实测数据呈现巨大偏差,核心原因在于 频繁切号 : 16 个 Plus 账户为在一天内跑满限额,总计切换约 80 次 。 每次切换新会话均触发 缓存失效重建 ,原本可复用的缓存内容被迫转为 计费 input token ,导致实际有效输出锐减。 此外,频繁中断对话也严重影响 交互体验连续性 ,进一步拉低使用效率。 最初我认为 free 免费用用么好了.一样的. free不行了,切换plus,那时候plus=2.5team,还可以. 现在plus额度降低后需要更多的plus来填补此差异. 不断的补充不断的测试后. 我发现不行,比不过pro20x. 不要问我渠道. 不要私信我怎么买… 晚点我会开抽奖 个人号池pro 20x的 体验100刀.大约20位. openai的缓存时间长,缓存命中率高. 我现在个人认为拼车 合租是最佳出路. 14 个帖子 - 11 位参与者 阅读完整话题