智能助手网 - 标签：差距

linux.do · 2026-04-18 06:51:23+08:00 · tech

今天看到一篇帖子： 10年内，小白和大牛用ai工具vibecoding，能做到几乎没差别吗我看完了下面的所有的评论，在我自己所在一些AI群里曾经看到过好多次群友提出类似的问题，我跟身边的同事朋友也经常会谈论到这样的话题，我其实已经做了一些Research，所以与其在帖子下面留言，我想自己开一篇表达一下自己的想法。本篇完全手搓，不过有借助AI整理思路和提纲同时做数据收集，希望是合规的，如果不是也请告知，今天是我入L站的第二天。首先我自己的工作是某大厂的IT项目经理，管理开发团队10年有余，团队里一大把30年以上工作经验的资深构架师和程序员，我自己爱人也是20年以上的Senior SW Engineer，当然也有不少大学刚毕业的实习生和毕设学生。所以对于我以下所提到的观点和结论自认还是站得住脚的。关于Vibe Coding, 应该追溯到2025 年 2 月，Andrej Karpathy 发了一条推文，定义了一种新的编程方式：完全沉浸在感觉里，拥抱指数级增长，忘掉代码本身的存在。他管这叫 vibe coding 。这条推文截止我写文现在已经有了 680 万次浏览。同年11月，Collins 词典把它评为年度词汇。现在 2026 年已经快过去一半，92% 的美国开发者已经在用 AI 编程工具，GitHub 上 46% 的新代码由 AI 生成。一个 85 亿美元的市场，从一条推文里长了出来。但一个问题也跟着浮出水面：小白用 AI 写代码，做出来的东西 bug 满天飞，项目稍大就是屎山。大牛用同样的工具，生产率却在飞涨。（源于原帖主）随着 AI 工具不断进化，小白和大牛之间的差距会缩小吗？10 年后，一个编程零基础的人，能靠 vibe coding 做出和资深工程师一样水平的东西吗？这个问题的答案能决定不少人的命运，至少几百万吧。如果 AI 能抹平差距，"学编程"这件事的意义就要被重新定义。如果相反差距在扩大，那正在用 vibe coding 做项目的小白们，可能正在铤而走险。为什么这么说呢？我们来看下面这组数据。具体数据来源参考最后的参考链接。数据给出了一个反直觉的答案：用了 AI 反而更慢 2025年一个叫 METR 的研究机构做了一项严格的随机对照试验，让 16 名资深开发者完成 246 个编码任务。用 AI 工具（Cursor+Claude) 的那一半，完成速度慢了 19% 。但魔幻的是他们自认为快了 20%。感知和现实之间差了 39 个百分点。与此同时，高级开发者报告了 81% 的生产力提升，32% 的人超过一半代码由 AI 生成。初级开发者呢？只有 13% 达到同样比例，Anthropic 的研究还发现他们的代码理解力下降了 17% 。同一个工具，让强者更强，弱者更弱。工具救不了判断力我至今所看到的小白卡的几个地方：描述不清需求。小白说"帮我做个登录功能"，大牛会指定 JWT 认证、bcrypt hash decrypt、rate limiting、OAuth2。两个 prompt 产出的代码质量天壤之别。大牛脑子里有完整的安全威胁模型，小白根本不知道自己漏了什么。看不见安全漏洞。 2026 年初，安全公司 Escape 做了一项大规模扫描。他们检查了 5600 个公开部署的 vibe coding 应用。发现 2000 多个高危漏洞和 400 多个泄露的密钥。 Veracode 的研究更系统，他们测试发现 45% 的 AI 代码含 OWASP Top-10 漏洞，两年的模型改进没有改善这个数字。对小白来说 AI 输出是黑盒，对大牛来说是白盒。屎山不可避免。 AI 生成的代码是局部最优的。没有人在全局层面做架构决策，完美的代码片段拼在一起也会变成灾难。项目越大，这个问题越致命。 Token 消耗就是知识税。大牛一个精确的 prompt 就能拿到正确代码，小白可能要 10 轮对话、5 次返工、3 次推倒重来。多出来的 token 本质上是在为"不知道自己要什么"和"不知道怎么判断结果好坏"付费。你的知识越少，同样的结果你付出的代价越高。大牛的 81% 从哪来高级开发者的提升来自三件事：用 AI 消灭样板代码等重复劳动用 AI 加速对陌生技术栈的探索用 AI 扩展自己的能力边界（比如后端工程师用 AI 写前端）。这三件事有一个共同前提：你得有足够的知识来判断 AI 输出的质量。AI 工具越强大，能执行的指令越复杂，而越复杂的指令越需要深厚的技术功底才能发出。就像给所有人一架钢琴。钢琴越好，郎朗和初学者之间的差距越明显。好钢琴能更忠实地反映演奏者的水平。回到原帖的问题：十年后会怎样我想大概有三种可能。地板上升：小白从 20 分涨到 80 分，大牛从 90 分涨到 99 分。差距缩小了，但当所有人都能做到 80 分时，80 分就不值钱了。就像智能手机让人人都能拍出 80 分的照片，但专业摄影师并没有失业。差距扩大：如果 AI 工具继续朝"更强大的 agent"方向发展，高级用户获得更多控制权，初级用户并没有获得更多保护网。差距可能从 2 倍变成 10 倍。职业重构：如果 AI 能自主完成从需求到部署的全部工作，"程序员"这个职业本身会被重新定义。写代码的差距消失了，但"理解问题"和"做决策"的差距可能更大。最准确的判断可能是按项目规模来分：做小应用，差别不大。做平台级产品，差距依然巨大。回到本帖的问题 Vibe Coding 能抹平小白和大牛的差距吗？我的回答是：在某些维度上，差距会缩小到可以忽略。在另一些维度上，差别会大到让人绝望。而决定你站在哪一边的，从来都是你脑子里装了什么。如果觉得这篇对你的认识的更新产生了影响，请点一个免费的小心心，也欢迎留言表达你的想法。参考链接 METR 研究：AI 工具让开发者慢了 19% particula.tech – 13 Mar 26 AI Coding Tools Make Developers 19% Slower: What the Research Says A gold-standard RCT found experienced devs are 19% slower with AI tools—while believing they're 20% faster. Here's what the data actually means for your engineering team. The state of vibe coding in 2026 hashnode.com The state of vibe coding in 2026: Adoption won, now what? tldr: 92% of US developers use AI coding tools daily. 46% of new code is AI-generated. Trust in that code has dropped from 77% to 60%. Vibe coding won the adoption war. The quality war is just startin Forbes: Vibe Coding Has A Massive Security Problem https://www.forbes.com/sites/jodiecook/2026/03/20/vibe-coding-has-a-massive-security-problem/ 高级开发者 81% 生产力提升 https://blog.vibecoder.me/vibe-coding-for-senior-developers 24 个帖子 - 16 位参与者阅读完整话题

投个票看看佬们对opus4.7评价如何

linux.do · 2026-04-17 08:47:28+08:00 · tech

夯(远远超越4.6) 顶级(4.6满血水平没感觉差距) 人上人(就是正常opus水平没很好用但是比大部分模型好用) NPC(比4.6还拉跨,又贵又拉) 拉完了(已经拉跨出新程度了,不如4.5) 点击以查看投票。 5 个帖子 - 5 位参与者阅读完整话题

用了公益大佬的kimi2.5，才知道这玩意差距不是一点半点

linux.do · 2026-04-16 17:28:40+08:00 · tech

最近搞了hermes当玩具，因为公益大佬的gpt-5.4资源都非常紧缺了，就考虑接点国产的用用，于是接入了公益大佬的kimi-k2.5。用了才知道，这玩意真是不行啊，让它帮我vibe点hermes的设置，是各种虚头巴脑的汇报成功，又改的啥也不是，浪费了很多时间。这玩意再也不用了。 1 个帖子 - 1 位参与者阅读完整话题

再次验证了harness可以弥补glm-5跟sonnet 4.6的差距

linux.do · 2026-04-15 23:04:13+08:00 · tech

今天去公司汇报，我写出来的harness 可以弥补glm-5和sonnet 4.6的差距，然后所有人都说我吹牛，我也真的是没事给自己找事做，我只好两段一样的提示词，同样往sonnet 4.6和glm-5+harness里面丢。结果就是harness + glm-5的产出已经开始第二轮增强迭代了，sonnect 4.6的产出物，我这会还要用claude code给他修复bug。顺便一提，我现在用上harness之后好焦虑啊，harness没有跑代码我就焦虑怎么能不跑代码呢，先跑上我好去干别的，软件人的职业病，并行。跑起来了我又在焦虑，这怎么要跑这么长时间啊，这harness的性能怎么能优化下呢。跑完了，我又开始焦虑了，唉，又要开始验证了。这一来二去，恍惚间都这个点了。在这边给大家看下sonnet 4.6的劣质品，harness的成品在harness那边帖子上 6 个帖子 - 3 位参与者阅读完整话题

OpenAI后面还有啥招吗，感觉跟Atrophic的差距越来越大了

linux.do · 2026-04-15 14:53:30+08:00 · tech

都被 glm-5.1超越了 Atrophic本周要发布Opus4.7 重构全新版Claude Code马上要来 23 个帖子 - 20 位参与者阅读完整话题

佬友们 iPhone17和17pm差距到底如何？

linux.do · 2026-04-15 14:01:46+08:00 · tech

没有用过 pro 系列，想等 618 换个 17pm，有没有用过的佬友讲讲如何，本人之前用的 11 和 12mini，现在 20 年入的 12mini 64gb 的还在战斗中 6 个帖子 - 5 位参与者阅读完整话题

寻求国内AI web端免费最强

linux.do · 2026-04-15 12:47:10+08:00 · tech

目前一直用的Gemini pro3.1的web订阅，想要找个国内免费但是性能差距Gemini pro不大的ai，有推荐的么，目前用的web 的ds 6 个帖子 - 6 位参与者阅读完整话题

斯坦福的 AI 报告认为中美差距微乎其微

www.solidot.org · 2026-04-14 22:37:21+08:00 · tech

斯坦福大学研究院 Institute for Human-Centered Artificial Intelligence(HAI)发布了年度报告 AI Index，报告认为中国顶级 AI 与美国 AI 相差无几。2024 年 1 月美国顶级 AI 的得分比中国顶级 AI 高 10% 左右，到 2026 年 3 月美国 Anthropic 和字节跳动的 AI 得分差距仅为 2.7%。在衡量语言、数学和编程领域难题正确率的基准测试中，差距也在缩小，中美之间的性能差距已基本消除。在开发和运营数据中心数量方面，美国有 5427 个遥遥领先于其他国家，2025 年民间投资额美国也以 2859 亿美元遥遥领先其他国家。中国的民间投资仅为 124 亿美元，但政府投资较大，实际投资额尚不明确。在被引用最多的前 100 篇论文中，中国的论文在 2024 年达到 41 篇，比上年增加 7 篇，缩小了与排名第一的美国（46 篇）的差距。

如何更客观地看待国产开源模型与顶级闭源模型的差距？我的几个观点

linux.do · 2026-04-14 18:44:38+08:00 · tech

因为自己贫瘠的表达能力，上个帖子因为措辞不太准确导致带有一定的倾向性被删除了，认真回复的佬们实在对不起了。重新组织了下语言，想把这个观点说清楚。国产开源模型发布时，习惯性拿顶级（或者次顶级，比如qwen 3.6 plus对标的是Opus 4.5而不是4.6）商业闭源模型来做对比，这本身其实并不奇怪，因为顶级模型本来就是它们追赶的目标，发布时拿最强的对手来展示进步幅度，也是一种很常见的表达方式。问题不在于“和顶级比”，而在于很多人会把某些benchmark接近直接理解成整体能力已经追平，这里面其实有很大的偏差。（注意我不在这里讨论关于benchmark过拟合等问题，这个不是我要讨论的范围。） benchmark接近，通常只能说明模型在特定方向上已经缩小了差距，但这并不意味着在真实使用里，特别是大任务，复杂任务，需要长时间运行的agent等更加极致的场景也已经和顶级闭源模型处在同一水平。局部接近，不等于整体追平；单项的进步，也不等于真实体验没有差距。当然，这里也不能否认有些厂商在宣传上会用一些比较擦边的方式，让人产生“已经差不多了”甚至“超越”的联想。再加上一些自媒体的放大，最后很容易把大家的预期拉得过高。等真正上手做复杂任务时，发现效果并没有想象中那么接近，就又会从一个极端滑到另一个极端。我想说明的点（上一篇其实也是，但是因为表达能力不够太绕了）其实就这几点：国产开源模型和顶级闭源商业模型存在差距，这个差距是客观存在的；拿顶级模型做对标没有问题，因为顶级就是目标；但不能因为几个榜单看起来接近，就默认已经追平，更不能进一步幻想一个新开源模型出来就立刻能和当前最强闭源打平甚至反超。正视差距的同时，也对国产模型更加的包容，期待他们的不断进步；更适合的态度是什么呢，我这里引用一些之前帖子佬的评论： “承认它们这几年进步很快，也承认它们和顶级闭源之间仍然有现实差距。不要因为不靠谱的宣传口径就过度乐观，也不会因为还有差距就直接全盘否定。讨论回到真实场景、真实任务和真实体验，结论通常会更靠谱一些。” “不是所有场景都需要顶级模型，一些场景用国产模型更经济” 总之，就是不要指望一口气登天，但是希望不断缩小差距。 10 个帖子 - 9 位参与者阅读完整话题

斯坦福 423 页 AI 报告出炉！中美差距仅 2.7%，清华 DeepSeek 冲进全球前十

www.ithome.com · 2026-04-14 11:37:45+08:00 · tech

今天，斯坦福 HAI 重磅发布「2026 年 AI 指数报告」！这份长达 423 页的年度报告，全面揭示了全球 AI 产业的最新权力版图。它给出了一条核心结论：AI 的本事涨得飞快；但人类衡量和管好它的能力，却没怎么跟上步伐。其中，最震撼的结论是 —— 中美 AI 模型性能差距已基本消失，双方在巅峰对决中频繁易主，目前 Anthropic 领先优势仅剩 2.7%。美国在 AI 上砸的钱比谁都多，但招揽顶尖人才却越来越吃力了。报告还指出，AI 的进化不仅没有遭遇所谓的「瓶颈」，反而正以史无前例的速度狂飙。过去一年，全球超 90% 的顶尖模型，在博士级科学问题、多模态推理、竞赛数学上的表现，追平甚至超越了人类。特别是在代码能力上，SWE-bench 的成绩在一年内，从 60% 飙升至近 100%。然而，AI 的「偏科」现象极其严重，呈现出一种畸形的现状：LLM 可以拿下 IMO 金牌，却读不对模拟时钟，正确率仅为 50.1%。与此同时，AI 抢饭碗这事儿已经从预测变成了现实，而且最先遭殃的就是当代年轻「打工人」。下面直接上干货，「2026 年 AI 指数报告」最值得关注的 12 个硬核趋势。其他亮点速览：全球 AI 算力 3 年涨 30 倍，英伟达独占 60%，几乎所有芯片都出自一家台积电 2025 年全球企业 AI 投资 5817 亿美元，同比翻倍，美国一国吃下近一半进入美国的 AI 研究人员 7 年跌 89%，仅过去一年就跌 80% 22-25 岁软件开发者就业自 2024 年起下滑 20%，入门岗位被精准切掉中国累计建成 85 台公共 AI 超算，是北美的两倍以上，全球第一中国职场 AI 使用率超 80%，远超全球 58% 的平均最强模型越来越黑箱，95 个代表性模型里 80 个没有公开训练代码中美贴脸，差距只剩 2.7% 斯坦福把 2023 年 5 月以来 Arena 榜单上的美国第一和中国第一，画在了同一张坐标系里。2023 年 5 月，gpt-4-0314 拿 1320 分领跑，中国这边还是 chatglm-6b，差距 300 多分。2025 年 2 月，DeepSeek-R1 第一次和美国头部模型短暂打平。 2026 年 3 月，美国的 Claude Opus 4.6 拿到 1503 分，中国 dola-seed-2.0-preview 拿到 1464 分。如今中美 AI 之间的差距，仅有 39 分。换算成百分比，2.7%。更值得说的是过去一年的换位频率。从 2025 年初开始，两国头部模型已经在 Arena 上你来我往换了好几次位置。数量上同样接近五五开。2025 年美国发布了 50 个「显著模型」，中国紧跟着也发布了 30 个顶尖大模型。第一梯队里 OpenAI、谷歌、阿里、Anthropic、xAI 同台站位，全球 TOP 5 五五分账。再往下看到 TOP 10，中国机构和企业占了四席，阿里、DeepSeek、清华、字节。开源生态这一年的重心也明显东移。DeepSeek、Qwen、GLM、MiniMax、Kimi 一路把开源权重的能力曲线往前推。再算上论文发表量、被引数、专利产出量、工业机器人装机量，中国统统全球第一。价格层面是另一条战线。海外开发者在 X 上算过一笔账，Seed 2.0 Pro 的输出价格大约只有 Claude Opus 4.6 的十分之一。性能贴脸，价格只要十分之一。这件事的连锁反应才刚刚开始。 90% 前沿模型出自产业，封神速度史无前例去年发布的 95 个最具代表性的模型里，超过九成都来自产业界，不是学术机构，也不是政府实验室。学术界已经追不上前沿了。发布速度也在变态加速。光是 2026 年 2 月一个月，就有 Gemini 3.1 Pro、Claude Opus 4.6、GPT-5.3 Codex、Grok 4.20、Qwen 3.5、Seed 2.0 Pro、MiniMax M2.5、GLM-5 八九个旗舰模型同月入场。封神周期从「年」变成了「月」。基准一年封顶，AI 没有瓶颈最猛的曲线是编程。SWE-bench Verified 这个真实修 Bug 的基准，一年时间从 60% 涨到接近 100%。不是涨了几个点，是基本封顶。 Terminal-Bench 测试 Agent 处理真实终端任务的能力，从去年的 20% 涨到 77.3%。网络安全 Agent 解决问题的成功率，从 15% 涨到 93%。 Gemini Deep Think 在国际数学奥林匹克拿到金牌。PhD 级科学问答（GPQA Diamond）、竞赛数学（AIME）、多模态推理（MMMU）这些原本被认为「人类不可超越」的硬骨头，全部被前沿模型啃了下来。最能说明问题的是 Humanity's Last Exam。这是一个专门被设计来「难倒 AI、偏袒人类专家」的测试，题目由各个领域的顶尖专家提供。去年 OpenAI 的 o1 拿到 8.8%，前沿模型在一年时间里把分数往上又推了 30 个百分点，目前 Claude Opus 4.6 和 Gemini 3.1 Pro 已经双双过了 50%。锯齿前沿，能拿 IMO 金牌却看不懂表但同一份指数甩出了另一组数字。最强模型在「读模拟时钟」这个任务上的正确率，是 50.1%。机器人在实验室仿真环境（RLBench）里的操作成功率已经达到 89.4%。但搬到真实家庭场景里完成洗碗、叠衣服这类家务，成功率立刻掉到 12%。实验室和厨房之间，差了 77 个百分点。研究者把这种现象命名为「锯齿前沿」（jagged frontier）。AI 能力的分布是凹凸不平的，能拿数学奥赛金牌，却没法稳定地告诉你现在几点。 AI 能在数学奥赛拿金牌，但只有一半的概率能看懂模拟时钟。AI 在加速，但加速的不是同一个方向。另外，在智能体任务中，OSWorld 测试中，前沿 AI 实力（66.3%）正逼近人类基线。然而，在专门评估科研逻辑的 PaperArena 测试中，最强 AI 加持的 Agent，得分仅 39%，只有博士生一半的功力。但这种凹凸已经不影响企业把 AI 往生产线上塞。AI Index 给出的另一个数字是，全球企业 AI 采用率达到 88%。九成的公司已经把 AI 接进了某个工作流。代价同步在涨。AI 相关事故记录从 2024 年的 233 起涨到 362 起。钱在加速，5817 亿砸进 AI 2025 年全球企业 AI 投资达到 5817 亿美元，同比增长 130%。其中私募投资 3447 亿美元，同比增长 127.5%。两条曲线都几乎翻倍。国别上，美国一骑绝尘。2025 年美国私募 AI 投资 2859 亿美元。并且一年新增 1953 家 AI 创业公司，也是排名第二的 10 倍以上。钱在加速涌向美国。但美国的另一项核心资源，正在反向流动。人在流走，进美国的 AI 研究者跌了 89% 里面有一组数字让人愣了一下。2017 年到现在，进入美国的 AI 研究人员和开发者数量下降了 89%。更关键的是，这个下降在加速。仅仅过去一年，下降幅度就达到 80%。美国仍然是全球 AI 研究人员密度最高的国家，但流入的水龙头正在拧紧。钱和人这两条曲线开始反向。这是过去十年没出现过的局面。算力三年涨 30 倍，命门都在一家公司手里 AI 能力曲线在加速，背后那条算力曲线跑得更猛。从 2021 年到现在，全球 AI 算力总量涨了 30 倍。过去三年里，每年都在翻三倍以上。撑起这条曲线的是少数几家公司。英伟达一家的 GPU，占据了全世界 AI 算力的 60% 以上。亚马逊和谷歌靠自研芯片排在二三位，但加起来也远远追不上英伟达。而几乎所有这些芯片，都来自一家代工厂，台积电。算力曲线越陡，命门就越窄。与此同时，代价也在加大。全球 AI 数据中心的总功率已经达到 29.6 GW，相当于纽约州在用电高峰时段的全部用电需求。xAI Grok 4 一次训练的估算碳排放是 72816 吨二氧化碳当量，相当于 17000 辆汽车开一整年的尾气。数据中心建在哪里，电从哪里来，芯片从哪里产，这三个问题已经变成今年所有 AI 公司 CEO 案头最头疼的事。生成式 AI 三年渗透 53%，中国职场使用率破 80% 生成式 AI 在三年内达到了 53% 的全球人口渗透率。这个速度比个人电脑快，比互联网快。但渗透速度和国别相关性极强。新加坡 61%，阿联酋 54%，都跑在美国前面。美国在调查覆盖国家中只排第 24 位，渗透率 28.3%。如果把维度从消费者换成职场，反差更大。报告里另一组数据显示，2025 年全球 58% 的员工在工作中已经开始经常性使用 AI。但在中国、印度、尼日利亚、阿联酋、沙特这 5 个国家，这个比例超过了 80%。中国的职场 AI 渗透率，已经比全球平均高出 20 个百分点以上。更有意思的是消费者价值。AI Index 估算，到 2026 年初，生成式 AI 工具每年给美国消费者创造 1720 亿美元的价值。从 2025 年到 2026 年，每个用户的中位数价值翻了三倍。绝大多数用户用的还是免费版。普通人愿意为 AI 付的钱，远低于 AI 给他们创造的价值。这中间的剪刀差是现在所有 AI 公司都在试图弥合的东西。入门岗位锐减，22-25 岁开发岗狂砍 20% 整份 AI Index 里最让中文读者沉默的，可能是关于年轻就业的部分。22 到 25 岁的软件开发者群体，从 2024 年至今，就业人数下降了大约 20%。同期，年纪更大的同行群体反而在增长。不止开发岗。客服等其他高 AI 暴露行业，也在出现同样的模式。更让人担心的是企业问卷的结果。受访高管普遍预期，未来的裁员幅度会比过去几个月还要大。这不是宏观失业率的事，是入口岗位被精准切掉的事。第一份工作没了，整个职业阶梯就断了一格。这件事的长期影响，现在没人能算清。 AI 正在改写科学发现的方式如果说就业那一段是冷的，科学这段就是热的。自然科学、物理科学、生命科学领域的 AI 相关论文，2025 年同比增长了 26% 到 28%。具体到应用，今年第一次有 AI 完整跑通了端到端的天气预报流程。从原始气象观测数据直接吐出温度、风速、湿度的最终预报，中间没有任何传统数值模型介入。 AI 从「帮你写论文」「帮你算数字」，正在变成「自己做发现」。医院里也是一样。2025 年大量医院开始部署能从就诊对话自动生成临床记录的 AI 工具。多个医院系统的医生反馈，写病历的时间减少了多达 83%，工作倦怠显著下降。但同一份指数给医疗 AI 泼了一盆冷水。一份针对 500 多个临床 AI 研究的综述发现，将近一半的研究依赖考试题式的数据集，只有 5% 用了真实临床数据。 AI 能减少医生敲键盘的时间，这件事是确定的。AI 在真实病人身上的临床价值，目前还有大量问号。自学浪潮全球开炸，正规教育已经掉队正规教育跟不上 AI 了。美国有 4/5 的高中生和大学生现在用 AI 完成学校作业。但只有一半的中学有 AI 使用政策，只有 6% 的老师认为这些政策写得清楚。学生跑在前面，老师还在原地，规则还没出现。正规教育跟不上的同时，自学浪潮在全球开炸。里面写，学 AI 工程技能增长最快的三个国家分别是阿联酋、智利和南非。不是美国，不是欧洲。技能曲线的最陡峭的那一段，长在所有人都没在看的地方。最强模型变成最不透明的，专家和公众撕裂最强的模型，正在变成最不透明的模型。 Foundation Model Transparency Index 今年的平均分从去年的 58 分跌到了 40 分。AI Index 直接点名，谷歌、Anthropic、OpenAI 都已经放弃公开最新模型的训练数据规模和训练时长。去年发布的 95 个最具代表性的模型里，80 个没有公开训练代码。公众的情绪也变得更复杂。全球范围内，认为 AI 利大于弊的比例从 52% 上升到 59%。但同期，对 AI 感到紧张的比例从 50% 上升到 52%。两个方向在同时增长。最分裂的是美国。只有 33% 的美国人认为 AI 会让自己的工作变得更好，全球平均是 40%。美国人对本国政府监管 AI 的信任度，是受访国家里最低的，31%。新加坡人对自己政府监管 AI 的信任度，是 81%。最近 Sam Altman 家被袭击的事件之后，硅谷圈内人「惊讶地发现」Instagram 评论区里的普通人对此并不同情，甚至有人觉得「应该更激烈一点」。他们没意识到事情已经糟到这个程度。研报引用的 Pew 和 Ipsos 数据，专家和公众在 AI 影响就业、医疗、经济这些维度上的观感差距，普遍超过 30 个百分点，最大的一项达到 50 个百分点。一边是实验室里的曲线在飞涨，一边是普通人心里的不安在累积。中间没有桥。写在最后 423 页的报告里有几百张图表，但其实只画了一张图。横轴是时间，纵轴是能力。模型能力的曲线在飞，算力曲线在飞，投资曲线在飞，采用率曲线在飞。其他全都在原地踏步或者向下。这就是 2026 年 AI Index 的全部内容。AI 在加速。其他所有东西都在脱节。如果你是这个行业里的人，现在该问的问题不是「未来会怎样」，而是「自己站在哪一条曲线上」。参考资料： https://hai.stanford.edu/ai-index/2026-ai-index-report https://hai.stanford.edu/news/inside-the-ai-index-12-takeaways-from-the-2026-report https://www.nature.com/articles/d41586-026-01199-z https://hai.stanford.edu/assets/files/ai_index_report_2026.pdf 本文来自微信公众号：新智元（ID：AI_era），作者：新智元

我用harness弥补了GLM-5到sonnect 4.6的差距

linux.do · 2026-04-14 06:58:56+08:00 · tech

话说前头，由于本人没用过opus 4.6，只用过sonnect 4.6，也是我用过最好的模型，只能用这个来打比方了。怎么说呢，我总结出来这个，我自己也着实被吓了一跳。我最近一直在研究自己的harness工程，用于构建web应用，导致我已经习惯了用GLM-5，流程跑完端出来的就应该是直接可用的成品，然后呢，我准备写一个claude code web，我就想着不用harnes试试呢，结果让我愣了一下，怎么流程走完了，还是一滩烂泥，怎么跟我之前不一样呢。这时，我明白了，是harness的功劳。怎么说呢，打个比方，用大模型来煮饭。直接用glm-5，端出来的最终会是一碗三五成熟的饭，直接用sonnect 4.6，端出来的会是一碗9成熟的饭，但是，glm-5 + 我的harness，端出来的却是一碗十成十，全熟的饭。故事就是这样，过早去了。关于我的harness帖子，有以下几个：分享一下harness工程的落地，邀请共建开发调优此harness是以claude code plugin为加载，以command 为协同，以claude code + agent为执行器和审查器，目前可以保证一次命令运行直接产出web应用，不过还不完善，邀请佬们共建。 [image] 我构建web应用的harness，被我改成单skill了开发调优我一开始构建web应用的harness，是有共识文件目录的，作为记忆系统，然后分一个调度器，7个职能智能体，尝试以reality like的形式进行工作。但是呢，真的是太理想化了，因为我这还是线性调度的，没有并行路线，变相增加了很多鸡肋的工作量，所以化零为整，移除智能体，改成了skill。当改成skill 的时候，我蒙B了，怎么就变成skill了！！我的harness工程怎么走上回头路了，… 我好像看到了我的harness工程进度了【已完结】开发调优书接上文虽然但是，我又改成了command加多智能体了，单智能体不符合上下文分离的规范，而且skill不能100%触发，所以又是command + subagent了，不过只有3个，planner \ coder \ verifier，claude code的subagent是支持上下文分离的。说下新设计的想法： 1.放弃原有的职能设计，why：因为职能设计是需要主观的，且具有突变思维… Anthropic 出了harness 产品开发调优这是Anthropic的harness产品文档：这是我昨天刚刚验证成功，使用我自己研发的harness生产的过程，我这也成功了，但是比不上人家的，算了，去研究anthropic的harness了等等：我刚刚把Anthropic的文档搂了一遍，我的好像比Anthropic的牛啊，他只是提供了一套SDK，但是没有实践辅助辅助的，只是提供了智能体、运行环境、测试套件的API，没有实物的啊，等… 【长期贴】开个帖子，分享一下我自己是如何做harness【已更新完主要内容，等待佬们交作业】开发调优据网上传，目前Anthropic的所有产品均为harness模式，不过最近他们推了一个harness产品，原本把我吓了一跳，但实质一看，并不是干货，多少有点恶心人了，好东西都藏起来。我昨晚也成功验证了自己的第二个harness，工程量比是一开始做demo的100倍，平均跑完要30-50M token，10个小时左右(glm-5)，并且效果还挺好。不过还是有很多优化点的，这也正是本贴的由来，在接下来… 8 个帖子 - 7 位参与者阅读完整话题

你们的CC是基于源码泄露后自己构建的吗？

linux.do · 2026-04-13 16:31:23+08:00 · tech

各位佬，你们的CC是官方的还是基于源码泄露后自己构建的？想知道官方的和自己基于源码泄露构建的CC有什么区别？功能上差距大妈？ 5 个帖子 - 4 位参与者阅读完整话题

plus和pro20x 到底有多少差距?日常开发1E~10E token,基于经验和数据.pro20x =38个plus

linux.do · 2026-04-12 20:31:44+08:00 · tech

我们先把free plus team 归为一类. pro 20x 由于基数大所以放在一个地方. 一下数据是前天的plus账户跑出来的额度.前前后后大约15个plus 下面的数据是pro 20号池跑出来的数据基础数据一览 Plus 账户池：共 16 个账户，累计消耗 20 亿 token （已用满周限额）。 Pro 账户池：共 3 个账户，累计消耗 10 亿 token （仅使用了周限额的 21% ）。价格关系：Pro 账户定价约为 Plus 账户的 20 倍。实际可用 Token 推算单个 Plus 账户实际可用量 = 20 亿 token / 16 个 = 1.25 亿 token / 个单个 Pro 账户实际可用量 = 10 亿 token / 0.21 = 47.6 亿 token / 个倍数对比 47.6 亿 ÷ 1.25 亿 ≈ 38 倍（此差异仅基于周限额消耗比例，尚未计入 Pro 更高的并发与稳定性优势。）那么原因为什么? 差异根源分析实测数据呈现巨大偏差，核心原因在于频繁切号： 16 个 Plus 账户为在一天内跑满限额，总计切换约 80 次。每次切换新会话均触发缓存失效重建，原本可复用的缓存内容被迫转为计费 input token ，导致实际有效输出锐减。此外，频繁中断对话也严重影响交互体验连续性，进一步拉低使用效率。最初我认为 free 免费用用么好了.一样的. free不行了,切换plus,那时候plus=2.5team,还可以. 现在plus额度降低后需要更多的plus来填补此差异. 不断的补充不断的测试后. 我发现不行,比不过pro20x. 不要问我渠道. 不要私信我怎么买… 晚点我会开抽奖个人号池pro 20x的体验100刀.大约20位. openai的缓存时间长,缓存命中率高. 我现在个人认为拼车合租是最佳出路. 14 个帖子 - 11 位参与者阅读完整话题

GLM lite 国际版都$18 了，还不支持退款

www.v2ex.com · 2026-04-12 03:00:03+08:00 · tech

GLM lite 国内版才 49 ，这价格差距也太多了。没仔细看条款，还以为跟阿里的 code plan 差不多

/tag/差距