智能助手网
标签聚合 越来越

/tag/越来越

linux.do · 2026-04-18 15:39:05+08:00 · tech

感觉上班以后体力越来越差,动不动就感觉很累,还有点缺氧的感觉 之前也和别人聊过,之前在健身的时候感觉很没那么容易累,但是因为每次下班回家健身房的器械排队都要很久,我睡的又比较早,就干脆很长一段时间没有去锻炼了 这两天又感觉特别容易累,觉得是要找点时间继续锻炼了,提升一下自己的体力上限,不然总是干一会活就想睡觉 现在差不多是早上八点起床烧饭,八点半出门上班。晚上七点左右到家烧饭,然后晚上十点半左右睡觉,这样减去做饭,吃饭,洗碗,洗漱,陪小猫的时间,留给自己的时间基本上只有一两个小时 怎么安排呢 7 个帖子 - 4 位参与者 阅读完整话题

linux.do · 2026-04-17 21:23:51+08:00 · tech

观 t3.gg 的 https://www.youtube.com/watch?v=zd6tBbCwkks 有感 ——A\ 的模型,至少在 toC 端,一定会越来越差,直到它们的新数据中心上线,或者快倒闭了。(我希望是后者,但目前来看有点困难,祝 A 社早日殡天!) Theo 的视频和我初步体验 Opus4.7 的感官十分相似,都发现 Opus4.7 有严重的 主观能动性 倒退。估计是(肯定是)A\ 的主动降智之下,opus4.7 会非常自信地乐观估计项目情况,基本丧失了探索项目的主动性,造成它的执行与项目实际有非常严重的出入。 例如在我说明了 issue 并给出修复规范、项目也有维护得很好的 agent.md 的情况下,Opus4.7 会像修改一个单文件脚本一样去修改项目,完全不顾各组件间的依赖,忽视 API 约定等明明在文档和注释里都有说明的约束。 其次, Opus4.7 的 “指令遵循” 能力提升了,这本应该是好事(我猜其实是蒸馏 GPT 蒸多了导致的)。实际上这却使得 Opus4.7 完全不会自己补齐边界情况,在提示词不完备的情境下自主探索和思考用户意图和项目逻辑,较好地完成任务。这本应该是 Opus4.5 就有的能力。 例如,我要求 Opus4.7 帮我升级 nanobot(我对 nanobot 稍做了一些魔改,主要是 cron 等次要子系统),在保留本地更改的同时吸收上游的功能更新,Opus 就开始流口水了,先是直接 --ours 把上游全部拉了下来,结果连 pytest 都跑不过,它却自信地认为 “我完成了用户的要求”。接着我要求它 debug,吸收上游更新并启用可用的新特性,但保留自有实现,它才能理解我的意图。…… 快要不如 Gpt5.4 了。 事实上,在 codex 中完成 plan 后,GPT 的 “主观能动性” 一点也不差。它会在计划框架内自主探索和填补没考虑到的边界情况,在一些小项目里是过度思考(比如到处乱拉单元测试),但在一些大型多子系统的项目(shit 山)里,这种能力真的很让人安心。 如 Theo 所说,这很大程度上是因为 A\ 内部的 “super claude code” 和我们用户能用到的有很大不同,内部版本有更多更好的围栏和约束和工具等等,于是内外体验很不一致。 这种降智和敷衍非常鲜明地表现出 A\ 完全不在乎个人消费者。有了 toB 和 to Government 的情况下,A\ 完全不缺钱,它们只缺卡。哪有卡呢?个人用户占掉了!那怎么办?封号!降智!这也就导致了模型 主观能动性 全无,一点多余的不干。纯人机。 …… 祝 A 社早日殡天! 8 个帖子 - 6 位参与者 阅读完整话题

linux.do · 2026-04-17 14:24:29+08:00 · tech

我认为用得最爽的时候,是闲时双倍限额的时候,那时候Opus基本上是随便用的。最近严重降职,而且限额消耗非常快,导致我只敢使用Sonnet,问题是Sonnet真的让它只是重构一个小功能,都可以出现逻辑直接忽略的问题。 到现在出了opus4.7,讲真,我试了一下,效果不是特别明显,特别好,xhigh限额直接用得像流水一样。 最近真的有点想转ChatGPT,但是女朋友用过(她主要用于整理Excel,生成PPT、话术),她说Claude好 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-17 11:40:04+08:00 · tech

不知道大家有没有同感? 以我的观察, 如今这里主要的内容, 好像是如何薅羊毛、 如何注册大量账号获得ai供应、 各种公益站和他们的用户反馈、 各种免费的ai渠道和对应逆向、 还有富可敌国的抽奖、推广 我刚来到这里的时候, ai远没有今天的强大。 那时即使用三倍的工作量让ai自主完成简单的工作也很激动。 那时这里都是诸如agent的研究,mcp工具的讨论,skill的分享 还有大量很具新意的开源项目涌现 我每天在这里感觉很能学到东西 但如今我感觉真的变了 有几个大佬依然坚持分享干货, 但新的一批佬友,似乎只对ai渠道兴致很高 但对技术的探讨兴致略低。 我经常看到抽奖几块钱的东西排几百楼, 但是几百行原创的idea只有几个人回复。 我不知道我的感受是否真实, 也不知道各位佬怎么觉得, 我仅代表自己有限的视角和认知, 对此进行了一番思考。 这是否是因为,ai已经从新事物,慢慢过渡到产业 是否作为终端用户的研究已经不太有价值,只应该关心是否经济 是否我们对ai的态度从未来变成了当下,技术积累已经没有现在的token重要? 恕我直言,我现在打开这里越来越少了。我实在无法接受用几个小时时间和折腾换取几块,最多几十块就能买来的token资源。 当然我没有说这一行为有何事实上的问题, 对于很多佬友,折腾本身就是乐趣,如果乐在其中,还能收获一点经验和回报,自然也是很好的。 声明一下,我说的是我看到的这一现象和我的一点点浅薄的思考,没有任何道德与价值评价的意思。我的语言能力一般,但我事实上没有任何批评的意思,请不要激动 39 个帖子 - 36 位参与者 阅读完整话题

linux.do · 2026-04-17 01:17:24+08:00 · tech

我们在对社会各色人物的接触过程中,好坏的底线会放得越来越低。一开始,孩童会觉得十全十美才称得上好人;但对于老练的刑警来说,一个戴大金链的秃子,只要他不干什么违法犯罪的事情,那他看起来也是顺眼的。 宽容度越低往往越是幼稚的孩童。就像让一个没怎么做过饭的人去洗碗,他非得把锅碗洗得铮亮不可。但对于一个老厨师来说,锅碗只要差不多干净的程度就行了。 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-17 00:47:03+08:00 · tech

这个是他们自己模型卡里面的数据 先不说1M只有30多 256K 60多是什么鬼 这东西编码真的能用的? 再加上模型速度极快 省token 还不愿思考 我感觉有理由是个小模型 甚至大胆猜测一手是原本mythos系列的一个sonnet等效模型? 然后因为一直算力不足在炸 就只能先端上来一个半成品 再强制一批人用4.7 无论效果如何 算力问题能解决一些 补一条, 4.6用的还只是ext thinking, 4.7测试用的是max… 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-16 22:43:58+08:00 · tech

一直在想模型的版本越来越高,但是目前的这些顶级模型能力也很好啊,那以后这些模型都使用成本降低的话,那也不错哈哈,也不是必须要去追求最新版本,毕竟当前的这些好的模型能力也是在线的, 不过他们公司可能会把重心放在能给他们带来收益的模型上面吧,这些低版本的模型会由于算力不足导致降低智商吗 5 个帖子 - 5 位参与者 阅读完整话题

linux.do · 2026-04-16 17:11:12+08:00 · tech

自Anthropic发明skills以来,我发现大家对skills是越来越青睐了,原先skills用来辅助工作 开发,后来进化出了不少新玩法啊, 什么 同事.skill , 前任.skill ,更有甚者: 张雪峰.skill (尊重逝者 ) 这些都是蒸馏玩法,属实是被玩出花来了 玩归玩,不要把这些 玩意放到工作和开发的skills目录里,因为这会增加你的skills数量,增加无用上下文,降低ai使用skills的 命中率 。 有篇paper专门分析了skills的数量-内容与准确性的关系: When Single-Agent with Skills Replace Multi-Agent Systems and When They Fail 论文用gpt-4o和gpt-4o-mini做了skills数量与选择准确率关系的实验,实验结果放在这个表里 skills数量 选择准确率 ≤ 10 > 97% 10 ~ 30 90% ~ 97% 30 ~ 50 85% ~ 93% 50 ~ 80 60% ~ 85% 80 ~ 100 45% ~ 55% 100 ~ 150 15% ~ 40% ≥ 150 < 15% 也有拟合曲线: skills数量在50个以内,选择准确率都是比较高的(当然,不同AI跑出来的结果必然不同,这里的结果仅做参考),尤其是skills在25个以内时,命中率是相当高的 我在开发中也有类似的感受,曾经我在全局skills目录里塞了不少五花八门的skills,打开cc后一问才知道,总skills数量有60+,怪不得ai经常不选我希望ai用的skills。 后来我去繁从简,精挑细选,屎里淘金,把skills数量压到了40以内。按实验结果,我为什么没有压倒20-30呢,因为上文也说了,这个实验是基于gpt-4o系列ai做的,我用的ai性能比4o强,不必对号入座。 不只是数量, 相似的skills 也会大大降低选择准确率 论文做的实验,每个skills有一个相似的“竞争者”,准确率降到~82%,有两个相似的“竞争者”,准确率骤降到 ~52%。如果有从几个功能很相似的skills里选,ai往往会遮着眼睛瞎选(ai没眼睛 说是)。 打个比方 你和你老婆晚上准备双排了,你老婆的双胞胎妹妹趁着黑灯瞎火,悄无声息地摸进来,你能分清谁是谁吗? 如果你硬上的话,我打赌要出事故的 所以, 功能相似的skills只保留一个 如果skills实在是多,怎么办呢,论文里给出了层级路由的选法,简单来说就是**“先选类别,再选skills”** 比如开发会用到 code-review , test-dirven-development , subagent-driven-development ……那么就把这些归为“开发类”,依次类推还有“写作类”,“设计类”等等。ai选择使用skills的时候,就先判别应该用什么类别,再选择具体的skills。 论文里的层级路由的实验结果显示,这个方法在大数量skills的情况下会把准确率提高小几十个百分点。 当然嘛,据我所知 claude code 现在是没有“层级路由”的实现的,只是单纯的把skills全部平铺开来,让ai选。 不过没关系,我自己对于不同类别的skills是这样处理的:建立不同的skills仓库,把杂乱的skills给划分到不同的局部仓库里,让全局skills保持简洁,装你必备的,常用的;局部仓库里装其他类别的skills,分开使用。 比如我开一个名为“WPS-skills”的仓库,wps的skills就安装在这里面,要编辑WPS的文件的时候,就在这个仓库里工作;其他仓库是没有wps的skills的。 那我说白了,总的来说就是:降低skills数量,不要出现太相似的几个skills,skills分类管理。 skills不在于多,而在于精,选择最常用的,最适合自己的skills就是 The best。 3 个帖子 - 3 位参与者 阅读完整话题