智能助手网
标签聚合 到底

/tag/到底

linux.do · 2026-04-18 21:21:43+08:00 · tech

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下全是我自己手搓,没有ai味(我用最真实、最不绕、最直接的方式跟你讲 hhhhh),放心品尝 很多人以为 Skill 迭代最难的是"怎么改"。 但我越来越强烈地觉得,真正难的其实不是改,而是: 你改完之后,根本不知道它到底有没有真的变好。 补描述、调 prompt、加例子、补边界、改结构。 Skill 看起来越来越完整,文档越来越像样,语气越来越专业。 但问题是: 看起来更完整,不等于真的更强。 skill的实际行为未必更稳定,边界未必更清晰,失败处理也未必更好。 所以很多 Skill 维护最别扭的地方,其实不是"不会写",而是你明明已经改了很多轮,却还是说不清: 上一次改动,到底有没有真正产生作用。 我后来专门跑了 100 个高下载 Skill,发现问题并不是"不能用" (是的,烧我自己的token)结果最有意思的地方,不是烂 Skill 特别多。恰恰相反,大多数 skill 其实都能用: 70 个通过 29 个在 caution 区间 1 个 fail 平均分 73.8 真正的问题不是:大多数 Skill 完全不能用。 而是 很多 Skill 停在一个很尴尬的状态:能用,但不容易被继续有效优化。 你一旦想认真往上修,就会发现问题不少,但很难判断到底该先修哪一块。 也就是说,难点不是"没法写",而是 没有诊断,所以不知道怎么有效地继续改。 更关键的是,这种"不对劲"还不是随机的。 我看到的弱点主要集中在几个地方: Trigger quality 平均 6.2 Functional quality 平均 6.6 大约 80% 缺少 not_for 边界 大约 60% 的 D4 弱项 Skill 缺少像样的 error recovery guidance 还有接近 40% 更像"写给人看的说明书",而不是"写给模型执行的操作说明" 这里翻译成人话就是: 很多 Skill 不是坏在"完全不能用",而是坏在几个特别重复的地方:不会划边界,不会处理失败,也没有把行为写得足够可执行。 所以我后来做了 SkillCompass 我想解决的,不是"怎么把 Skill 写得更长、更完整",而是另一件更关键的事: 在你动手优化之前,先看清问题到底在哪;在你改完之后,再验证这次修改有没有真的产生提升。 所以对我来说,SkillCompass 不是一个"给 Skill 打个分"的工具而已。 它更像一个给 Skill 迭代提供方向感的东西: 现在最弱的是哪一维 下一步该先修哪里 这轮修改有没有真的带来提升 有没有把别的地方一起改坏 【这里插一句compass 这个名字,指南针🧭,其实也是这个意思。不是替你做决定,而是先帮你定位方向。 】 所以它背后的设计原则也很简单: 本地优先 :所有数据都留在本机,除非你明确要求,否则不会主动发起网络请求 默认只读 :评估和报告默认不改文件,improve、merge、rollback 这类写入操作都要明确开启 被动追踪,主动决策 :Hooks 会收集使用数据,但系统只给建议,不会自动替你执行 双通道交互 :既支持键盘选择,也支持自然语言查询,两种方式始终都可用 同时我把评估分成了6个维度;把判定标准分成3档 它不是在帮你"多改一点",而是在帮你把迭代变成一个可验证的流程 与其盲目地"再多写一点",不如把 Skill 迭代拆成一个更清晰的 workflow。下面拿agile-product-owner作为一个例子展开讲讲: 1)先诊断 不要一上来就改。先看清楚最弱的是哪一维。 很多时候你以为问题在 wording,实际可能卡在 trigger、边界、失败处理,或者执行指令根本不够可操作。 先把最弱项找出来,后面的修改才不是瞎试。 接着它出一个初步的报告,包含维度1-3,后面会有一个完整的全方位维度1-6的测评报告(看下图): 2)再看单项到底在说什么 我觉得这一步特别重要。 因为很多人一看到分数,会下意识觉得"哦,这项低,那我去多写一点"。 但 SkillCompass 真正有价值的地方,不是只给分,而是会把某个维度为什么高、为什么不满分、它到底在判断什么,说得更清楚。 比如拿 D6 = Uniqueness(独特性 / 不容易被替代) 来说,它看的不是"你这段话写得顺不顺",而是在看: 这个 skill 是不是真的有独立价值 有没有明显重复品 跟相似 skill 重合度高不高 是不是一句普通 prompt 就能替代 它是不是很快就会过时 这里个skill的这一维最后给到 8 分,不是说它不好,而是说:它已经有明确领域专属性,也不太容易被普通 prompt 替代,但还没有强到"极其不可替代"的程度。 3)定点修复,而不是整份 Skill 重写 找到弱项之后,不是整份 skill 重写一遍。 而是只修最该修的那一块。所以我们把弱项加强,不好的修正,但不污染上下文 **这里要敲重点!!!**它做了那段分数解释,并且新版分更高的同时也没有把别的地方改坏,因为修改目标清楚,而且不会为了补一个问题,把别的地方一起搅乱。 此时,SkillCompass 已经完成这轮评估/优化结果的写入(提升了 D5),没有出现回归,然后把新的评估记录和最新扫描时间写进本地文件。 4)改完再验证,千万不要靠感觉收工 改完不能靠"看起来更完整了"就结束。要重新验证这次修改到底有没有带来真实提升。 分数有没有上去,解释有没有更扎实,别的维度有没有被改坏,这些都得重新看。 (((兄弟们,有效的优化才叫"迭代",不然就是屎上雕花。))) 5)再找下一个瓶颈 一个问题修完,不代表 skill 就完成了。 通常是这个瓶颈被拿掉之后,下一个瓶颈才会浮出来。 所以真正有效的迭代,不是一次性改到完美,而是持续地: 诊断问题 → 定向修复 → 验证提升 → 找到下一个瓶颈 这也是我现在更认同的一种 Skill 迭代方式:不是凭感觉打磨,而是把迭代变成一个更可验证的 workflow。 适合什么人,不适合什么人 适合: 任何在维护 agent skills,并且希望质量能够被量化的人 想要有明确改进方向的开发者—不是靠猜,而是清楚知道下一步该修哪个维度 需要质量门槛的团队—任何会改动 skill 的工具,都可以在改动后自动接受评估 安装了很多 skills、想看清哪些真的在用、哪些已经陈旧、哪些存在风险的用户 不适合: 通用代码审查或运行时调试 从零创建新 skill(这个更适合用 skill-creator) 评估非 skill 类型的文件 项目在这里: github.com GitHub - Evol-ai/SkillCompass: Evaluate agent skill quality. Find the weakest… 有兴趣的佬欢迎去 GitHub 点个 star 支持一下。 如果你手上也有自己的 SKILL.md,欢迎直接贴出来,我这边也可以顺手用 SkillCompass 帮你跑一遍测评。 有问题也欢迎一起聊,也可以 fork 回去自己改着玩 2 个帖子 - 2 位参与者 阅读完整话题

linux.do · 2026-04-18 14:29:54+08:00 · tech

如题, 我是wsl+ollama, 试了一个qwen3.5 2b 4b 9b, 都贼拉难用, 我就问他 1+1=? , 一直搁那吐字, 思考, 我记得以前2023年的ChatGLM没这么难用的啊, glm问他是谁他都正常吐字就完事了, qwen一直搁那思考自己是阿里巴巴开发的, 中文思考完了换英文, 半天不吐字, 介绍完自己, 又介绍阿里巴巴, 难用得要命了 13 个帖子 - 10 位参与者 阅读完整话题

linux.do · 2026-04-18 11:51:58+08:00 · tech

先说说使用环境:自己的单个GPT PRO账号------CPA转接(这里主要是为了统一代理,不用每个机器装一个代理)------Axonhub(因为还有其他模型,一起管理)------opencode+OMO 在两台开发机上都发现同样的问题(不同的OC版本,一个1.3.17,一个1.4.8):经常出现如图所示的报错,尤其感觉是写入长文本或者一条回复比较长报错概率会更大,非常影响开发。 我又分析了一下请求,似乎是思考/输出太长,openai先返回了一个空响应,但是在OC侧被错误处理了? 请各位大师帮忙看看! 我逐步审视: Axonhub接收到的相应如下: { id: "resp_0cc95817ee988d150169e25f7278ec8199a1176c6b7dafb37b" model: "gpt-5.4" object: "response" output[ ] status: "in_progress" created_at: 1776443251 } OC显示报错文本如下: Type validation failed: Value: {"error":{"code":"internal_server_error","message":"unexpected EOF","type":""}}. Error message: [ { "code": "invalid_union", "errors": [ [ { "code": "invalid_value", "values": [ "response.output_text.delta" ], "path": [ "type" ], "message": "Invalid input: expected \"response.output_text.delta\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "delta" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.completed", "response.incomplete" ], "path": [ "type" ], "message": "Invalid option: expected one of \"response.completed\"|\"response.incomplete\"" }, { "expected": "object", "code": "invalid_type", "path": [ "response" ], "message": "Invalid input: expected object, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.failed" ], "path": [ "type" ], "message": "Invalid input: expected \"response.failed\"" }, { "expected": "object", "code": "invalid_type", "path": [ "response" ], "message": "Invalid input: expected object, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.created" ], "path": [ "type" ], "message": "Invalid input: expected \"response.created\"" }, { "expected": "object", "code": "invalid_type", "path": [ "response" ], "message": "Invalid input: expected object, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.output_item.added" ], "path": [ "type" ], "message": "Invalid input: expected \"response.output_item.added\"" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "code": "invalid_type", "expected": "object", "path": [ "item" ], "message": "Invalid input: expected object, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.output_item.done" ], "path": [ "type" ], "message": "Invalid input: expected \"response.output_item.done\"" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "code": "invalid_type", "expected": "object", "path": [ "item" ], "message": "Invalid input: expected object, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.function_call_arguments.delta" ], "path": [ "type" ], "message": "Invalid input: expected \"response.function_call_arguments.delta\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "delta" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.custom_tool_call_input.delta" ], "path": [ "type" ], "message": "Invalid input: expected \"response.custom_tool_call_input.delta\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "delta" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.image_generation_call.partial_image" ], "path": [ "type" ], "message": "Invalid input: expected \"response.image_generation_call.partial_image\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "partial_image_b64" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.code_interpreter_call_code.delta" ], "path": [ "type" ], "message": "Invalid input: expected \"response.code_interpreter_call_code.delta\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "delta" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.code_interpreter_call_code.done" ], "path": [ "type" ], "message": "Invalid input: expected \"response.code_interpreter_call_code.done\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "code" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.output_text.annotation.added" ], "path": [ "type" ], "message": "Invalid input: expected \"response.output_text.annotation.added\"" }, { "code": "invalid_type", "expected": "object", "path": [ "annotation" ], "message": "Invalid input: expected object, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.reasoning_summary_part.added" ], "path": [ "type" ], "message": "Invalid input: expected \"response.reasoning_summary_part.added\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "summary_index" ], "message": "Invalid input: expected number, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.reasoning_summary_text.delta" ], "path": [ "type" ], "message": "Invalid input: expected \"response.reasoning_summary_text.delta\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "summary_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "delta" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.reasoning_summary_part.done" ], "path": [ "type" ], "message": "Invalid input: expected \"response.reasoning_summary_part.done\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "summary_index" ], "message": "Invalid input: expected number, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.apply_patch_call_operation_diff.delta" ], "path": [ "type" ], "message": "Invalid input: expected \"response.apply_patch_call_operation_diff.delta\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "delta" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.apply_patch_call_operation_diff.done" ], "path": [ "type" ], "message": "Invalid input: expected \"response.apply_patch_call_operation_diff.done\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "diff" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "error" ], "path": [ "type" ], "message": "Invalid input: expected \"error\"" }, { "expected": "number", "code": "invalid_type", "path": [ "sequence_number" ], "message": "Invalid input: expected number, received undefined" } ], [ { "expected": "string", "code": "invalid_type", "path": [ "type" ], "message": "Invalid input: expected string, received undefined" } ] ], "path": [], "message": "Invalid input" } ] 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-18 00:28:50+08:00 · tech

以下为我个人体验,成功率从高到底: 谷歌别名邮箱、qq邮箱我自己的邮箱都注册完了,成功率100% 163邮箱我只注册了一个,也成功了,不确定是否是个例 2925邮箱今天试了好多回,成功率在60% 70%左右。 duckduckgo邮箱,一两周之前是成功率100%,现在貌似全都会跳add phone 我之前薅羊毛20块买的.com域名,整了个域名邮箱,一个都没成功,成功率0% 没提到的都是我没用过的,比如hotmail邮箱,听说现在也不行了? 7 个帖子 - 4 位参与者 阅读完整话题

www.ithome.com · 2026-04-17 21:45:29+08:00 · tech

IT之家 4 月 17 日消息,国家市场监督管理总局今日向美团下发了《行政处罚决定书》,认定平台未依法履行资质审核义务。 美团随后回应称,将按照食品安全监管要求落实整改措施,并在各级监管部门指导下,重点打击餐饮转单、利用虚假资质上线等违法违规行为及黑灰产产业链。 同日,美团发布“放心外卖”十大举措,宣布全面升级外卖食品安全治理体系,围绕“商家准入、透明经营、多方共治”三个环节推进。 在商家准入方面,美团已与全国 20 余个省市对接许可证数据接口,实现商家证照与监管部门数据库 100% 穿透式对接验真。 自 2026 年 5 月起,全国餐饮商家在平台上线 30 日内,须提交完整、连续、带定位的“一镜到底”门店视频,平台将结合线下巡检与大众点评消费者实拍进行交叉验证 。针对已上线商家,美团将重点核验门店地址真实性与现场环境卫生,对高风险商家开启自检、平台巡检、AI 巡检、第三方飞检四道核验程序。 在透明经营方面,美团继续扩大“明厨亮灶”覆盖范围, 目前已有超过 40 万商家开通后厨直播 ,并为中小商家提供专项支持,鼓励其通过“食安日记”等功能展示后厨信息。平台为商家建立“食安透明橱窗”,向消费者标注堂食、明厨亮灶等食安信息,食安相册功能覆盖全量商家。同时,美团升级食品安全 AI 大模型“星眸”,当前日均后厨巡检超过 1400 万次, 升级后虚假门头图、虚假环境图识别功能将覆盖全部商家 。 在多方共治方面,美团推出多项举措。骑手“食安随手拍”已覆盖全国,鼓励骑手在日常配送中发现食安线索,平台对提供有效线索的骑手给予专项奖励。“小美评审团 · 食安评审官”机制已覆盖全国超 90 个城市,邀请消费者参与食安标准讨论和线下门店巡检。 此外, 美团将上线全国首个“食安政企共治平台”,每日主动上报并滚动更新食安线索 ,监管部门可在线查询骑手上报、消费者评价、平台巡检等多源信息,支持在线协查和治理下线。针对伪造证照、协助违规上线、一店多开、违规转单等黑灰产行为,美团将依托智能大模型主动预警,与公安机关建立常态化线索移送和联合打击机制,并联合多家电商及内容平台协同治理。 IT 之家小伙伴记得用 最会买点外卖 ,享受折扣价的同时还可以获得返利,单单都能省钱! 相关阅读: 《 共处罚没款 35.97 亿元!拼多多、美团、京东、淘宝闪购、抖音、淘宝、天猫涉“幽灵外卖”系列案被处罚 》 《 严禁自动化高频抢票:携程、同程、去哪儿、飞猪、美团、智行、高铁管家被约谈 》 《 市场监管总局要求美团、京东、淘宝闪购三大外卖平台 6 月 1 日前完成外卖食品安全整改 》

linux.do · 2026-04-17 20:10:58+08:00 · tech

怎么做 Harness Engineering.pdf (1.8 MB) 前两篇 【万字长文】什么是 Harness Engineering 文档共建 什么是 Harness Engineering.pdf (1.6 MB) 写了有四五天,用了AI帮助创作,收集了很多佬友的观点 聊聊为什么要 Harness Engineering,分享下我的观点 文档共建 继上一篇 【万字长文】什么是 Harness Engineering 为什么要 Harness Engineering.pdf (1.3 MB) 欢迎佬友们讨论 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-17 16:22:38+08:00 · tech

今日奥特曼大胜,A/大败 搞七捻三 A/到底是啥啊?这个在哪里玩呀。。。。。 这个话题就从这里开始吧,L站是著名的AI 剧透 学习论坛,但是我作为一个三级号,竟然对于很多基础知识一窍不通,比如什么cc switch、什么凹凸曼、什么中转站是如何练成的、什么蹬完了,啥的,只要是你知道的,我来者不拒,今天,让各位佬友人人献出一点光,用你们的AI知识助我破鼎 2 个帖子 - 2 位参与者 阅读完整话题