智能助手网
标签聚合 一次

/tag/一次

linux.do · 2026-04-18 17:08:17+08:00 · tech

各位好,潜水 L站 很久了,第一次发帖分享自己做的东西。 我做了一个叫「星河智剪」的 AI 短视频工具,主要解决一个痛点:很多想发短视频做营销,但不会剪辑,也没时间学 用起来很简单——上传几张图片或视频素材,输入一段文案(或者直接粘贴抖音/小红书链接自动提取文案),点一下就能生成带配音、字幕、BGM 、转场的短视频。整个过程大概 30 秒 批量混剪:一组素材 + AI 自动扩写多组文案,一次生成几十条不重复的视频,做矩阵号的应该懂这个需求 智能配音:接了 MiniMax 和火山引擎的 TTS ,按场景(探店、促销、品牌故事等)自动推荐合适的音色,有 29 种音色可选 智剪模式:用自然语言下指令,比如"加个慢动作"“叠一行文字”“换个轻快的 BGM”,LLM 解析意图后自动执行 链接提取:粘贴抖音/小红书链接,自动提取标题和文案 340+ 首 BGM 库:按场景分类,也支持根据文案语气自动匹配 技术栈是 Vue 3 + FastAPI + MySQL ,视频渲染走云端,手机端用 Capacitor 打包了 Android App ,也支持 PWA 直接用 送一波专业版兑换码,先到先得: 每个码可以兑换 1000 积分(够生成 100 条视频),在 App 里「个人中心 → 会员中心 → 兑换点卡」使用 66A92305AD3DFBA2 专业版 039DB76173963CA5 专业版 E769FD4564C17142 专业版 03114C279CF42B5E 专业版 8D6E4E43575F4D6F 专业版 529CDE2D908D4393 专业版 693768589B3B66BF 专业版 24C370EA4ECC0644 专业版 99CC27C220DC094C 专业版 1BE5AEA4C2EA52B2 专业版 用完了评论区吱一声,我再补。 体验地址: https://zj.xinghepay.com 欢迎各位试用吐槽,有什么建议或者想聊技术实现的都可以回复,我会一直在,谢谢大家 6 个帖子 - 6 位参与者 阅读完整话题

linux.do · 2026-04-18 15:48:47+08:00 · tech

由于对长期任务的各层级 AGENTS.md 有优化需求,我前期用codex做了一次调研。根据调研结果建立了这个skill的框架,然后用较完整的技能优化和评测的工作流,做了技能测试和改进,包括脚本调用codex-cli模拟真实仓库环境中,用skill和不用skill的测试。 目前技能已经能初步使用。大家如果在使用中遇到问题也可以自行优化一下,可以在帖子里分享给大家。 完全可以使用一下这个技能,让ai从完整记忆(比如说codex的memory全文,而不是rg搜索一部分记忆)中判断那些规则需要沉淀到全局AGETNS.md里,试试效果。 技能如下 agents-md-improver.zip (86.7 KB) 更完整的介绍留给codex帮我总结 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-18 15:06:04+08:00 · tech

项目 这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。 本轮与上两轮评测的项目和环境都完全一致: 第一轮 … 第九轮 模型来源 Claude Opus 4.7: 宣称官方 Claude Code 的中转站。 速度 排名 模型 时间(分钟) 备注 1 Grok 4.20 0309 Reasoning 3 2 Minimax M2.1 5 3 Minimax M2.5 6 4 Step-3.5-Flash 6 5 Mimo V2 Omni 7 6 Doubao-Seed-2.0-Lite 7 7 GPT-5.4(low) 8 8 Doubao-Seed-2.0-Pro 9 9 Doubao-Seed-2.0-Code 9 10 Qwen3-Coder-Next 9 11 Claude Sonnet 4.6(high) 9 12 Qwen3.5-Plus 9 13 GLM-5 Turbo 10 14 Minimax M2.7 10 Highspeed 版本 15 Qwen3.5-Flash 10 16 GPT-5.3-Codex(medium) 10 17 Gemini 3 Pro 11 18 Kimi K2.5 11 19 GLM 4.7 12 20 GPT-5.4(high) 14 21 Mimo V2 Pro 15 22 Claude Opus 4.5 15 23 Claude Sonnet 4.5 16 24 GPT-5.3-Codex(high) 16 触发了一次上下文压缩 25 GPT-5.3-Codex(xhigh) 16 26 GPT-5.4(medium) 17 27 GPT-5.4(xhigh) 18 28 Claude-Opus-4.7(Max) 20 29 GLM-5 20 30 DeppSeek V3.2 22 31 Gemini 3 Flash 22 32 KAT-Coder-Pro V2 24 33 GPT 5.2(xhigh) 25 34 Claude-Opus-4.6(Max) 26 35 Gemini 3.1 Pro(high) 29 受 429 请求频率限制影响 36 Qwen3.5 9B GGUF Q4_K_XL 35 MBP M4 Pro 48GB 本地部署 37 Qwen3.5 35B A3B GGUF Q4_K_XL 36 MBP M4 Pro 48GB 本地部署 令牌数 Claude Opus 4.7: 4.89M 代码行数 Claude Opus 4.7: +1473, -8 完成度 Claude Opus 4.7 审查结论: 已经存在必然编译失败,且核心入口链路未打通。 详细 (点击了解更多详细信息) 代码质量 经典 Claude 风格,无需多言。 最终总结 排名 模型/层级 说明 Tier 0 该等级的模型实现与线上基线高度一致。 1 GPT 5.4(xhigh) 2 GPT 5.2(xhigh) 3 GPT-5.3-Codex(xhigh) Tier 1 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。 4 GPT 5.4(high) 5 GPT 5.4(medium) 6 GPT-5.3-Codex(high) 7 GPT-5.3-Codex(medium) 8 Claude Opus 4.6(Max) 9 GPT 5.2(medium) 10 GPT 5.4(low) 11 GPT 5.2 Codex(xhigh) 12 Claude Opus 4.5 13 Claude Sonnet 4.5 Tier 2 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。 14 GLM 5.1 15 GLM 5 16 Kimi K2.5 17 Claude Sonnet 4.6(high) 18 Qwen3.5-Plus 19 KAT-Coder-Pro V2 Tier 3 该等级的模型的问题很多且无法编译,或者存在不少幻觉。 20 Claude Opus 4.7(Max) 21 GLM 5 Turbo 22 GLM 4.7 23 Gemini 3.1 Pro(high) 24 Mimo V2 Pro 25 Mimo V2 Omni 26 Minimax M2.7 27 Minimax M2.5 28 Step-3.5-Flash 29 Qwen3-Coder-Next 30 Gemini 3 Pro 31 Gemini 3 Flash 32 Doubao-Seed-2.0-Code 33 Doubao-Seed-2.0-Pro 34 Doubao-Seed-2.0-Lite 35 Qwen3.5-Flash 36 Qwen3.5 35B A3B GGUF Q4_K_XL 37 Qwen3.5 9B GGUF Q4_K_XL 38 Grok 4.20 0309 Reasoning 39 DeepSeek V3.2 40 Minimax M2.1 41 GPT 5.1 Codex mini(medium) 使用中文对 Opus 4.7 提问,在完成的过程中是全英文的,但是最后的总结输出是中文。 速度相对上一代快了 6 分钟(23%)。 出现两个致命的编译错误,看来注意力低不假。 之前模型犯的错误,这次也同样犯了。 太抽象了,我甚至给了 3 次机会,怕我误会了它,但是结果依然没有改变,现在 T3 排行由 Opus 4.7 重磅领衔,后续的 T3 级别选手恐怕短时间难以超越。 本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。 17 个帖子 - 12 位参与者 阅读完整话题

linux.do · 2026-04-18 14:50:42+08:00 · tech

之前自己试了一次,好像不太行,那时候在公司,然后跟着站内大佬的操作,在家里晚上10点多,居然开成功了甲骨文!选择韩国的区域,然后直接升级也升级成功了!但是好像没有机器啊,我好难受,请问有什么办法吗?脚本感觉站内也没太多人说,还有人用脚本会不会被信用卡盗刷? 有没有什么邪修的方法开出来呢? 附带参看的链接: 这次终于到我了,龟壳我来了 甲骨文注册这就水灵灵的成了? 我主要参看两个大佬的,然后我是谷歌直连,开无痕模式,我感觉比较重要的是地址吧,而且升级也很快一下子就好了。 11 个帖子 - 5 位参与者 阅读完整话题

linux.do · 2026-04-18 01:41:52+08:00 · tech

去年,有次笔记本拆开换固态之后无法启动了。键盘背光亮、大小写开关无反馈、无法进入logo、风扇有启动。 本来以为是笔记本损坏了。今天整理硬件,居然发现老笔记本没坏,是内存坏了。 8G 2133ddr4笔记本内存,两个同型号内存,反复插装,清理金手指确认其中一片损坏了。检查未见任何破坏痕迹。 换上两片以前的内存,重获新生。 内存条普遍是十年保修吧,比CPU还长一倍,居然先坏的是内存。 3 个帖子 - 2 位参与者 阅读完整话题

www.ithome.com · 2026-04-17 21:44:47+08:00 · tech

IT之家 4 月 17 日消息,小米创办人、董事长兼 CEO 雷军今天从早上 6:35 分开始直播,测试小米 SU7 Pro 从北京到上海的长途续航, 满电出发,中间只充一次电 。 IT之家从直播中了解到,雷军 20:30 分从 S2 沪芦高速康桥收费站下高速,成功抵达上海并达成 1265 公里挑战,ETC 收费 645 元。随后他选择与李肖爽在上海多跑一会,把续航拼整 1300 公里。 雷军、徐洁云(小米集团公关部总经理)和李肖爽(小米汽车副总裁)等一行人 20:48 分开始进上海市区,前往小米上海办公室。 直播中有网友问:“是不是特调车?”,雷军对此回应道,各路媒体已经做过测试,欢迎质疑的朋友买一辆 SU7 Pro 自己跑一趟。 同时,雷军还在直播中提到了博主“周二瓶”的测试,他认为自己真的跑完北京-上海这段路后,理解了周二瓶当时为什么那么激动。 并且他原本以为这种直播很无聊会没人看 , 但最终很多人围观 。 雷军透露,他今天早上六点半在星巴克喝咖啡、吃了一些早点就出发,中午本来想美美吃一顿,但碍于围观的人太多,最终只能随便找个地方朴素一顿。 至于为何不做超快充,雷军表示:小米首先做长续航,超快充目前国内铺得不多,而且边际效应比较明显。 21:40 分,雷军一行人成功抵达位于上海金桥的小米 5G 未来中心工区, 全程 15 小时 开了 1313 公里 , 车子的续航还剩 19 公里 ,成功实现“满电出发,中间只充一次电从北京到上海”。

linux.do · 2026-04-17 21:02:25+08:00 · tech

八个模型评测测试报告 1). 测试概述 本次测试针对以下八个模型进行了统一条件下的对比评测: Gemma-4-31B-IT-Uncensored SuperGemma4-26B-Uncensored Gemma 4 - 26B A4B x Claude Opus 4.6 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled SuperGemma4-26B-Abliterated-Multimodal Gemma-4-31B-IT-Claude-Opus Qwen3.6-35B-A3B-Uncensored 我下载的都是Q4_K_M量化版 2).电脑硬件参数 硬件类型 型号/规格 显卡 NVIDIA GeForce RTX 4090 内存 64GB DDR5 CPU Intel Core i9-13900K 测试目标是从 逻辑推理能力、代码生成能力、响应速度、运行稳定性 四个维度,评估八个模型在实际使用场景中的综合表现。 2. 测试方法与统一设置 为保证横向比较公平,本次评测使用了完全一致的测试方式和参数设置。 2.1 统一参数 temperature:0.0 top_p:1.0 每题采样次数:1 不使用 LLM 裁判 逻辑题采用 exact match 评分 代码题采用程序执行与测试通过率评分 2.2 测试集规模 GSM8K:20 题 BBH:20 题 HumanEval+:10 题 MBPP+:10 题 2.3 评分公式 逻辑分 = (GSM8K + BBH) / 2 代码分 = (HumanEval+ + MBPP+) / 2 总分 = (逻辑分 + 代码分) / 2 3. 总体结果汇总 排名 模型 逻辑分 代码分 总分 平均时延 执行失败率 1 Gemma-4-31B-IT-Uncensored 0.9500 1.0000 0.9750 17.64s 0.00 2 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 0.8500 1.0000 0.9250 38.25s 0.00 3 SuperGemma4-26B-Uncensored 0.8750 0.9500 0.9125 4.90s 0.05 3 Qwen3.6-35B-A3B-Uncensored 0.8750 0.9500 0.9125 100.35s 0.05 5 Gemma-4-31B-IT-Claude-Opus 0.8500 0.9000 0.8750 69.27s 0.10 6 Gemma 4 - 26B A4B x Claude Opus 4.6 0.7750 0.9500 0.8625 18.49s 0.05 7 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.6000 1.0000 0.8000 58.25s 0.00 8 SuperGemma4-26B-Abliterated-Multimodal 0.7250 0.5000 0.6125 8.04s 0.50 4. 单模型详细测试结果 4.1 Gemma-4-31B-IT-Uncensored 4.1.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 21.24s - BBH 19 / 20 0.95 29.62s - HumanEval+ 10 / 10 1.00 15.36s 0.00 MBPP+ 10 / 10 1.00 4.35s 0.00 4.1.2 表现分析 以 0.9750 总分断层登顶 ,是八个模型中综合实力最强的。 逻辑能力极强,GSM8K 和 BBH 均达到 0.95。BBH 0.95 远超第二名 SuperGemma4 的 0.80。 代码能力满分 ,HumanEval+ 和 MBPP+ 全部通过。 执行失败率为 0 ,稳定性最佳之一。 速度适中(17.64s),与 Gemma4-26B 接近。 该模型是本次评测中唯一一个在 逻辑、代码、稳定性三个维度均无短板 的模型。 4.1.3 结论 Gemma-4-31B-IT-Uncensored 是本次测试中 综合实力最强、无明显短板 的模型。是当前最值得推荐的全能型首选模型。 4.2 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 4.2.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 20 / 20 1.00 45.08s - BBH 14 / 20 0.70 32.16s - HumanEval+ 10 / 10 1.00 43.15s 0.00 MBPP+ 10 / 10 1.00 32.62s 0.00 4.2.2 表现分析 GSM8K 取得满分,数学推理能力是八个模型中最强的之一。 代码能力满分,稳定性优秀。 BBH 0.70,复杂逻辑推理能力明显增强。 平均时延 38.25 秒。 4.2.3 结论 Qwen3.5-27B 是 代码能力极强、数学推理极强、综合表现显著提升 的模型,最新重测后已升至综合第二。 4.3 SuperGemma4-26B-Uncensored 4.3.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 3.09s - BBH 16 / 20 0.80 14.34s - HumanEval+ 10 / 10 1.00 1.44s 0.00 MBPP+ 9 / 10 0.90 0.75s 0.10 4.3.2 表现分析 总分 0.9125 并列第三,逻辑能力仅次于 Gemma-4-31B。 速度是最大亮点 ,平均时延仅 4.90 秒,是所有模型中最快的。 代码能力很强,HumanEval+ 满分,MBPP+ 仅丢 1 题。 存在少量执行失败(0.05)。 4.3.3 结论 SuperGemma4-26B-Uncensored 是 速度最快 + 综合并列第三 的模型。如果极度看重响应速度,它是最佳选择。 4.4 Qwen3.6-35B-A3B-Uncensored 4.4.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 92.47s - BBH 16 / 20 0.80 143.65s - HumanEval+ 10 / 10 1.00 93.43s 0.00 MBPP+ 9 / 10 0.90 71.86s 0.10 4.4.2 表现分析 总分 0.9125,与 SuperGemma4-26B-Uncensored 并列第三。 逻辑分 0.875,GSM8K 0.95、BBH 0.80,逻辑能力很强,与 SuperGemma4 持平。 代码分 0.95,HumanEval+ 满分,MBPP+ 少失 1 题。 执行失败率仅 0.05,稳定性良好。 但平均时延高达 100.35s,是所有模型中最慢的 ,是其最大短板。 4.4.3 结论 Qwen3.6-35B-A3B-Uncensored 是一个 质量高但速度极慢 的模型。综合得分与 SuperGemma4 并列,但时延是其 20 倍。适合不在意响应速度、追求输出质量的场景。 4.5 Gemma-4-31B-IT-Claude-Opus 4.5.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 17 / 20 0.85 85.28s - BBH 17 / 20 0.85 78.65s - HumanEval+ 8 / 10 0.80 71.41s 0.20 MBPP+ 10 / 10 1.00 41.74s 0.00 4.5.2 表现分析 总分 0.8750,综合第五。 逻辑比较稳,GSM8K 和 BBH 都到 0.85。 代码能力较强,MBPP+ 满分,HumanEval+ 有 0.80。 速度偏慢(69.27s),执行失败率 0.10。 4.5.3 结论 Gemma-4-31B-IT-Claude-Opus 是一个 逻辑稳健、代码较强但速度偏慢 的模型。 4.6 Gemma 4 - 26B A4B x Claude Opus 4.6 4.6.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 18.38s - BBH 13 / 20 0.65 20.64s - HumanEval+ 9 / 10 0.90 18.73s 0.10 MBPP+ 10 / 10 1.00 16.20s 0.00 4.6.2 表现分析 综合均衡,逻辑和代码都较强。 速度适中(18.49s)。 存在一定执行失败率(0.05)。 4.6.3 结论 Gemma 4 - 26B A4B x Claude Opus 4.6 是一个 均衡且响应较快 的模型。 4.7 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 4.7.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 26.57s - BBH 6 / 20 0.30 33.21s - HumanEval+ 10 / 10 1.00 129.31s 0.00 MBPP+ 10 / 10 1.00 43.93s 0.00 4.7.2 表现分析 代码能力满分。 BBH 仅 0.30,逻辑短板明显。 稳定性良好。 4.7.3 结论 Qwen3-Coder-Next 是一个 偏代码导向 的模型,不推荐作为综合主力。 4.8 SuperGemma4-26B-Abliterated-Multimodal 4.8.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 5.95s - BBH 11 / 20 0.55 21.35s - HumanEval+ 1 / 10 0.10 2.37s 0.90 MBPP+ 9 / 10 0.90 2.47s 0.10 4.8.2 表现分析 HumanEval+ 几乎全军覆没 ,仅通过 1 题(0.10),执行失败率高达 90%。经三次评测结果高度一致,确认为系统性问题。 代码分仅 0.500,是八个模型中断层最低的(第二低为 Gemma-4-31B-IT-Claude-Opus 的 0.900)。 逻辑能力中规中矩,GSM8K 0.90 尚可,BBH 0.55 一般。 MBPP+ 得分 0.90,说明简单代码任务能处理,但复杂函数级代码生成存在严重缺陷。 速度较快(8.04s),但速度无法弥补代码质量的致命缺陷。 总执行失败率 0.50 ,是所有模型中最差的,远高于第二名的 0.10。 4.8.3 结论 SuperGemma4-26B-Abliterated-Multimodal 是本次测试中 表现最差 的模型。HumanEval+ 代码生成存在系统性缺陷,执行失败率极高, 不推荐在任何需要代码能力的场景中使用 。 5. 横向对比分析 5.1 逻辑能力对比 模型 GSM8K BBH 逻辑分 Gemma-4-31B-IT-Uncensored 0.95 0.95 0.950 SuperGemma4-26B-Uncensored 0.95 0.80 0.875 Qwen3.6-35B-A3B-Uncensored 0.95 0.80 0.875 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 1.00 0.70 0.850 Gemma-4-31B-IT-Claude-Opus 0.85 0.85 0.850 Gemma 4 - 26B A4B x Claude Opus 4.6 0.90 0.65 0.775 SuperGemma4-26B-Abliterated-Multimodal 0.90 0.55 0.725 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.90 0.30 0.600 分析: Gemma-4-31B-IT-Uncensored 逻辑能力断层领先(0.950)。 SuperGemma4-Uncensored 与 Qwen3.6-35B 并列逻辑第二(0.875)。 Qwen3.5-27B 和 Gemma-4-31B-IT-Claude-Opus 紧随其后(0.850)。 Qwen3-Coder-Next BBH 仅 0.30,逻辑短板最明显。 5.2 代码能力对比 模型 HumanEval+ MBPP+ 代码分 Gemma-4-31B-IT-Uncensored 1.00 1.00 1.000 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 1.00 1.00 1.000 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 1.00 1.00 1.000 SuperGemma4-26B-Uncensored 1.00 0.90 0.950 Qwen3.6-35B-A3B-Uncensored 1.00 0.90 0.950 Gemma 4 - 26B A4B x Claude Opus 4.6 0.90 1.00 0.950 Gemma-4-31B-IT-Claude-Opus 0.80 1.00 0.900 SuperGemma4-26B-Abliterated-Multimodal 0.10 0.90 0.500 分析: 前六个模型代码能力均在 0.95 以上。 Gemma-4-31B-IT-Claude-Opus 代码分 0.90,略低但依然可用。 abliterated-multimodal 的 HumanEval+ 仅 0.10,代码分 0.500 断层垫底。 5.3 速度对比 模型 平均时延 SuperGemma4-26B-Uncensored 4.90s SuperGemma4-26B-Abliterated-Multimodal 8.04s Gemma-4-31B-IT-Uncensored 17.64s Gemma 4 - 26B A4B x Claude Opus 4.6 18.49s Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 38.25s Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 58.25s Gemma-4-31B-IT-Claude-Opus 69.27s Qwen3.6-35B-A3B-Uncensored 100.35s 分析: SuperGemma4-26B-Uncensored 速度最快,仅 4.90s。 Qwen3.6-35B-A3B-Uncensored 速度最慢(100.35s),是其最大短板。 abliterated-multimodal 速度排第二(8.04s),但速度快不能弥补代码质量缺陷。 5.4 稳定性对比 模型 执行失败率 Gemma-4-31B-IT-Uncensored 0.00 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 0.00 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.00 SuperGemma4-26B-Uncensored 0.05 Qwen3.6-35B-A3B-Uncensored 0.05 Gemma 4 - 26B A4B x Claude Opus 4.6 0.05 Gemma-4-31B-IT-Claude-Opus 0.10 SuperGemma4-26B-Abliterated-Multimodal 0.50 分析: abliterated-multimodal 执行失败率 0.50,远超其他所有模型,稳定性极差。 6. 关键结论 6.1 综合排名 Gemma-4-31B-IT-Uncensored (总分 0.9750,断层第一,逻辑碾压 + 代码满分 + 零失败) Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 (总分 0.9250,综合第二,逻辑与代码都接近满分) SuperGemma4-26B-Uncensored (总分 0.9125,综合并列第三,但速度最快) Qwen3.6-35B-A3B-Uncensored (总分 0.9125,综合并列第三,质量高但速度最慢) Gemma-4-31B-IT-Claude-Opus(0.8750) Gemma 4 - 26B A4B x Claude Opus 4.6(0.8625) Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled(0.8000) SuperGemma4-26B-Abliterated-Multimodal(0.6125,不推荐) 6.2 场景化推荐 追求综合最强、全面无短板 推荐: Gemma-4-31B-IT-Uncensored 原因: 总分 0.9750,断层第一 逻辑 0.950(BBH 0.95,碾压全场) 代码满分 执行失败率为 0 速度适中(17.64s) 追求极致速度 + 综合较强 推荐: SuperGemma4-26B-Uncensored 原因: 总分并列第三(0.9125) 速度极快(4.90s),是所有模型中最快的 逻辑和代码都很强 更重视代码生成、数学能力与稳定性 推荐: Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 原因: GSM8K 满分(八者中唯一) 代码项满分 执行失败率为 0 质量优先、不在意速度 推荐: Qwen3.6-35B-A3B-Uncensored 原因: 逻辑 0.875、代码 0.95,质量很高 与 SuperGemma4-26B-Uncensored 同分(0.9125) 但时延 100.35s,速度是所有模型中最慢的 不推荐 SuperGemma4-26B-Abliterated-Multimodal 原因: HumanEval+ 执行失败率高达 90%,代码分仅 0.50 总执行失败率 0.50,稳定性极差 总分 0.6125,断层垫底 虽然速度较快,但代码生成质量不合格,不适合任何需要代码能力的场景 7. 最终总结 本次测试显示,八个模型在"逻辑、代码、速度、稳定性"四个维度上表现差异显著。 Gemma-4-31B-IT-Uncensored :综合实力断层第一,逻辑碾压全场,代码满分,零失败,是当前最值得推荐的全能型首选模型。 Qwen3.5-27B :综合第二,代码满分、数学满分,逻辑与速度都有明显提升。 SuperGemma4-26B-Uncensored :综合并列第三,速度极快(4.90s),适合对交互效率要求极高的场景。 Qwen3.6-35B-A3B-Uncensored :综合并列第三,质量极高,但速度是所有模型中最慢的(100.35s),适合不在意速度的场景。 Gemma-4-31B-IT-Claude-Opus :综合第五,逻辑稳健、代码较强,但速度偏慢。 Gemma 4 - 26B A4B x Claude Opus 4.6 :综合均衡,速度较快,适合作为通用助手。 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled :代码能力强,但逻辑短板明显,更适合作为偏代码专用模型。 SuperGemma4-26B-Abliterated-Multimodal :代码生成存在系统性缺陷,执行失败率极高, 不推荐使用 。 如果从实际落地角度只选一个模型,优先推荐 Gemma-4-31B-IT-Uncensored ;如果极度看重速度,则 SuperGemma4-26B-Uncensored 是最佳选择。 1 个帖子 - 1 位参与者 阅读完整话题