智能助手网
标签聚合 Gemma

/tag/Gemma

linux.do · 2026-04-17 18:07:37+08:00 · tech

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 上次发帖忘记加模板被始皇狠狠指点了,虽然是系列之三但这次还是加上模板。 月经贴又来力 已测试的模型: google\gemma-4-E4B-it Intel\Qwen3.5-2B-int4-AutoRound Intel\Qwen3.5-35B-A3B-int4-AutoRound Jackrong\Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2 Qwen\Qwen3-TTS-12Hz-1.7B-Base 这个月着重于解决MoE模型的运行乱码问题、Turboquant适配。 1、 具备生产能力的 Qwen-3.5-35B-A3B 模型太大,不能全丢进显存里面。必须做 CPU-XPU 混合推理,也就是专家层放在内存里,需要时再调到 XPU,这个机制其实很多推理引擎已经有对应的"cpu-offload"实现了。 2、 MoE 的性能卡点主要出现在 decode 阶段。对 MoE 实施混合推理推理设计,decode 每走一步都可能要重新选专家,所以特别容易被CPU-XPU之间的数据搬运环节拖慢,由于开发环境在平时打游戏的PC上,内存频率受限3200Mhz,所以现在运行 35B-A3B 的输出速度只有 1 tokens/s 。 3、 所有的模型权重都转换成项目内部兼容 XPU 的 int4 布局,节省资源。 项目内自定义算子的设计(如何自己写算子): 1、 gated_delta_fused_op.sycl 里通过 TORCH_LIBRARY 注册算子名字和参数形式,让项目能在Pytorch上运行。 2、 同时提供 Meta 和 XPU 两套。Meta 实现不真正计算,只负责告诉 PyTorch“输出长什么样”;XPU 实现才是真正在 Intel XPU 上跑的 kernel。 3、 Python 侧只负责“接线”,因为性能表现 太垃圾 。 fused_ops.py 负责加载 .pyd 动态库、暴露 run_xxx_fused() 这类包装函数。ops.py 再把这些 fused op 接到模型真实的 forward 调用链上。 4、 构建链路依赖 oneAPI + PyTorch XPU( 最终还是脱离不了Intel官方提供的技术栈,因为这一部分实现比较完整,自己弄CPP太耗时间了,一个人做不了 ) build_gated_delta_fused_op.py 会调用 dpcpp 编译出 .pyd,再动态加载到 torch.ops.anna 命名空间。 5、 所有算子都要非常严格地检查输入的维度信息、dtype、device、是否 contiguous 以及 shape 是否匹配。自定义算子一旦吃到错误输入,往往不是普通报错中断,而是直接结果错乱,包括输出乱码、思维链循环、甚至直接不输出任何内容。 6、 项目里很多输入虽然是 bf16/fp16,但中间经常要用 float32。避免模型出现乱码、异常重复、输出不稳定的清空。 7、 对 MoE 来说,路由、dispatch、scatter、专家缓存、专家搬运,常常比矩阵乘本身更影响速度。所以项目里不仅做了 GEMM 算子,还做了 router、dispatch、scatter 这些算子。 8、 测试选用的 AutoRound 量化模型导出的 int4 权重格式,不等于项目内部适合 XPU 直接算的 int4 格式。因此还有一层转换来做兼容化。 结构是: gated_delta_fused_op.sycl - 真正写 XPU 核心计算逻辑的地方 。 fused_ops.py - Python 到自定义算子的桥接层 。 ops.py - 模型真正调用这些算子的地方 。 build_gated_delta_fused_op.py - 负责编译和注册自定义算子 。 用 NotebookLM 内的 Nanobanana 2 帮忙画的简图 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-17 01:35:41+08:00 · tech

之前说聊天体验接近2.5p 没说接近3.1p w 各种能力 特质之类的都差的很大的 今天分享一个小测 看到佬友发言(一级话题,游客就不要点啦~) 在另一个话题中 多大事 homeless 卡尔 术后72小时就开干了 (已化名处理ww 我在编辑界面看不到是否有效 当然也只在这里有效w) (发布之后又看了一下,看起来本来就不会再有名字了 头像我换成了system的hh) 害怕w 不过了解之后先说一下结论: 这句话是一个错误信息,卡尔出自《无耻之徒》 做了包皮手术之后 受挑逗boki 导致boom​ 了 然后我就去问了一下哈基米 先玩gemma4 第一轮高强度思考失败 后面提供了完整帖子内容 又试了好几轮 思考不思考都没用 还是完全搜不到 (其实他就完全不想再说,我看他思考过程没有搜索 坏!) 最后换3.1p一发入魂 然后我人肉搜索了一下: 也怪这位佬友,打错字了!ww 刚才手滑点到下面的了 莫名感觉挺合适(JBhh) 4 个帖子 - 2 位参与者 阅读完整话题