有团队将智谱GLM-5从1.65TB压缩到241GB 256GB(内存+显存)即可在本地跑模型

推广

#人工智能有团队将智谱 GLM-5 模型从 1.65TB 压缩到 241GB，只需要 256GB 总内存 (内存 + 显存总和) 即可在本地跑模型。可选硬件组合包括 256GB 统一内存的 Mac 设备，或者 24GB 显存 GPU+256GB 内存的 PC，如果要跑动态 8 位版则需要 1TB 内存的顶级工作站，有兴趣的大佬可以试试。查看全文：https://ourl.co/111838

智谱早前发布并开源新旗舰模型 GLM-5，该模型在编码、智能体和聊天方面的表现都非常出色，并且 GLM-5 提供更大的上下文窗口可以进行内容推理。

得益于开源的优势，人工智能团队 Unsloth AI 与智谱合作对模型进行转换，该团队使用动态 2 位 GGUF 模型将 GLM-5 从 1.65TB 压缩到 241GB，动态 1 位则压缩到 176GB。

完整版的 GLM-5 包含高达 744B 参数 (采用 MoE 混合专家架构活跃参数为 40B)，上下文窗口为 200K，模型通过 28.5 万亿个 token 上进行训练，完整版的 GLM-5 就需要 1.65TB 磁盘空间。

经过转化后的模型能做什么呢？答案是可以在内存或显存超大的本地设备上运行，Unsloth AI 称开发者可以在拥有 256GB 统一内存的 Mac 设备上运行该模型。

概念拆解：存储、内存与显存

存储即硬盘空间，这是用来当作模型仓库使用的，也就是需要至少 241GB 硬盘空间

内存主要用来临时存储数据，当模型运行时数据会从硬盘加载到内存里随时调用

显存主要是用来计算的，这也是模型实际运行时需要的最基础的硬件资源

GLM-5 压缩版实际需要的运行方案：

方案 1：使用统一内存的 Mac 设备要求：统一内存至少为 256GB

方案 2：使用 24GB 显存的显卡 + 256GB 内存，普通 PC

方案 3：如果只有 128GB 内存，由于内存不足会频繁触发硬盘交换，导致推理速度呈断崖式下跌，失去交互式的实用价值。

所以这个团队推荐的最佳配置是：

如果跑动态 2 位版 (241GB)：至少需要 256GB 的总内存 (内存 + 显存)

如果跑动态 1 位版 (180GB)：至少需要 192GB 的总内存 (内存 + 显存)

如果跑动态 8 位版 (805GB)：那你需要使用拥有 1TB 内存的顶级工作站

部署指南：https://unsloth.ai/docs/models/glm-5