有团队将智谱GLM-5从1.65TB压缩到241GB 256GB(内存+显存)即可在本地跑模型
嗯,用户让我帮忙总结一下这篇文章的内容,控制在一百个字以内,而且不需要用“文章内容总结”这样的开头。首先,我需要仔细阅读文章,理解其主要内容。 文章主要讲的是一个团队将智谱GLM-5模型从1.65TB压缩到了241GB,这样只需要256GB的总内存就可以在本地运行了。他们提到了几种硬件配置,比如Mac设备和PC的组合,还有动态8位版需要顶级工作站的情况。此外,文章还解释了存储、内存和显存的区别,并给出了运行方案和推荐配置。 接下来,我需要把这些信息浓缩到100字以内。重点包括模型压缩、内存需求、硬件配置以及运行方案。同时,要避免使用任何开头的固定格式,直接描述内容。 可能会遇到的问题是如何在有限的字数内涵盖所有关键点而不遗漏重要信息。比如,压缩后的大小、内存需求、推荐配置等都是必须包含的内容。 最后,确保语言简洁明了,符合用户的要求。 </think> 团队将智谱 GLM-5 模型从 1.65TB 压缩至 241GB,可在 256GB 总内存设备上本地运行。支持 Mac 或 PC 硬件组合,动态 8 位版需顶级工作站。 2026-2-13 05:50:31 Author: www.landiannews.com(查看原文) 阅读量:3 收藏

推广

推广

#人工智能 有团队将智谱 GLM-5 模型从 1.65TB 压缩到 241GB,只需要 256GB 总内存 (内存 + 显存总和) 即可在本地跑模型。可选硬件组合包括 256GB 统一内存的 Mac 设备,或者 24GB 显存 GPU+256GB 内存的 PC,如果要跑动态 8 位版则需要 1TB 内存的顶级工作站,有兴趣的大佬可以试试。查看全文:https://ourl.co/111838

有团队将智谱GLM-5从1.65TB压缩到241GB 256GB(内存+显存)即可在本地跑模型

智谱早前发布并开源新旗舰模型 GLM-5,该模型在编码、智能体和聊天方面的表现都非常出色,并且 GLM-5 提供更大的上下文窗口可以进行内容推理。

得益于开源的优势,人工智能团队 Unsloth AI 与智谱合作对模型进行转换,该团队使用动态 2 位 GGUF 模型将 GLM-5 从 1.65TB 压缩到 241GB,动态 1 位则压缩到 176GB。

完整版的 GLM-5 包含高达 744B 参数 (采用 MoE 混合专家架构活跃参数为 40B),上下文窗口为 200K,模型通过 28.5 万亿个 token 上进行训练,完整版的 GLM-5 就需要 1.65TB 磁盘空间。

经过转化后的模型能做什么呢?答案是可以在内存或显存超大的本地设备上运行,Unsloth AI 称开发者可以在拥有 256GB 统一内存的 Mac 设备上运行该模型。

有团队将智谱GLM-5从1.65TB压缩到241GB 256GB(内存+显存)即可在本地跑模型

概念拆解:存储、内存与显存

存储即硬盘空间,这是用来当作模型仓库使用的,也就是需要至少 241GB 硬盘空间

内存主要用来临时存储数据,当模型运行时数据会从硬盘加载到内存里随时调用

显存主要是用来计算的,这也是模型实际运行时需要的最基础的硬件资源

GLM-5 压缩版实际需要的运行方案:

方案 1:使用统一内存的 Mac 设备 要求:统一内存至少为 256GB

方案 2:使用 24GB 显存的显卡 + 256GB 内存,普通 PC

方案 3:如果只有 128GB 内存,由于内存不足会频繁触发硬盘交换,导致推理速度呈断崖式下跌,失去交互式的实用价值。

所以这个团队推荐的最佳配置是:

如果跑动态 2 位版 (241GB):至少需要 256GB 的总内存 (内存 + 显存)

如果跑动态 1 位版 (180GB):至少需要 192GB 的总内存 (内存 + 显存)

如果跑动态 8 位版 (805GB):那你需要使用拥有 1TB 内存的顶级工作站

部署指南:https://unsloth.ai/docs/models/glm-5


文章来源: https://www.landiannews.com/archives/111838.html
如有侵权请联系:admin#unsafe.sh