估计很多人不相信这是真的,一个非常大的误解,大多数人都会认为:35B 大模型 = 必须 24G 显存才能跑,但最近我实测发现,即使只有一张 RTX 3070 8G 显卡,只要搭配足够的内存,再通过 llama.cpp 的 CPU Offload 和 MoE 优化,居然真的可以跑起来 Qwen Qwen3.6-35B-A3B 模型。速度还非常快!

甚至:
这篇文章,就带大家完整实测与部署
本次测试平台:
CPU:i7-12700
GPU:RTX 3070 8GB
RAM:32G × 2
系统:Windows 11
推理框架:llama.cpp CUDA 12.4

这是这次测试最关键的地方。
Qwen3.6-35B-A3B:
35B 总参数
每次只激活约 3B
也就是说:并不是所有参数同时参与推理
因此:GPU 不需要一次性加载完整 35B ,再结合 llama.cpp 的:CPU Offload ;就能实现:GPU 跑注意力层、RAM 跑专家层。这也是:RTX3070 8G 成功运行 35B 的核心原因!
推荐下载:【Github下载】、【网盘下载】或 【整合包下载】

2、安装显卡驱动,比如 N卡选择 CUDA 13.1,如果是 A卡请自行升级到最新版即可
本次使用模型:Qwen3.6-35B-A3B-UD-Q4_K_M.gguf
量化格式:Q4_K_M
这是目前:
综合平衡最好的格式之一。
这里很多人会踩坑。
Qwen3.6 多模态模型:必须搭配 mmproj
否则:
例如:mmproj-BF16.gguf
下面是我最终稳定运行的配置:
cd /d C:\Users\LINGDU\Desktop\llama-b9196-bin-win-cuda-12.4-x64
-m "models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" ^
--mmproj "models\mmproj-BF16.gguf" ^
注意将上面的llama.cpp的存放路径改成你自己的,因为我是放在桌面上的,所以路径是:C:\Users\LINGDU\Desktop\llama-b9196-bin-win-cuda-12.4-x64 务必改成你自己的路径!
将上面的启动命令另存为启动.bat 批处理脚本,打开运行即可!

成功运行后在浏览器上访问本地的地址:127.0.0.1:8080 就可以正式使用!
