最近,llama.cpp 迎来了一次重要更新。对于喜欢在 Windows 上折腾本地 AI 大模型的用户来说,这次升级可以说是真正意义上的"降低门槛"——官方终于开始认真解决普通用户的上手难题了。


过去很多人第一次接触本地大模型,卡壳的地方往往不是模型本身,而是一堆令人头疼的环境问题:
很多新手教程还没看完,就已经被这些问题劝退了。
但现在情况不一样了。
在 llama.cpp 最新发布的 b9196 版本中,官方直接提供了多种 Windows 预编译包,大多数情况下真的可以做到:下载 → 解压 → 双击运行。对 Windows 本地 AI 用户来说,这绝对是个好消息。

llama.cpp 是目前最流行的本地 GGUF 模型推理框架之一,托管在官方 GitHub 上,以轻量、高效著称。

大家熟悉的主流本地模型,基本都可以通过 llama.cpp 直接运行,包括:
随着 GGUF 生态日趋成熟,越来越多的模型会在发布时同步推出 GGUF 量化版本,可直接拿来用。
llama.cpp 的核心优势在于:
轻量 · 跨平台 · 支持 GPU · 支持 CPU · 支持 GGUF
而且现在的功能已经远不止推理,还支持:
多模态 · 图片理解 · Vision 模型 · OpenAI 风格 API · 内置网页聊天界面
目前官方 Release 页面已直接提供以下预编译版本,按需下载即可:
根据你的显卡,选择对应版本:
直接下载 CUDA 版本,推荐优先选 CUDA 12.4,如果驱动较新也可以试试 CUDA 13.1。
适用显卡包括:RTX 3060 / 4060 / 4070 / 4080 / 4090 等主流 N 卡,基本都没问题。
现在终于不用完全依赖 ROCm 了。可以选择 HIP 或 Vulkan 版本,实测很多情况下 Vulkan 比 HIP 更稳定,建议优先尝试。
核显和 Arc 独显用户现在也有得玩了,可以选 SYCL 或 Vulkan 版本。性能虽然不及 N 卡,但跑 GGUF 小模型完全没问题。
以 gemma-4-31b-jang-crack-Q4_K_M.gguf 为例,启动方式非常简单。
进入 llama.cpp 目录后,执行:
llama-server.exe -m models\你的模型.gguf -ngl 999
其中 -ngl 999 表示尽量将模型全部加载到 GPU 显存,可获得最佳推理速度。
启动成功后,浏览器访问 http://127.0.0.1:8080 即可进入内置的网页聊天界面。
加载视觉模型需要两个文件:主模型文件 + mmproj 视觉投影文件,缺一不可。
目前支持最好的是:
中文视觉理解能力最强的开源模型之一,在以下场景中表现出色:

实测让它识别视频封面做点击率测试,准确率达到 100%,表现相当惊艳,实际能做的事情远不止这些。
启动多模态模型的命令:
llama-server.exe -m "models\主模型.gguf" --mmproj "models\mmproj视觉模型.gguf" -ngl 999
目前比较热门的无审查开源大模型,支持中文、日文和英语,非常适合角色扮演场景,社区活跃度高。
如需从原始权重自行转换为 GGUF 格式,步骤如下:
第一步,下载原始模型:
huggingface-cli download aifeifei798/llama3-8B-DarkIdol-2.3-Uncensored-32K --local-dir DarkIdol-HF --local-dir-use-symlinks False
第二步,用 llama.cpp 转换为 GGUF:
git clone https://github.com/ggerganov/llama.cpp
pip install -r requirements.txt
python convert_hf_to_gguf.py ../DarkIdol-HF --outtype f16 --outfile ../DarkIdol-F16.gguf
如需进一步量化为 Q4_K_M 格式以节省显存:
llama-quantize.exe ../DarkIdol-F16.gguf ../DarkIdol-Q4_K_M.gguf Q4_K_M

基于 Google 开源 Gemma 4 的社区越狱版,本地运行听话、高效,不会动不动就触发道德拒绝。主要亮点:
官方原版的主要问题是安全对齐层较厚,很多正常的技术探讨或创意场景容易被误拦。越狱版通过社区 abliteration 等技术移除了这部分限制,保留了绝大部分原始能力。

1、Hermes-3 【点击下载】
2、Qwen 越狱版 【点击下载】
3、DeepSeek 越狱版 【点击下载】
如果你同时下载了多个模型,每次手动输命令比较繁琐。可以用下面这个 BAT 脚本,实现菜单式一键切换启动。注意把脚本里的模型文件名和路径替换成你自己的。
cd /d C:\Users\LINGDU\Desktop\llama-b9196-bin-win-cuda-13.1-x64
if "%choice%"=="1" llama-server.exe -m "models\gemma-4-31b-jang-crack-Q4_K_M.gguf" -ngl 999
if "%choice%"=="2" llama-server.exe -m "models\Qwen2.5-VL-7B-Instruct-Q4_K_M.gguf" --mmproj "models\mmproj-BF16.gguf" -ngl 999
if "%choice%"=="3" llama-server.exe -m "models\deepseek.gguf" -ngl 999
将以上内容粘贴到记事本,另存为时编码选择 UTF-8,文件名后缀改为 .bat,双击运行即可看到选择菜单。

输入对应数字回车,即可启动相应模型。


