llama.cpp Github
llama.cpp 是一个高性能的 C/C++ 推理框架,最早由 Georgi Gerganov 创建,用来在 CPU 上运行 Meta Llama 模型。
llama.cpp 现在发展到了什么阶段?
现在它已经发展成:
- 支持几乎所有 GGUF 模型
- 支持 Metal / CUDA / Vulkan
- 支持 Apple Silicon GPU
- 支持量化模型
- 支持 API Server
- 支持 Embedding
- 支持 Vision 模型
- 支持多种 Agent 系统
它几乎已经成为:本地 AI 的“Docker”。
为什么大家都在用 llama.cpp?
因为它解决了一个核心问题:“普通电脑也能跑 AI 大模型”。
以前:
- 需要 Linux
- 需要 NVIDIA GPU
- 需要几十 GB 显存
现在,MacBook Pro 就可以跑:
- Qwen
- DeepSeek
- Llama
- Mistral
- Gemma
甚至还能跑:
- AI Coding Agent
- 本地 ChatGPT
- RAG 系统
- AI 工作流
安装 llama.cpp(Mac)
最简单的方法:使用 Homebrew
brew install llama.cpp
安装完成后:
llama-cli --help
如果能看到帮助信息,说明安装成功。
llama.cpp 常用命令
| 命令 | 作用 |
|---|---|
| llama-cli | 本地聊天 |
| llama-server | 启动 API Server |
| llama-bench | 性能测试 |
| llama-quantize | 模型量化 |
| llama-embedding | embedding 生成 |
什么是 GGUF 模型?
llama.cpp 主要运行 .gguf 格式模型。GGUF 是目前本地 LLM 的标准格式之一。
优势:
- 更小
- 更快
- 更适合本地推理
- 支持量化
下载第一个模型
推荐:Qwen2.5-Coder 7B(Coding 很强)
下载地址文案:Qwen2.5-Coder GGUF
创建模型目录:
mkdir -p ~/models/qwen
cd ~/models/qwen
下载 GGUF 文件:
curl -L -o qwen2.5-coder-7b-q4.gguf \
https://huggingface.co/Qwen/Qwen2.5-Coder-7B-Instruct-GGUF/resolve/main/qwen2.5-coder-7b-instruct-q4_k_m.gguf
Q4_K_M 代表:
- 4bit 量化
- 内存更小
- 推理更快
- 很适合 Mac
运行第一个 AI 模型
llama-cli \
-m ~/models/qwen/qwen2.5-coder-7b-q4.gguf \
-c 4096
参数解释:
| 参数 | 作用 |
|---|---|
| -m | 模型路径 |
| -c | context 长度 |
Apple Silicon GPU 加速(重要)
如果你是 M1/M2/M3/M4,强烈建议 -ngl 999。
llama-cli \
-m ~/models/qwen/qwen2.5-coder-7b-q4.gguf \
-c 4096 \
-ngl 999
这里 -ngl 表示尽量把模型层卸载到 GPU(Metal),速度会快很多。
启动 API Server(最重要)
llama.cpp 不只是聊天,还能:
- 模拟 OpenAI API
- 给其他 AI 工具调用
- 做 Agent Backend
- 做 AI SaaS
启动本地 API:
llama-server \
-m ~/models/qwen/qwen2.5-coder-7b-q4.gguf \
-c 4096 \
-ngl 999
默认监听:http://localhost:8080
OpenAI Compatible API:支持 /v1/chat/completions。很多工具可直接接入:Open WebUI、Hermes Agent、Claude Desktop MCP、LangChain、Open Interpreter、自己的网站。
测试 API:
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"messages": [
{
"role": "user",
"content": "hello"
}
]
}'
给 llama.cpp 加 GUI
推荐 Open WebUI。
安装 Open WebUI:
docker run -d \
-p 3000:8080 \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
打开:http://localhost:3000
连接:http://host.docker.internal:8080
即可连接本地 llama-server。
这样你会得到:
- 类 ChatGPT UI
- 多模型管理
- 聊天记录
- 文件上传
- RAG
- Agent
- Tools
- Function Calling
而且完全本地。
推荐模型(2026)
- Coding:Qwen2.5-Coder 7B(适合 Node.js、Python、Next.js、Terraform、Kubernetes)
- 更强 Coding:DeepSeek Coder V2 Lite(DeepSeek Coder GGUF)
- 通用聊天:Llama 3、Gemma 2、Mistral
llama.cpp 能做什么?
很多 AI 产品底层是:llama.cpp → API Server → AI Agent → Web UI
例如:
- AI 编程助手
- AI 客服
- AI 工作流
- AI 自动营销
- 本地知识库
- 本地 RAG
- 自动代码分析
最推荐的本地 AI 架构:
llama.cpp → llama-server → Open WebUI → Agent / MCP / RAG
这是目前成本最低、最灵活、可扩展性最高的本地 AI 方案之一。
总结
llama.cpp 已不仅仅是“跑模型工具”,它正在变成本地 AI 生态系统的基础设施。
如果你想搭建自己的 AI 系统、想本地运行模型、想做 AI Agent、想降低 API 成本、想做 AI SaaS,llama.cpp 几乎是必须学习的工具。
未来几年,本地 AI + Agent + RAG 会成为大量 AI 产品的基础,而 llama.cpp 就是这个生态的核心之一。