什么是 llama.cpp？

llama.cpp Github

llama.cpp 是一个高性能的 C/C++ 推理框架，最早由 Georgi Gerganov 创建，用来在 CPU 上运行 Meta Llama 模型。

llama.cpp 现在发展到了什么阶段？

现在它已经发展成：

支持几乎所有 GGUF 模型
支持 Metal / CUDA / Vulkan
支持 Apple Silicon GPU
支持量化模型
支持 API Server
支持 Embedding
支持 Vision 模型
支持多种 Agent 系统

它几乎已经成为：本地 AI 的“Docker”。

为什么大家都在用 llama.cpp？

因为它解决了一个核心问题：“普通电脑也能跑 AI 大模型”。

以前：

需要 Linux
需要 NVIDIA GPU
需要几十 GB 显存

现在，MacBook Pro 就可以跑：

Qwen
DeepSeek
Llama
Mistral
Gemma

甚至还能跑：

AI Coding Agent
本地 ChatGPT
RAG 系统
AI 工作流

安装 llama.cpp（Mac）

最简单的方法：使用 Homebrew

brew install llama.cpp

安装完成后：

llama-cli --help

如果能看到帮助信息，说明安装成功。

llama.cpp 常用命令

命令	作用
llama-cli	本地聊天
llama-server	启动 API Server
llama-bench	性能测试
llama-quantize	模型量化
llama-embedding	embedding 生成

什么是 GGUF 模型？

llama.cpp 主要运行 .gguf 格式模型。GGUF 是目前本地 LLM 的标准格式之一。

优势：

更小
更快
更适合本地推理
支持量化

下载第一个模型

推荐：Qwen2.5-Coder 7B（Coding 很强）

下载地址文案：Qwen2.5-Coder GGUF

创建模型目录：

mkdir -p ~/models/qwen
cd ~/models/qwen

下载 GGUF 文件：

curl -L -o qwen2.5-coder-7b-q4.gguf \
https://huggingface.co/Qwen/Qwen2.5-Coder-7B-Instruct-GGUF/resolve/main/qwen2.5-coder-7b-instruct-q4_k_m.gguf

Q4_K_M 代表：

4bit 量化
内存更小
推理更快
很适合 Mac

运行第一个 AI 模型

llama-cli \
-m ~/models/qwen/qwen2.5-coder-7b-q4.gguf \
-c 4096

参数解释：

参数	作用
-m	模型路径
-c	context 长度

Apple Silicon GPU 加速（重要）

如果你是 M1/M2/M3/M4，强烈建议 -ngl 999。

llama-cli \
-m ~/models/qwen/qwen2.5-coder-7b-q4.gguf \
-c 4096 \
-ngl 999

这里 -ngl 表示尽量把模型层卸载到 GPU（Metal），速度会快很多。

启动 API Server（最重要）

llama.cpp 不只是聊天，还能：

模拟 OpenAI API
给其他 AI 工具调用
做 Agent Backend
做 AI SaaS

启动本地 API：

llama-server \
-m ~/models/qwen/qwen2.5-coder-7b-q4.gguf \
-c 4096 \
-ngl 999

默认监听：http://localhost:8080

OpenAI Compatible API：支持 /v1/chat/completions。很多工具可直接接入：Open WebUI、Hermes Agent、Claude Desktop MCP、LangChain、Open Interpreter、自己的网站。

测试 API：

curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
  "messages": [
    {
      "role": "user",
      "content": "hello"
    }
  ]
}'

给 llama.cpp 加 GUI

llama.cpp 能做什么？

很多 AI 产品底层是：llama.cpp → API Server → AI Agent → Web UI

例如：

AI 编程助手
AI 客服
AI 工作流
AI 自动营销
本地知识库
本地 RAG
自动代码分析

最推荐的本地 AI 架构：

llama.cpp → llama-server → Open WebUI → Agent / MCP / RAG

这是目前成本最低、最灵活、可扩展性最高的本地 AI 方案之一。

总结

llama.cpp 已不仅仅是“跑模型工具”，它正在变成本地 AI 生态系统的基础设施。

如果你想搭建自己的 AI 系统、想本地运行模型、想做 AI Agent、想降低 API 成本、想做 AI SaaS，llama.cpp 几乎是必须学习的工具。

未来几年，本地 AI + Agent + RAG 会成为大量 AI 产品的基础，而 llama.cpp 就是这个生态的核心之一。

llama.cpp 现在发展到了什么阶段？

为什么大家都在用 llama.cpp？

安装 llama.cpp（Mac）

llama.cpp 常用命令

什么是 GGUF 模型？

下载第一个模型

运行第一个 AI 模型

Apple Silicon GPU 加速（重要）

启动 API Server（最重要）

给 llama.cpp 加 GUI

推荐模型（2026）

llama.cpp 能做什么？

总结

发表评论取消回复

llama.cpp 现在发展到了什么阶段？

为什么大家都在用 llama.cpp？

安装 llama.cpp（Mac）

llama.cpp 常用命令

什么是 GGUF 模型？

下载第一个模型

运行第一个 AI 模型

Apple Silicon GPU 加速（重要）

启动 API Server（最重要）

给 llama.cpp 加 GUI

推荐模型（2026）

llama.cpp 能做什么？

总结

发表评论 取消回复

发表评论取消回复