什么是 llama.cpp?

llama.cpp Github

llama.cpp 是一个高性能的 C/C++ 推理框架,最早由 Georgi Gerganov 创建,用来在 CPU 上运行 Meta Llama 模型。

llama.cpp 现在发展到了什么阶段?

现在它已经发展成:

  • 支持几乎所有 GGUF 模型
  • 支持 Metal / CUDA / Vulkan
  • 支持 Apple Silicon GPU
  • 支持量化模型
  • 支持 API Server
  • 支持 Embedding
  • 支持 Vision 模型
  • 支持多种 Agent 系统

它几乎已经成为:本地 AI 的“Docker”。

为什么大家都在用 llama.cpp?

因为它解决了一个核心问题:“普通电脑也能跑 AI 大模型”。

以前:

  • 需要 Linux
  • 需要 NVIDIA GPU
  • 需要几十 GB 显存

现在,MacBook Pro 就可以跑:

  • Qwen
  • DeepSeek
  • Llama
  • Mistral
  • Gemma

甚至还能跑:

  • AI Coding Agent
  • 本地 ChatGPT
  • RAG 系统
  • AI 工作流

安装 llama.cpp(Mac)

最简单的方法:使用 Homebrew

brew install llama.cpp

安装完成后:

llama-cli --help

如果能看到帮助信息,说明安装成功。

llama.cpp 常用命令

命令 作用
llama-cli 本地聊天
llama-server 启动 API Server
llama-bench 性能测试
llama-quantize 模型量化
llama-embedding embedding 生成

什么是 GGUF 模型?

llama.cpp 主要运行 .gguf 格式模型。GGUF 是目前本地 LLM 的标准格式之一。

优势:

  • 更小
  • 更快
  • 更适合本地推理
  • 支持量化

下载第一个模型

推荐:Qwen2.5-Coder 7B(Coding 很强)

下载地址文案:Qwen2.5-Coder GGUF

创建模型目录:

mkdir -p ~/models/qwen
cd ~/models/qwen

下载 GGUF 文件:

curl -L -o qwen2.5-coder-7b-q4.gguf \
https://huggingface.co/Qwen/Qwen2.5-Coder-7B-Instruct-GGUF/resolve/main/qwen2.5-coder-7b-instruct-q4_k_m.gguf

Q4_K_M 代表:

  • 4bit 量化
  • 内存更小
  • 推理更快
  • 很适合 Mac

运行第一个 AI 模型

llama-cli \
-m ~/models/qwen/qwen2.5-coder-7b-q4.gguf \
-c 4096

参数解释:

参数 作用
-m 模型路径
-c context 长度

Apple Silicon GPU 加速(重要)

如果你是 M1/M2/M3/M4,强烈建议 -ngl 999

llama-cli \
-m ~/models/qwen/qwen2.5-coder-7b-q4.gguf \
-c 4096 \
-ngl 999

这里 -ngl 表示尽量把模型层卸载到 GPU(Metal),速度会快很多。

启动 API Server(最重要)

llama.cpp 不只是聊天,还能:

  • 模拟 OpenAI API
  • 给其他 AI 工具调用
  • 做 Agent Backend
  • 做 AI SaaS

启动本地 API:

llama-server \
-m ~/models/qwen/qwen2.5-coder-7b-q4.gguf \
-c 4096 \
-ngl 999

默认监听:http://localhost:8080

OpenAI Compatible API:支持 /v1/chat/completions。很多工具可直接接入:Open WebUI、Hermes Agent、Claude Desktop MCP、LangChain、Open Interpreter、自己的网站。

测试 API:

curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
  "messages": [
    {
      "role": "user",
      "content": "hello"
    }
  ]
}'

给 llama.cpp 加 GUI

推荐 Open WebUI。

安装 Open WebUI:

docker run -d \
-p 3000:8080 \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main

打开:http://localhost:3000
连接:http://host.docker.internal:8080
即可连接本地 llama-server。

这样你会得到:

  • 类 ChatGPT UI
  • 多模型管理
  • 聊天记录
  • 文件上传
  • RAG
  • Agent
  • Tools
  • Function Calling

而且完全本地。

推荐模型(2026)

  • Coding:Qwen2.5-Coder 7B(适合 Node.js、Python、Next.js、Terraform、Kubernetes)
  • 更强 Coding:DeepSeek Coder V2 Lite(DeepSeek Coder GGUF)
  • 通用聊天:Llama 3、Gemma 2、Mistral

llama.cpp 能做什么?

很多 AI 产品底层是:llama.cpp → API Server → AI Agent → Web UI

例如:

  • AI 编程助手
  • AI 客服
  • AI 工作流
  • AI 自动营销
  • 本地知识库
  • 本地 RAG
  • 自动代码分析

最推荐的本地 AI 架构:

llama.cpp → llama-server → Open WebUI → Agent / MCP / RAG

这是目前成本最低、最灵活、可扩展性最高的本地 AI 方案之一。

总结

llama.cpp 已不仅仅是“跑模型工具”,它正在变成本地 AI 生态系统的基础设施。

如果你想搭建自己的 AI 系统、想本地运行模型、想做 AI Agent、想降低 API 成本、想做 AI SaaS,llama.cpp 几乎是必须学习的工具。

未来几年,本地 AI + Agent + RAG 会成为大量 AI 产品的基础,而 llama.cpp 就是这个生态的核心之一。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注