搬瓦工部署 Ollama 本地运行大语言模型

Ollama 是一个轻量级的本地大语言模型运行工具，支持 Llama 3、Qwen、Mistral、Gemma 等众多开源模型。通过 Ollama，你可以在搬瓦工 VPS 上私有化部署 AI 模型，无需依赖第三方 API，数据不离开自己的服务器。

一、方案要求与模型选择

运行大语言模型对内存要求较高，不同规模的模型需要不同配置：

模型规模	最低内存	推荐方案	代表模型
1B-3B 参数	2GB	1 核 2GB	qwen2.5:1.5b, llama3.2:1b
7B-8B 参数	6GB	2 核 8GB	llama3.1:8b, qwen2.5:7b
13B-14B 参数	12GB	4 核 16GB	qwen2.5:14b
70B 参数	48GB	不建议在 VPS 上运行	llama3.1:70b

搬瓦工 VPS 没有 GPU，所有推理都在 CPU 上进行，速度会比 GPU 慢很多。推荐使用 1B-8B 规模的量化模型，在可接受的速度下获得不错的效果。具体方案请参考搬瓦工全部在售方案。

二、安装 Ollama

2.1 一键安装

Ollama 提供了官方安装脚本，支持 Ubuntu、Debian、CentOS 等主流 Linux 发行版：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，Ollama 会自动注册为系统服务并启动。

2.2 验证安装

ollama --version
systemctl status ollama

2.3 Docker 方式安装（可选）

如果你更喜欢使用 Docker，也可以通过容器方式运行：

docker run -d --name ollama -p 11434:11434 -v ollama_data:/root/.ollama ollama/ollama

Docker 安装方法请参考 Docker 安装教程。

三、下载模型

Ollama 支持从官方模型库直接下载模型。以下是几个推荐的模型：

3.1 Llama 3.2（Meta 出品）

# 1B 参数版本，适合低配置 VPS
ollama pull llama3.2:1b

# 3B 参数版本，效果更好
ollama pull llama3.2:3b

3.2 Qwen 2.5（通义千问）

# 1.5B 参数版本
ollama pull qwen2.5:1.5b

# 7B 参数版本（需要 6GB+ 内存）
ollama pull qwen2.5:7b

Qwen 系列模型对中文支持优秀，如果你的应用场景以中文为主，优先推荐 Qwen。

3.3 其他常用模型

# Mistral 7B - 欧洲开源模型，英文能力强
ollama pull mistral:7b

# Gemma 2 - Google 出品
ollama pull gemma2:2b

# DeepSeek Coder - 编程专用模型
ollama pull deepseek-coder-v2:16b

3.4 查看已下载模型

ollama list

四、运行模型

4.1 交互式对话

ollama run qwen2.5:1.5b

进入交互模式后，直接输入问题即可获得回复。输入 /bye 退出对话。

4.2 单次推理

echo "请用一句话介绍搬瓦工VPS" | ollama run qwen2.5:1.5b

4.3 查看运行中的模型

ollama ps

模型加载到内存后会保持一段时间（默认 5 分钟），期间再次调用无需重新加载。

五、API 访问

Ollama 默认在 localhost:11434 提供兼容 OpenAI 格式的 REST API。

5.1 生成回复

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:1.5b",
  "prompt": "什么是VPS？",
  "stream": false
}'

5.2 聊天接口（兼容 OpenAI 格式）

curl http://localhost:11434/v1/chat/completions -d '{
  "model": "qwen2.5:1.5b",
  "messages": [
    {"role": "user", "content": "你好，请介绍一下你自己"}
  ]
}'

5.3 配置远程访问

默认情况下 Ollama 只监听 localhost。如果需要从外部访问 API（例如搭配 Dify 使用），需要修改监听地址：

nano /etc/systemd/system/ollama.service

在 [Service] 部分添加：

Environment="OLLAMA_HOST=0.0.0.0"

重载并重启服务：

systemctl daemon-reload
systemctl restart ollama

安全提示：开放远程访问后，请配置防火墙仅允许信任的 IP 访问 11434 端口，避免模型被他人滥用。

# 仅允许特定 IP 访问
ufw allow from 你的IP地址 to any port 11434

六、自定义模型

Ollama 支持通过 Modelfile 自定义模型的系统提示词和参数：

nano Modelfile

写入以下内容：

FROM qwen2.5:1.5b

SYSTEM """
你是一个专业的Linux运维助手，专注于VPS服务器管理相关问题。
请用简洁、专业的中文回答用户的问题。
"""

PARAMETER temperature 0.7
PARAMETER top_p 0.9

创建自定义模型：

ollama create my-assistant -f Modelfile

运行自定义模型：

ollama run my-assistant

七、性能优化

7.1 调整并发线程数

通过环境变量控制推理使用的 CPU 线程数：

Environment="OLLAMA_NUM_PARALLEL=2"

将此行添加到 ollama.service 文件中，线程数不要超过 VPS 的 CPU 核心数。

7.2 使用量化模型

量化模型体积更小、推理更快，但会有少量精度损失。Ollama 默认提供的模型大多已经是 Q4 量化版本，在 CPU 上运行性能较好。

7.3 添加 Swap 空间

如果内存不够用，可以添加 Swap 作为缓冲：

fallocate -l 4G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile none swap sw 0 0' >> /etc/fstab

注意 Swap 速度远低于内存，模型大量使用 Swap 时推理会非常慢。

八、搭配其他应用使用

Ollama 可以作为 LLM 后端搭配多种应用使用：

Dify：在 Dify 的模型供应商中配置 Ollama 地址，即可构建 AI 应用。详见 Dify 部署教程。
Open WebUI：一个类似 ChatGPT 的 Web 聊天界面，可直接连接 Ollama。
Continue：VS Code 插件，连接 Ollama 实现本地 AI 编程辅助。

九、常见问题

模型下载失败

检查网络连接和磁盘空间。模型文件通常有几个 GB，确保磁盘有足够空间。

推理速度很慢

CPU 推理本身较慢是正常的。建议使用更小的模型（如 1.5B 或 3B），或者使用更高配置的 VPS。

内存溢出（OOM Killed）

说明模型对内存需求超出了 VPS 的可用内存。选择更小的模型或升级 VPS 配置。

总结

Ollama 让在搬瓦工 VPS 上运行本地 AI 模型变得非常简单。虽然 CPU 推理速度不及 GPU，但对于轻量级应用、API 调用和实验性项目已经足够。购买搬瓦工 VPS 时使用优惠码 NODESEEK2026 享受折扣，更多教程请参考新手教程。