搬瓦工部署 Ollama 本地运行大语言模型

Ollama 是一个轻量级的本地大语言模型运行工具,支持 Llama 3、Qwen、Mistral、Gemma 等众多开源模型。通过 Ollama,你可以在搬瓦工 VPS 上私有化部署 AI 模型,无需依赖第三方 API,数据不离开自己的服务器。

一、方案要求与模型选择

运行大语言模型对内存要求较高,不同规模的模型需要不同配置:

模型规模最低内存推荐方案代表模型
1B-3B 参数2GB1 核 2GBqwen2.5:1.5b, llama3.2:1b
7B-8B 参数6GB2 核 8GBllama3.1:8b, qwen2.5:7b
13B-14B 参数12GB4 核 16GBqwen2.5:14b
70B 参数48GB不建议在 VPS 上运行llama3.1:70b

搬瓦工 VPS 没有 GPU,所有推理都在 CPU 上进行,速度会比 GPU 慢很多。推荐使用 1B-8B 规模的量化模型,在可接受的速度下获得不错的效果。具体方案请参考 搬瓦工全部在售方案

二、安装 Ollama

2.1 一键安装

Ollama 提供了官方安装脚本,支持 Ubuntu、Debian、CentOS 等主流 Linux 发行版:

curl -fsSL https://ollama.com/install.sh | sh

安装完成后,Ollama 会自动注册为系统服务并启动。

2.2 验证安装

ollama --version
systemctl status ollama

2.3 Docker 方式安装(可选)

如果你更喜欢使用 Docker,也可以通过容器方式运行:

docker run -d --name ollama -p 11434:11434 -v ollama_data:/root/.ollama ollama/ollama

Docker 安装方法请参考 Docker 安装教程

三、下载模型

Ollama 支持从官方模型库直接下载模型。以下是几个推荐的模型:

3.1 Llama 3.2(Meta 出品)

# 1B 参数版本,适合低配置 VPS
ollama pull llama3.2:1b

# 3B 参数版本,效果更好
ollama pull llama3.2:3b

3.2 Qwen 2.5(通义千问)

# 1.5B 参数版本
ollama pull qwen2.5:1.5b

# 7B 参数版本(需要 6GB+ 内存)
ollama pull qwen2.5:7b

Qwen 系列模型对中文支持优秀,如果你的应用场景以中文为主,优先推荐 Qwen。

3.3 其他常用模型

# Mistral 7B - 欧洲开源模型,英文能力强
ollama pull mistral:7b

# Gemma 2 - Google 出品
ollama pull gemma2:2b

# DeepSeek Coder - 编程专用模型
ollama pull deepseek-coder-v2:16b

3.4 查看已下载模型

ollama list

四、运行模型

4.1 交互式对话

ollama run qwen2.5:1.5b

进入交互模式后,直接输入问题即可获得回复。输入 /bye 退出对话。

4.2 单次推理

echo "请用一句话介绍搬瓦工VPS" | ollama run qwen2.5:1.5b

4.3 查看运行中的模型

ollama ps

模型加载到内存后会保持一段时间(默认 5 分钟),期间再次调用无需重新加载。

五、API 访问

Ollama 默认在 localhost:11434 提供兼容 OpenAI 格式的 REST API。

5.1 生成回复

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:1.5b",
  "prompt": "什么是VPS?",
  "stream": false
}'

5.2 聊天接口(兼容 OpenAI 格式)

curl http://localhost:11434/v1/chat/completions -d '{
  "model": "qwen2.5:1.5b",
  "messages": [
    {"role": "user", "content": "你好,请介绍一下你自己"}
  ]
}'

5.3 配置远程访问

默认情况下 Ollama 只监听 localhost。如果需要从外部访问 API(例如搭配 Dify 使用),需要修改监听地址:

nano /etc/systemd/system/ollama.service

[Service] 部分添加:

Environment="OLLAMA_HOST=0.0.0.0"

重载并重启服务:

systemctl daemon-reload
systemctl restart ollama

安全提示:开放远程访问后,请配置防火墙仅允许信任的 IP 访问 11434 端口,避免模型被他人滥用。

# 仅允许特定 IP 访问
ufw allow from 你的IP地址 to any port 11434

六、自定义模型

Ollama 支持通过 Modelfile 自定义模型的系统提示词和参数:

nano Modelfile

写入以下内容:

FROM qwen2.5:1.5b

SYSTEM """
你是一个专业的Linux运维助手,专注于VPS服务器管理相关问题。
请用简洁、专业的中文回答用户的问题。
"""

PARAMETER temperature 0.7
PARAMETER top_p 0.9

创建自定义模型:

ollama create my-assistant -f Modelfile

运行自定义模型:

ollama run my-assistant

七、性能优化

7.1 调整并发线程数

通过环境变量控制推理使用的 CPU 线程数:

Environment="OLLAMA_NUM_PARALLEL=2"

将此行添加到 ollama.service 文件中,线程数不要超过 VPS 的 CPU 核心数。

7.2 使用量化模型

量化模型体积更小、推理更快,但会有少量精度损失。Ollama 默认提供的模型大多已经是 Q4 量化版本,在 CPU 上运行性能较好。

7.3 添加 Swap 空间

如果内存不够用,可以添加 Swap 作为缓冲:

fallocate -l 4G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile none swap sw 0 0' >> /etc/fstab

注意 Swap 速度远低于内存,模型大量使用 Swap 时推理会非常慢。

八、搭配其他应用使用

Ollama 可以作为 LLM 后端搭配多种应用使用:

  • Dify:在 Dify 的模型供应商中配置 Ollama 地址,即可构建 AI 应用。详见 Dify 部署教程
  • Open WebUI:一个类似 ChatGPT 的 Web 聊天界面,可直接连接 Ollama。
  • Continue:VS Code 插件,连接 Ollama 实现本地 AI 编程辅助。

九、常见问题

模型下载失败

检查网络连接和磁盘空间。模型文件通常有几个 GB,确保磁盘有足够空间。

推理速度很慢

CPU 推理本身较慢是正常的。建议使用更小的模型(如 1.5B 或 3B),或者使用更高配置的 VPS。

内存溢出(OOM Killed)

说明模型对内存需求超出了 VPS 的可用内存。选择更小的模型或升级 VPS 配置。

总结

Ollama 让在搬瓦工 VPS 上运行本地 AI 模型变得非常简单。虽然 CPU 推理速度不及 GPU,但对于轻量级应用、API 调用和实验性项目已经足够。购买搬瓦工 VPS 时使用优惠码 NODESEEK2026 享受折扣,更多教程请参考 新手教程

关于本站

搬瓦工VPS中文网(bwgvps.com)是非官方中文信息站,整理搬瓦工的方案、优惠和教程。我们不销售主机,不提供技术服务。

新手必读
搬瓦工优惠码

NODESEEK2026(优惠 6.77%)

购买时填入即可抵扣。