搬瓦工部署 Ollama 本地运行大语言模型
Ollama 是一个轻量级的本地大语言模型运行工具,支持 Llama 3、Qwen、Mistral、Gemma 等众多开源模型。通过 Ollama,你可以在搬瓦工 VPS 上私有化部署 AI 模型,无需依赖第三方 API,数据不离开自己的服务器。
一、方案要求与模型选择
运行大语言模型对内存要求较高,不同规模的模型需要不同配置:
| 模型规模 | 最低内存 | 推荐方案 | 代表模型 |
|---|---|---|---|
| 1B-3B 参数 | 2GB | 1 核 2GB | qwen2.5:1.5b, llama3.2:1b |
| 7B-8B 参数 | 6GB | 2 核 8GB | llama3.1:8b, qwen2.5:7b |
| 13B-14B 参数 | 12GB | 4 核 16GB | qwen2.5:14b |
| 70B 参数 | 48GB | 不建议在 VPS 上运行 | llama3.1:70b |
搬瓦工 VPS 没有 GPU,所有推理都在 CPU 上进行,速度会比 GPU 慢很多。推荐使用 1B-8B 规模的量化模型,在可接受的速度下获得不错的效果。具体方案请参考 搬瓦工全部在售方案。
二、安装 Ollama
2.1 一键安装
Ollama 提供了官方安装脚本,支持 Ubuntu、Debian、CentOS 等主流 Linux 发行版:
curl -fsSL https://ollama.com/install.sh | sh
安装完成后,Ollama 会自动注册为系统服务并启动。
2.2 验证安装
ollama --version
systemctl status ollama
2.3 Docker 方式安装(可选)
如果你更喜欢使用 Docker,也可以通过容器方式运行:
docker run -d --name ollama -p 11434:11434 -v ollama_data:/root/.ollama ollama/ollama
Docker 安装方法请参考 Docker 安装教程。
三、下载模型
Ollama 支持从官方模型库直接下载模型。以下是几个推荐的模型:
3.1 Llama 3.2(Meta 出品)
# 1B 参数版本,适合低配置 VPS
ollama pull llama3.2:1b
# 3B 参数版本,效果更好
ollama pull llama3.2:3b
3.2 Qwen 2.5(通义千问)
# 1.5B 参数版本
ollama pull qwen2.5:1.5b
# 7B 参数版本(需要 6GB+ 内存)
ollama pull qwen2.5:7b
Qwen 系列模型对中文支持优秀,如果你的应用场景以中文为主,优先推荐 Qwen。
3.3 其他常用模型
# Mistral 7B - 欧洲开源模型,英文能力强
ollama pull mistral:7b
# Gemma 2 - Google 出品
ollama pull gemma2:2b
# DeepSeek Coder - 编程专用模型
ollama pull deepseek-coder-v2:16b
3.4 查看已下载模型
ollama list
四、运行模型
4.1 交互式对话
ollama run qwen2.5:1.5b
进入交互模式后,直接输入问题即可获得回复。输入 /bye 退出对话。
4.2 单次推理
echo "请用一句话介绍搬瓦工VPS" | ollama run qwen2.5:1.5b
4.3 查看运行中的模型
ollama ps
模型加载到内存后会保持一段时间(默认 5 分钟),期间再次调用无需重新加载。
五、API 访问
Ollama 默认在 localhost:11434 提供兼容 OpenAI 格式的 REST API。
5.1 生成回复
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5:1.5b",
"prompt": "什么是VPS?",
"stream": false
}'
5.2 聊天接口(兼容 OpenAI 格式)
curl http://localhost:11434/v1/chat/completions -d '{
"model": "qwen2.5:1.5b",
"messages": [
{"role": "user", "content": "你好,请介绍一下你自己"}
]
}'
5.3 配置远程访问
默认情况下 Ollama 只监听 localhost。如果需要从外部访问 API(例如搭配 Dify 使用),需要修改监听地址:
nano /etc/systemd/system/ollama.service
在 [Service] 部分添加:
Environment="OLLAMA_HOST=0.0.0.0"
重载并重启服务:
systemctl daemon-reload
systemctl restart ollama
安全提示:开放远程访问后,请配置防火墙仅允许信任的 IP 访问 11434 端口,避免模型被他人滥用。
# 仅允许特定 IP 访问
ufw allow from 你的IP地址 to any port 11434
六、自定义模型
Ollama 支持通过 Modelfile 自定义模型的系统提示词和参数:
nano Modelfile
写入以下内容:
FROM qwen2.5:1.5b
SYSTEM """
你是一个专业的Linux运维助手,专注于VPS服务器管理相关问题。
请用简洁、专业的中文回答用户的问题。
"""
PARAMETER temperature 0.7
PARAMETER top_p 0.9
创建自定义模型:
ollama create my-assistant -f Modelfile
运行自定义模型:
ollama run my-assistant
七、性能优化
7.1 调整并发线程数
通过环境变量控制推理使用的 CPU 线程数:
Environment="OLLAMA_NUM_PARALLEL=2"
将此行添加到 ollama.service 文件中,线程数不要超过 VPS 的 CPU 核心数。
7.2 使用量化模型
量化模型体积更小、推理更快,但会有少量精度损失。Ollama 默认提供的模型大多已经是 Q4 量化版本,在 CPU 上运行性能较好。
7.3 添加 Swap 空间
如果内存不够用,可以添加 Swap 作为缓冲:
fallocate -l 4G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile none swap sw 0 0' >> /etc/fstab
注意 Swap 速度远低于内存,模型大量使用 Swap 时推理会非常慢。
八、搭配其他应用使用
Ollama 可以作为 LLM 后端搭配多种应用使用:
- Dify:在 Dify 的模型供应商中配置 Ollama 地址,即可构建 AI 应用。详见 Dify 部署教程。
- Open WebUI:一个类似 ChatGPT 的 Web 聊天界面,可直接连接 Ollama。
- Continue:VS Code 插件,连接 Ollama 实现本地 AI 编程辅助。
九、常见问题
模型下载失败
检查网络连接和磁盘空间。模型文件通常有几个 GB,确保磁盘有足够空间。
推理速度很慢
CPU 推理本身较慢是正常的。建议使用更小的模型(如 1.5B 或 3B),或者使用更高配置的 VPS。
内存溢出(OOM Killed)
说明模型对内存需求超出了 VPS 的可用内存。选择更小的模型或升级 VPS 配置。
总结
Ollama 让在搬瓦工 VPS 上运行本地 AI 模型变得非常简单。虽然 CPU 推理速度不及 GPU,但对于轻量级应用、API 调用和实验性项目已经足够。购买搬瓦工 VPS 时使用优惠码 NODESEEK2026 享受折扣,更多教程请参考 新手教程。