Ollama安装配置指南 - Linux环境下的本地大模型部署
Ollama的基本安装
ollama安装包的手动处理
这里我们不使用官方脚本自动化安装,使用二进制包手动处理; 这里以部署到linux上为例;
如果你没有很好的GPU,就不要尝试了,根本运行不起来。
curl -LO https://ollama.com/download/ollama-linux-amd64.tgz
sudo rm -rf /usr/lib/ollama
sudo tar -C /usr -xzf ollama-linux-amd64.tgz
然后测试运行,看看会不会报错:
ollama serve
ollama -v
允许当前用户直接调用ollama程序(本质是当前用户加入了ollama用户组)
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama
sudo usermod -a -G ollama $(whoami)
处理systemd,一般建议用systemd维护启停
vim /etc/systemd/system/ollama.service
编写内容如下(如果不想暴漏服务,就修改OLLAMA_HOST=0.0.0.0:11434为127.0.0.1:11434):
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=$PATH"
Environment="OLLAMA_HOST=0.0.0.0:11434"
[Install]
WantedBy=multi-user.target
启动ollama服务并测试是否启动
#刷新systemd的缓存
sudo systemctl daemon-reload
# 重启服务
sudo systemctl restart ollama
# 测试进程状态
sudo systemctl status ollama
# 如果不需要开机自启,不需要这句命令
sudo systemctl enable ollama
离线导入模型
因为国内的特殊环境,导致我们最好离线导入模型
从魔塔上下载gguf文件,按照自己的喜好,这里以qwen3为例,最好下载带instruct的微调版本
将下载好的gguf文件放到linux服务器的某个目录里,在模型目录创建 Modelfile 文件,内容如下(我们先不加其他的模型参数,先直接导入):
一定要加如下的默认提示词,不然效果很差
FROM ./xxx.gguf
# 模板:Llama-3.1 Instruct 格式
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>
{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>
{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>
{{ .Response }}<|eot_id|>"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
PARAMETER stop "<|reserved_special_token"
# 系统提示
SYSTEM """You are a helpful assistant. Respond in Chinese if the query is in Chinese."""
# 参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
执行导入:
ollama create qwen3-xxx -f ./Modelfile
ollama list
# 然后就可以看到qwen3-xxx导入的离线模型
模型运维
ollama list # 列出模型
ollama ps # 查看模型的使用情况
ollama stop 模型名 # 停止某个模型
ollama rm 模型名 # 删除某个模型
测试运行
有2个程序可使用,一个轻量级一个重量级,分别是:
这里推荐清凉级,下载完毕后,可以在本地运行,或者服务器上都可以。
npm ci
npm run dev
如果需要该端口,直接修改package.json文件即可
然后在启动的web程序里,找到设置,设置为127.0.0.1:11434 的 ollama的api,根据情况的api进行设置。
最后,就可以直接跟大模型对话了。