Ollama安装配置指南 - Linux环境下的本地大模型部署

Ollama的基本安装

ollama安装包的手动处理

这里我们不使用官方脚本自动化安装，使用二进制包手动处理; 这里以部署到linux上为例；

如果你没有很好的GPU，就不要尝试了，根本运行不起来。

curl -LO https://ollama.com/download/ollama-linux-amd64.tgz
sudo rm -rf /usr/lib/ollama
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

然后测试运行，看看会不会报错：

ollama serve
ollama -v

允许当前用户直接调用ollama程序(本质是当前用户加入了ollama用户组)

sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama
sudo usermod -a -G ollama $(whoami)

处理systemd，一般建议用systemd维护启停

vim /etc/systemd/system/ollama.service

编写内容如下(如果不想暴漏服务，就修改OLLAMA_HOST=0.0.0.0:11434为127.0.0.1:11434)：

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=$PATH"
Environment="OLLAMA_HOST=0.0.0.0:11434"

[Install]
WantedBy=multi-user.target

启动ollama服务并测试是否启动

#刷新systemd的缓存
sudo systemctl daemon-reload
# 重启服务
sudo systemctl restart ollama

# 测试进程状态
sudo systemctl status ollama

# 如果不需要开机自启，不需要这句命令
sudo systemctl enable ollama

离线导入模型

因为国内的特殊环境，导致我们最好离线导入模型
从魔塔上下载gguf文件，按照自己的喜好，这里以qwen3为例，最好下载带instruct的微调版本

将下载好的gguf文件放到linux服务器的某个目录里，在模型目录创建 Modelfile 文件，内容如下(我们先不加其他的模型参数，先直接导入)：

一定要加如下的默认提示词，不然效果很差

FROM ./xxx.gguf
# 模板：Llama-3.1 Instruct 格式
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>

{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>

{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>

{{ .Response }}<|eot_id|>"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
PARAMETER stop "<|reserved_special_token"

# 系统提示
SYSTEM """You are a helpful assistant. Respond in Chinese if the query is in Chinese."""

# 参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096

执行导入：

ollama create qwen3-xxx -f ./Modelfile
ollama list
# 然后就可以看到qwen3-xxx导入的离线模型

模型运维

ollama list # 列出模型
ollama ps # 查看模型的使用情况
ollama stop 模型名 # 停止某个模型
ollama rm 模型名 # 删除某个模型

测试运行

有2个程序可使用，一个轻量级一个重量级，分别是：

这里推荐清凉级，下载完毕后，可以在本地运行，或者服务器上都可以。

npm ci
npm run dev

如果需要该端口，直接修改package.json文件即可

然后在启动的web程序里，找到设置，设置为127.0.0.1:11434 的 ollama的api，根据情况的api进行设置。

最后，就可以直接跟大模型对话了。