Ollama 常用环境变量
Ollama 是一个用于运行和管理大型语言模型的工具,它支持通过环境变量来配置其行为。以下是一些常用的 Ollama 环境变量:
1. OLLAMA_HOST
- 作用:指定 Ollama 服务监听的主机地址。
- 默认值:
127.0.0.1:11434 示例:
export OLLAMA_HOST="0.0.0.0:11434"设置为
0.0.0.0可以让服务接受来自外部网络的请求,常用于 Docker 或远程访问场景。
2. OLLAMA_ORIGIN
- 作用:设置允许跨域请求(CORS)的来源。
- 默认值:
http://localhost:11434 示例:
export OLLAMA_ORIGIN="http://localhost:3000,https://yourapp.com"当你从前端应用(如 React、Vue)调用 Ollama API 时,可能需要配置此变量以避免 CORS 错误。
3. OLLAMA_MODELS
- 作用:指定模型文件的存储路径。
- 默认值:平台相关(Linux:
~/.ollama/models,macOS:~/Library/Application Support/Ollama/models) 示例:
export OLLAMA_MODELS="/mnt/data/ollama/models"适用于需要将模型存储在特定磁盘或共享存储中的情况。
4. OLLAMA_NUM_PARALLEL
- 作用:控制并行生成请求的数量。
- 默认值:由系统自动决定(通常基于 CPU/GPU 能力)
示例:
bash
深色版本export OLLAMA_NUM_PARALLEL=4可用于限制或提升并发处理能力。
5. OLLAMA_MAX_LOADED_MODELS
- 作用:设置最多可以同时加载到内存的模型数量。
- 默认值:1
示例:
export OLLAMA_MAX_LOADED_MODELS=3在多模型切换频繁的场景下,适当增加可减少加载延迟。
6. OLLAMA_KEEP_ALIVE
- 作用:设置模型在无请求时保持加载在内存中的时间(单位:秒)。
- 默认值:
5m(5分钟) 示例:
export OLLAMA_KEEP_ALIVE="30m"值为
0表示永远不卸载,-1表示立即卸载。
7. OLLAMA_GPU_MEMORY
- 作用:(实验性)手动设置 GPU 内存分配(适用于支持 CUDA 的环境)。
示例:
export OLLAMA_GPU_MEMORY="8GiB"
8. OLLAMA_FLASH_ATTENTION
- 作用:启用或禁用 Flash Attention 优化(可节省内存,提升推理速度)。
- 取值:
1启用,0禁用 示例:
export OLLAMA_FLASH_ATTENTION=1
9. OLLAMA_NO_RANDOMIZE
- 作用:禁用端口随机化(调试时使用)。
- 取值:
1禁用随机化 示例:
export OLLAMA_NO_RANDOMIZE=1
10. OLLAMA_DEBUG
- 作用:启用调试日志输出。
- 取值:
1开启调试模式 示例:
export OLLAMA_DEBUG=1
使用场景示例(Linux/macOS)
# 启动 Ollama 并允许远程访问
export OLLAMA_HOST="0.0.0.0:11434"
export OLLAMA_ORIGIN="*"
export OLLAMA_DEBUG=1
ollama serve
⚠️ 注意:部分环境变量可能随 Ollama 版本更新而变化,请参考官方文档或 GitHub 仓库获取最新信息。
官方文档参考:https://github.com/ollama/ollama
Windows场景
永久设置(推荐)
系统设置->搜索 系统环境变量
然后添加环境变量
注意:系统环境变量是下面的框,见上图所示
临时设置(测试)
cmd窗口设置,只对当前cmd窗口生效,
set 变量名=变量值
示例:
set OLLAMA_HOST=0.0.0.0:11434
重启ollma服务
所有环境(Windows/Linux/mac)配置变量后需重启ollama服务(临时方案除外)。
https://www.syntaxspace.com/article/2509111637012402.html
评论