在 ServBay 中使用 Ollama
ServBay 将强大的本地 AI 能力集成到您的开发环境中,允许您通过 Ollama 在 macOS 上轻松运行各种开源大语言模型 (LLM)。本文档将指导您如何在 ServBay 中启用、配置、管理 Ollama 及其模型,并开始使用。
概述
Ollama 是一个流行的工具,它简化了在本地计算机上下载、设置和运行大语言模型的过程。ServBay 将 Ollama 集成作为一个独立的软件包,提供了图形化的管理界面,让开发者可以方便地:
- 一键启动、停止、重启 Ollama 服务。
- 通过图形界面配置 Ollama 的各项参数。
- 浏览、下载和管理支持的 LLM 模型。
- 在本地进行 AI 应用的开发、测试和实验,无需依赖云服务。
前提条件
- 已在您的 macOS 系统上安装并运行 ServBay。
启用和管理 Ollama 服务
您可以通过 ServBay 的主界面轻松管理 Ollama 软件包。
访问 Ollama 软件包:
- 打开 ServBay 应用程序。
- 在左侧导航栏中,点击
软件包
(Packages)。 - 在展开的列表中,找到并点击
AI
分类。 - 点击
Ollama
。
管理 Ollama 服务:
- 在右侧区域,您会看到 Ollama 软件包的状态信息,包括版本号 (如
0.6.5
)、运行状态 (Running
或Stopped
)、进程 ID (PID)。 - 使用右侧的控制按钮:
- 启动/停止: 橙色的圆形按钮用于启动或停止 Ollama 服务。
- 重启: 蓝色的刷新按钮用于重启 Ollama 服务。
- 配置: 黄色的齿轮按钮用于跳转到 Ollama 的配置页面。
- 删除: 红色的垃圾桶按钮用于卸载 Ollama 软件包(请谨慎操作)。
- 更多信息: 灰色的信息按钮可能提供额外信息或日志访问。
- 在右侧区域,您会看到 Ollama 软件包的状态信息,包括版本号 (如
配置 Ollama
ServBay 提供了图形化的界面来调整 Ollama 的运行参数,以满足不同的需求。
访问配置界面:
- 打开 ServBay 应用程序。
- 在左侧导航栏中,点击
AI
。 - 在展开的列表中,找到并点击
设置(Settings)
分类。 - 点击
Ollama
。
调整配置项:
- Model Download Threads: 设置同时下载模型的线程数,可加快模型下载速度。
- Bind IP: Ollama 服务监听的 IP 地址。默认为
127.0.0.1
,表示仅本机可以访问。 - Bind Port: Ollama 服务监听的端口。默认为
11434
。 - 布尔开关选项:
Debug
: 启用调试模式。Flash Attention
: 可能启用 Flash Attention 优化(需硬件支持)。No History
: 禁止记录会话历史。No Prune
: 禁止自动清理未使用模型。Schedule Spread
: 调度策略相关。Multi-user Cache
: 多用户缓存相关。
- K/V Cache Type: Key/Value 缓存类型,影响性能和内存使用。
- GPU 相关:
GPU Overhead
: GPU 开销配置。Keepalive
: GPU 保持活动时间。
- 模型加载与队列:
Load Timeout
: 模型加载超时时间。Max loaded models
: 同时加载到内存的最大模型数。Max Queue
: 最大请求队列长度。Parallel Num.
: 并行处理请求数。
- LLM Library: 指定使用的底层 LLM 库路径。
- Models folder: Ollama 下载和存储模型的本地目录。默认为
/Applications/ServBay/db/ollama/models
。您可以点击文件夹图标在 Finder 中打开此目录。 - origins: 配置允许访问 Ollama API 的来源(CORS 跨域设置)。默认包含常见的本地地址 (
http://localhost
,https://localhost
,http://127.0.0.1
,https://127.0.0.1
等)。如果您需要从其他域名的 Web 应用访问,需要在此添加相应的源地址。
保存配置: 修改配置后,点击右下角的
Save
按钮使更改生效。
管理 Ollama 模型
ServBay 简化了 Ollama 模型的发现、下载和管理过程。
访问模型管理界面:
- 打开 ServBay 应用程序。
- 在左侧导航栏中,点击
AI
。 - 在展开的列表中,找到并点击
Models (Ollama)
。
浏览和下载模型:
- 左侧列出了 Ollama 支持的众多模型库(如
deepseek-r1
,deepseek-v3
,qwen3
,gemma
,llama3
,mistral
等)。点击一个模型库名称(例如gemma3
)。 - 右侧会显示该模型库下的不同变体或版本,通常按参数量区分(如
latest
,1b
,4b
,12b
,27b
)。 - 每一行列出了模型名称、基础模型、参数量、文件大小。
- 点击最右侧的绿色下载箭头按钮即可开始下载对应的模型。下载进度会在界面上显示。可以通过在
设置
中调整下载线程数
以加快模型的下载速度。 - 已下载的模型,下载按钮会变成灰色或不可用状态。
- 左侧列出了 Ollama 支持的众多模型库(如
管理已下载模型:
- 已下载的模型通常会在模型列表中有明确标识(例如,下载按钮变灰或出现删除按钮)。
- 您可以点击相应的删除按钮(通常是垃圾桶图标)来移除本地已下载的模型文件,释放磁盘空间。
使用 Ollama API
Ollama 启动后,会在配置的 Bind IP
和 Bind Port
(默认为 127.0.0.1:11434
) 上提供 REST API 服务。您可以使用任何 HTTP 客户端(如 curl
、Postman 或编程语言库)与下载的模型进行交互。
TIP
ServBay 很贴心的提供了一个使用 SSL/TLS 加密,支持 HTTPS 访问的域名 https://ollama.servbay.host
用户可以使用 https://ollama.servbay.host
域名而非 IP:端口
的方式来访问 Ollama 的 API。
示例:使用 curl
与下载的 gemma3:latest
模型交互
确保您已经通过 ServBay 下载了 gemma3:latest
模型,并且 Ollama 服务正在运行。
bash
# 使用 ServBay 提供的 https
curl https://ollama.servbay.host/api/generate -d '{
"model": "gemma3:latest",
"prompt": "Why is the sky blue?",
"stream": false
}'
# 或者传统的 IP:端口 方式
#curl http://127.0.0.1:11434/api/generate -d '{
# "model": "gemma3:latest",
# "prompt": "Why is the sky blue?",
# "stream": false
#}'
1
2
3
4
5
6
7
8
9
10
11
12
13
2
3
4
5
6
7
8
9
10
11
12
13
命令解释:
http://127.0.0.1:11434/api/generate
: Ollama 生成文本的 API 端点。-d '{...}'
: 发送 POST 请求体,包含 JSON 数据。"model": "gemma3:latest"
: 指定要使用的模型名称(必须是已下载的)。"prompt": "Why is the sky blue?"
: 您想向模型提出的问题或提示。"stream": false
: 设置为false
表示等待模型生成完整响应后一次性返回。如果设为true
,API 会流式返回生成的 token。
预期输出:
您将在终端看到一个 JSON 响应,其中 response
字段包含了模型对 "Why is the sky blue?" 的回答。
json
{
"model": "gemma3:latest",
"created_at": "2024-...",
"response": "The sky appears blue because of a phenomenon called Rayleigh scattering...",
"done": true,
// ... 其他元数据
}
1
2
3
4
5
6
7
2
3
4
5
6
7
CORS 注意: 如果您尝试从浏览器中的 JavaScript 代码访问 Ollama API,请确保您的 Web 应用的源地址(例如 http://myapp.servbay.demo
)已添加到 Ollama 配置的 origins
列表中,否则请求会因 CORS 策略而被浏览器阻止。
应用场景
在 ServBay 中本地运行 Ollama 带来了诸多便利:
- 本地 AI 开发: 无需依赖外部 API 或云服务,直接在本地开发和测试基于 LLM 的应用程序。
- 快速原型设计: 快速尝试不同的开源模型,验证想法。
- 离线使用: 即使没有网络连接,也能与 LLM 交互。
- 数据隐私: 所有数据和交互都保留在本地计算机上,无需担心数据传输到第三方。
- 成本效益: 避免了按量付费的云 AI 服务成本。
注意事项
- 磁盘空间: 大语言模型文件通常很大(几 GB 到几十 GB 不等),请确保您的硬盘有足够的可用空间。模型默认存储在
/Applications/ServBay/db/ollama/models
。 - 系统资源: 运行 LLM 非常消耗 CPU、内存 (RAM),如果您的 Mac 配备了兼容的 GPU,Ollama 可能会利用 GPU 加速,这也会消耗 GPU 资源。请确保您的 Mac 配置足够支持您想要运行的模型。
- 下载时间: 下载模型需要时间,具体取决于您的网络速度和模型大小。
- 防火墙: 如果您修改了
Bind IP
为0.0.0.0
以允许局域网内其他设备访问,请确保您的 macOS 防火墙允许传入连接到 Ollama 使用的端口 (11434
)。
总结
ServBay 通过集成 Ollama,极大地简化了在 macOS 上部署和管理本地大语言模型的过程。借助直观的图形界面,开发者可以轻松启动服务、调整配置、下载模型,并快速开始本地 AI 应用的开发和实验,进一步增强了 ServBay 作为一站式本地开发环境的价值。