在 ServBay 中使用 Ollama

ServBay 将强大的本地 AI 能力集成到您的开发环境中，允许您通过 Ollama 在 macOS 上轻松运行各种开源大语言模型 (LLM)。本文档将指导您如何在 ServBay 中启用、配置、管理 Ollama 及其模型，并开始使用。

概述

Ollama 是一个流行的工具，它简化了在本地计算机上下载、设置和运行大语言模型的过程。ServBay 将 Ollama 集成作为一个独立的软件包，提供了图形化的管理界面，让开发者可以方便地：

一键启动、停止、重启 Ollama 服务。
通过图形界面配置 Ollama 的各项参数。
浏览、下载和管理支持的 LLM 模型。
在本地进行 AI 应用的开发、测试和实验，无需依赖云服务。

前提条件

已在您的 macOS 系统上安装并运行 ServBay。

启用和管理 Ollama 服务

您可以通过 ServBay 的主界面轻松管理 Ollama 软件包。

访问 Ollama 软件包:
- 打开 ServBay 应用程序。
- 在左侧导航栏中，点击 软件包 (Packages)。
- 在展开的列表中，找到并点击 AI 分类。
- 点击 Ollama。
管理 Ollama 服务:
- 在右侧区域，您会看到 Ollama 软件包的状态信息，包括版本号 (如 0.6.5)、运行状态 (Running 或 Stopped)、进程 ID (PID)。
- 使用右侧的控制按钮：
  - 启动/停止: 橙色的圆形按钮用于启动或停止 Ollama 服务。
  - 重启: 蓝色的刷新按钮用于重启 Ollama 服务。
  - 配置: 黄色的齿轮按钮用于跳转到 Ollama 的配置页面。
  - 删除: 红色的垃圾桶按钮用于卸载 Ollama 软件包（请谨慎操作）。
  - 更多信息: 灰色的信息按钮可能提供额外信息或日志访问。

配置 Ollama

ServBay 提供了图形化的界面来调整 Ollama 的运行参数，以满足不同的需求。

访问配置界面:
- 打开 ServBay 应用程序。
- 在左侧导航栏中，点击 AI。
- 在展开的列表中，找到并点击 设置（Settings） 分类。
- 点击 Ollama。
调整配置项:
- Model Download Threads: 设置同时下载模型的线程数，可加快模型下载速度。
- Bind IP: Ollama 服务监听的 IP 地址。默认为 127.0.0.1，表示仅本机可以访问。
- Bind Port: Ollama 服务监听的端口。默认为 11434。
- 布尔开关选项:
  - Debug: 启用调试模式。
  - Flash Attention: 可能启用 Flash Attention 优化（需硬件支持）。
  - No History: 禁止记录会话历史。
  - No Prune: 禁止自动清理未使用模型。
  - Schedule Spread: 调度策略相关。
  - Multi-user Cache: 多用户缓存相关。
- K/V Cache Type: Key/Value 缓存类型，影响性能和内存使用。
- GPU 相关:
  - GPU Overhead: GPU 开销配置。
  - Keepalive: GPU 保持活动时间。
- 模型加载与队列:
  - Load Timeout: 模型加载超时时间。
  - Max loaded models: 同时加载到内存的最大模型数。
  - Max Queue: 最大请求队列长度。
  - Parallel Num.: 并行处理请求数。
- LLM Library: 指定使用的底层 LLM 库路径。
- Models folder: Ollama 下载和存储模型的本地目录。默认为 /Applications/ServBay/db/ollama/models。您可以点击文件夹图标在 Finder 中打开此目录。
- origins: 配置允许访问 Ollama API 的来源（CORS 跨域设置）。默认包含常见的本地地址 (http://localhost, https://localhost, http://127.0.0.1, https://127.0.0.1 等）。如果您需要从其他域名的 Web 应用访问，需要在此添加相应的源地址。
保存配置: 修改配置后，点击右下角的 Save 按钮使更改生效。

管理 Ollama 模型

ServBay 简化了 Ollama 模型的发现、下载和管理过程。

访问模型管理界面:
- 打开 ServBay 应用程序。
- 在左侧导航栏中，点击 AI。
- 在展开的列表中，找到并点击 Models (Ollama)。
浏览和下载模型:
- 左侧列出了 Ollama 支持的众多模型库（如 deepseek-r1, deepseek-v3, qwen3, gemma, llama3, mistral 等）。点击一个模型库名称（例如 gemma3）。
- 右侧会显示该模型库下的不同变体或版本，通常按参数量区分（如 latest, 1b, 4b, 12b, 27b）。
- 每一行列出了模型名称、基础模型、参数量、文件大小。
- 点击最右侧的绿色下载箭头按钮即可开始下载对应的模型。下载进度会在界面上显示。可以通过在设置中调整下载线程数以加快模型的下载速度。
- 已下载的模型，下载按钮会变成灰色或不可用状态。
管理已下载模型:
- 已下载的模型通常会在模型列表中有明确标识（例如，下载按钮变灰或出现删除按钮）。
- 您可以点击相应的删除按钮（通常是垃圾桶图标）来移除本地已下载的模型文件，释放磁盘空间。

使用 Ollama API

Ollama 启动后，会在配置的 Bind IP 和 Bind Port (默认为 127.0.0.1:11434) 上提供 REST API 服务。您可以使用任何 HTTP 客户端（如 curl、Postman 或编程语言库）与下载的模型进行交互。

TIP

ServBay 很贴心的提供了一个使用 SSL/TLS 加密，支持 HTTPS 访问的域名 https://ollama.servbay.host

用户可以使用 https://ollama.servbay.host 域名而非 IP:端口 的方式来访问 Ollama 的 API。

示例：使用 curl 与下载的 gemma3:latest 模型交互

确保您已经通过 ServBay 下载了 gemma3:latest 模型，并且 Ollama 服务正在运行。

bash

# 使用 ServBay 提供的 https
curl https://ollama.servbay.host/api/generate -d '{
  "model": "gemma3:latest",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

# 或者传统的 IP:端口 方式
#curl http://127.0.0.1:11434/api/generate -d '{
#  "model": "gemma3:latest",
#  "prompt": "Why is the sky blue?",
#  "stream": false
#}'

命令解释:

http://127.0.0.1:11434/api/generate: Ollama 生成文本的 API 端点。
-d '{...}': 发送 POST 请求体，包含 JSON 数据。
- "model": "gemma3:latest": 指定要使用的模型名称（必须是已下载的）。
- "prompt": "Why is the sky blue?": 您想向模型提出的问题或提示。
- "stream": false: 设置为 false 表示等待模型生成完整响应后一次性返回。如果设为 true，API 会流式返回生成的 token。

预期输出:

您将在终端看到一个 JSON 响应，其中 response 字段包含了模型对 "Why is the sky blue?" 的回答。

json

{
  "model": "gemma3:latest",
  "created_at": "2024-...",
  "response": "The sky appears blue because of a phenomenon called Rayleigh scattering...",
  "done": true,
  // ... 其他元数据
}

CORS 注意: 如果您尝试从浏览器中的 JavaScript 代码访问 Ollama API，请确保您的 Web 应用的源地址（例如 http://myapp.servbay.demo）已添加到 Ollama 配置的 origins 列表中，否则请求会因 CORS 策略而被浏览器阻止。

应用场景

在 ServBay 中本地运行 Ollama 带来了诸多便利：

本地 AI 开发: 无需依赖外部 API 或云服务，直接在本地开发和测试基于 LLM 的应用程序。
快速原型设计: 快速尝试不同的开源模型，验证想法。
离线使用: 即使没有网络连接，也能与 LLM 交互。
数据隐私: 所有数据和交互都保留在本地计算机上，无需担心数据传输到第三方。
成本效益: 避免了按量付费的云 AI 服务成本。

注意事项

磁盘空间: 大语言模型文件通常很大（几 GB 到几十 GB 不等），请确保您的硬盘有足够的可用空间。模型默认存储在 /Applications/ServBay/db/ollama/models。
系统资源: 运行 LLM 非常消耗 CPU、内存 (RAM)，如果您的 Mac 配备了兼容的 GPU，Ollama 可能会利用 GPU 加速，这也会消耗 GPU 资源。请确保您的 Mac 配置足够支持您想要运行的模型。
下载时间: 下载模型需要时间，具体取决于您的网络速度和模型大小。
防火墙: 如果您修改了 Bind IP 为 0.0.0.0 以允许局域网内其他设备访问，请确保您的 macOS 防火墙允许传入连接到 Ollama 使用的端口 (11434)。

总结

ServBay 通过集成 Ollama，极大地简化了在 macOS 上部署和管理本地大语言模型的过程。借助直观的图形界面，开发者可以轻松启动服务、调整配置、下载模型，并快速开始本地 AI 应用的开发和实验，进一步增强了 ServBay 作为一站式本地开发环境的价值。

在 ServBay 中使用 Ollama ​

概述 ​

前提条件 ​

启用和管理 Ollama 服务 ​

配置 Ollama ​

管理 Ollama 模型 ​

使用 Ollama API ​

应用场景 ​

注意事项 ​

总结 ​