Uso de Ollama en ServBay

ServBay integra potentes capacidades de IA local en tu entorno de desarrollo, permitiéndote ejecutar fácilmente diversos modelos de lenguaje grande (LLM) de código abierto en macOS a través de Ollama. Este documento te guiará para habilitar, configurar, gestionar Ollama y sus modelos, y comenzar a utilizarlos.

Visión general

Ollama es una herramienta popular que simplifica el proceso de descarga, configuración y ejecución de grandes modelos de lenguaje en tu ordenador local. ServBay integra Ollama como un paquete independiente, proporcionando una interfaz gráfica de gestión que permite a los desarrolladores:

Iniciar, detener y reiniciar el servicio de Ollama con un solo clic.
Configurar los parámetros de Ollama desde una interfaz gráfica.
Navegar, descargar y administrar los modelos LLM compatibles.
Desarrollar, probar y experimentar aplicaciones de IA localmente, sin depender de servicios en la nube.

Requisitos previos

Tener ServBay ya instalado y en funcionamiento en tu sistema macOS.

Habilitación y gestión del servicio Ollama

Puedes administrar fácilmente el paquete Ollama desde la pantalla principal de ServBay.

Acceder al paquete Ollama:
- Abre la aplicación ServBay.
- En la barra de navegación izquierda, haz clic en Paquetes (Packages).
- En la lista desplegada, localiza y haz clic en la categoría AI.
- Haz clic en Ollama.
Gestionar el servicio Ollama:
- En el área derecha verás información del estado del paquete Ollama, incluyendo el número de versión (por ejemplo, 0.6.5), estado de ejecución (Running o Stopped), y el ID del proceso (PID).
- Usa los botones de control a la derecha:
  - Iniciar/Detener: El botón circular naranja sirve para iniciar o detener el servicio Ollama.
  - Reiniciar: El botón azul de recarga sirve para reiniciar el servicio.
  - Configurar: El botón amarillo con engranaje lleva a la página de configuración de Ollama.
  - Eliminar: El botón rojo de papelera permite desinstalar Ollama (utilízalo con precaución).
  - Más información: El botón gris de información puede ofrecer detalles adicionales o acceso a registros.

Configuración de Ollama

ServBay brinda una interfaz gráfica para ajustar los parámetros de ejecución de Ollama según tus necesidades.

Accede a la pantalla de configuración:
- Abre la aplicación ServBay.
- En la barra de navegación izquierda, haz clic en AI.
- En la lista desplegada, localiza y haz clic en la categoría Configuración (Settings).
- Haz clic en Ollama.
Ajusta las opciones de configuración:
- Model Download Threads: Número de hilos simultáneos para descargar modelos, lo que puede acelerar la descarga.
- Bind IP: Dirección IP en la que Ollama escuchará. Por defecto es 127.0.0.1, lo que significa que solo se puede acceder localmente.
- Bind Port: Puerto en el que escuchará el servicio Ollama. El valor predeterminado es 11434.
- Opciones con interruptores booleanos:
  - Debug: Activa el modo de depuración.
  - Flash Attention: Puede activar optimizaciones Flash Attention (requiere soporte de hardware).
  - No History: Desactiva el historial de sesiones.
  - No Prune: Impide la limpieza automática de modelos no usados.
  - Schedule Spread: Relacionado con la política de scheduling.
  - Multi-user Cache: Caché para múltiples usuarios.
- K/V Cache Type: Tipo de caché clave/valor, afecta al rendimiento y uso de memoria.
- Opciones relacionadas con GPU:
  - GPU Overhead: Configuración de la sobrecarga de la GPU.
  - Keepalive: Tiempo de mantenimiento activo de la GPU.
- Carga de modelos y colas:
  - Load Timeout: Tiempo máximo de espera para cargar modelos.
  - Max loaded models: Máximo número de modelos cargados en memoria simultáneamente.
  - Max Queue: Longitud máxima de la cola de solicitudes.
  - Parallel Num.: Número de solicitudes que se procesan en paralelo.
- LLM Library: Ruta a la biblioteca LLM subyacente que se utilizará.
- Models folder: Carpeta local donde Ollama descarga y almacena los modelos. Por defecto es /Applications/ServBay/db/ollama/models. Puedes hacer clic en el icono de carpeta para abrir la ruta en Finder.
- origins: Configuración de los orígenes permitidos para acceder a la API de Ollama (ajuste de CORS). Por defecto incluye direcciones locales comunes (http://localhost, https://localhost, http://127.0.0.1, https://127.0.0.1, etc.). Si necesitas que una aplicación web desde otro dominio acceda a la API, agrégala aquí.
Guarda la configuración: Tras modificar las opciones, haz clic en el botón Guardar (Save) en la esquina inferior derecha para aplicar los cambios.

Gestión de modelos de Ollama

ServBay simplifica la exploración, descarga y administración de modelos de Ollama.

Accede a la gestión de modelos:
- Abre la aplicación ServBay.
- En la barra de navegación izquierda, haz clic en AI.
- En el menú desplegable, haz clic en Models (Ollama).
Navega y descarga modelos:
- A la izquierda se muestra una lista de los distintos repositorios de modelos soportados por Ollama (como deepseek-r1, deepseek-v3, qwen3, gemma, llama3, mistral, etc.). Haz clic sobre el repositorio que desees (por ejemplo, gemma3).
- A la derecha se mostrarán las distintas variantes o versiones de dicho modelo, normalmente diferenciadas por el número de parámetros (latest, 1b, 4b, 12b, 27b, etc.).
- Cada fila indica el nombre, el modelo base, la cantidad de parámetros y el tamaño del archivo.
- Haz clic en la flecha verde de descarga a la derecha de la fila para iniciar la descarga. El progreso será visible en la interfaz. Puedes acelerar la descarga aumentando el número de hilos en la sección de configuración.
- Los modelos ya descargados muestran el botón de descarga en gris o deshabilitado.
Gestiona los modelos descargados:
- Los modelos descargados se identifican claramente en la lista (por ejemplo, el botón de descarga aparece en gris o surge un botón de eliminar).
- Puedes eliminar modelos locales no deseados haciendo clic en el botón de papelera correspondiente para liberar espacio en disco.

Uso de la API de Ollama

Cuando Ollama está en ejecución, ofrece un servicio REST API en la Bind IP y Bind Port configurados (por defecto 127.0.0.1:11434). Puedes interactuar con los modelos descargados utilizando cualquier cliente HTTP como curl, Postman o mediante librerías en tu lenguaje de programación preferido.

TIP

ServBay facilita un dominio con soporte SSL/TLS, ofreciendo acceso HTTPS a través de https://ollama.servbay.host

Los usuarios pueden usar el dominio https://ollama.servbay.host en lugar del formato tradicional IP:puerto para acceder a la API de Ollama.

Ejemplo: interacción con el modelo descargado gemma3:latest usando curl

Asegúrate de haber descargado el modelo gemma3:latest a través de ServBay y que el servicio de Ollama esté en funcionamiento.

bash

# Usando el https proporcionado por ServBay
curl https://ollama.servbay.host/api/generate -d '{
  "model": "gemma3:latest",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

# O usando la forma tradicional IP:puerto
#curl http://127.0.0.1:11434/api/generate -d '{
#  "model": "gemma3:latest",
#  "prompt": "Why is the sky blue?",
#  "stream": false
#}'

Explicación del comando:

http://127.0.0.1:11434/api/generate: Endpoint de la API de generación de texto de Ollama.
-d '{...}': Envía el cuerpo de la solicitud POST en formato JSON.
- "model": "gemma3:latest": Nombre del modelo a utilizar (debe estar previamente descargado).
- "prompt": "Why is the sky blue?": Pregunta o prompt para el modelo.
- "stream": false: Si es false, el modelo devuelve la respuesta completa en un solo paso. Si es true, la API transmitirá tokens generados en tiempo real.

Salida esperada:

Verás una respuesta JSON en la terminal, donde el campo response contendrá la respuesta del modelo a "Why is the sky blue?".

json

{
  "model": "gemma3:latest",
  "created_at": "2024-...",
  "response": "The sky appears blue because of a phenomenon called Rayleigh scattering...",
  "done": true,
  // ... otros metadatos
}

Nota sobre CORS: Si accedes a la API de Ollama mediante código JavaScript en el navegador, asegúrate de que el dominio origen de tu aplicación web (por ejemplo, http://myapp.servbay.demo) esté incluido en la lista de origins de la configuración de Ollama. De lo contrario, el navegador bloqueará la solicitud conforme a las reglas de CORS.

Casos de uso

Ejecutar Ollama localmente en ServBay ofrece múltiples beneficios:

Desarrollo de IA local: Desarrolla y prueba aplicaciones basadas en LLM completamente en local, sin depender de APIs externas ni servicios en la nube.
Prototipado rápido: Prueba rápidamente diferentes modelos de código abierto y valida tus ideas.
Uso sin conexión: Interactúa con LLM incluso sin conexión a internet.
Privacidad de datos: Todos los datos y operaciones permanecen en tu ordenador, eliminando preocupaciones sobre transmisión de información a terceros.
Ahorro de costes: Evita los costes por uso de servicios de IA en la nube.

Consideraciones

Espacio en disco: Los archivos de modelos LLM suelen ser grandes (varios GB hasta decenas de GB). Asegúrate de tener suficiente espacio disponible. Los modelos se almacenan por defecto en /Applications/ServBay/db/ollama/models.
Recursos del sistema: Ejecutar LLM consume considerablemente CPU y memoria (RAM). Si tu Mac dispone de GPU compatible, Ollama puede utilizarla para acelerar, lo que también consume recursos de GPU. Verifica que la configuración de tu Mac soporte el modelo que deseas usar.
Tiempo de descarga: Descargar modelos puede llevar tiempo según la velocidad de tu conexión y el tamaño del modelo.
Firewall: Si cambias Bind IP a 0.0.0.0 para permitir el acceso desde otros dispositivos en la red local, asegúrate de que el firewall de macOS permite conexiones entrantes al puerto usado por Ollama (11434).

Resumen

Al integrar Ollama, ServBay simplifica enormemente el despliegue y gestión de grandes modelos de lenguaje localmente en macOS. Gracias a su interfaz gráfica intuitiva, los desarrolladores pueden arrancar servicios, ajustar configuraciones, descargar modelos y comenzar rápidamente el desarrollo y experimentación de aplicaciones de IA local, reforzando aún más el valor de ServBay como entorno de desarrollo local “todo en uno”.

Uso de Ollama en ServBay ​

Visión general ​

Requisitos previos ​

Habilitación y gestión del servicio Ollama ​

Configuración de Ollama ​

Gestión de modelos de Ollama ​

Uso de la API de Ollama ​

Casos de uso ​

Consideraciones ​

Resumen ​