Saltar a contenido

🧾 Checklists y Manuales de Operaciones Estándar (SOPs)

🎯 Objetivo

Centralizar los checklists operativos más importantes en un solo lugar. Estos checklists son la base para la consistencia, la calidad y la delegación de tareas. Deben ser tratados como documentos vivos y mejorados continuamente.


✅ SOP-01: Onboarding de un Nuevo Nodo

Propósito: Añadir un único nodo nuevo a la infraestructura gestionada.

Responsables: Operador Local, Gestor Remoto.

Fase I: Aprovisionamiento Físico (Operador Local)

  • [ ] 1. Conexión Física: El MiniPC está conectado al switch y a la corriente.
  • [ ] 2. Configuración de Red: Se ha asignado una IP pública fija, máscara, gateway y DNS al sistema operativo.
  • [ ] 3. Habilitación de Acceso: El script enable-ssh.ps1 ha sido ejecutado como Administrador.
  • [ ] 4. Validación Local:
    • [ ] ipconfig muestra la IP correcta.
    • [ ] ping <gateway> es exitoso.
    • [ ] ping 8.8.8.8 es exitoso.
    • [ ] Get-Service sshd muestra el servicio como Running y Automatic.
  • [ ] 5. Notificación: Se ha comunicado al Gestor Remoto que el nodo está listo, indicando la IP asignada.

Fase II: Integración Lógica (Gestor Remoto)

  • [ ] 1. Validación Remota:
    • [ ] ping <nueva_ip> es exitoso.
    • [ ] nc -zv <nueva_ip> 22 confirma que el puerto SSH está abierto.
    • [ ] La conexión ssh admin@<nueva_ip> es exitosa.
  • [ ] 2. Registro en NetBox:
    • [ ] El nuevo objeto de dispositivo ha sido creado.
    • [ ] La dirección IP ha sido asignada al dispositivo.
    • [ ] El dispositivo ha sido asignado al Tenant correcto.
    • [ ] El dispositivo ha sido etiquetado con el Tag correcto.
  • [ ] 3. Ejecución de Automatización:
    • [ ] Se ha verificado que el nuevo host aparece en el inventario dinámico de Ansible.
    • [ ] Se han ejecutado los playbooks de configuración base (instalación, monitoreo, hardening) limitando la ejecución al nuevo host (--limit <hostname>).
  • [ ] 4. Verificación de Monitoreo:
    • [ ] El nuevo host aparece como UP en la página de Targets de Prometheus.
    • [ ] Las métricas del nuevo host son visibles en los dashboards de Grafana.

✅ SOP-02: Descomisionamiento de un Nodo

Propósito: Retirar un nodo de la infraestructura de forma segura y limpia.

Responsable: Gestor Remoto.

  • [ ] 1. Exclusión de la Automatización:
    • [ ] En NetBox, cambiar el Status del dispositivo de Active a Decommissioning o Offline. Esto lo excluirá automáticamente de la mayoría de los playbooks y del monitoreo.
  • [ ] 2. Limpieza de Servicios (Opcional):
    • [ ] Ejecutar un playbook de "offboarding" que desinstale el software de monitoreo, elimine las reglas de firewall y deshabilite el acceso SSH.
  • [ ] 3. Eliminación de Registros:
    • [ ] Eliminar el objeto de dispositivo de NetBox.
    • [ ] Liberar la dirección IP en el IPAM de NetBox, marcándola como Deprecated o Available.
  • [ ] 4. Limpieza de Monitoreo y Backups:
    • [ ] Verificar que el nodo ha desaparecido de Prometheus.
    • [ ] Excluir el nodo de cualquier configuración de backup específica si existiera.
  • [ ] 5. Notificar al Operador Local: Comunicar que el nodo ha sido retirado lógicamente y puede ser desconectado físicamente.

✅ SOP-03: Prueba de Restauración de Backups (Trimestral)

Propósito: Verificar la integridad y la viabilidad de las copias de seguridad del plano de control.

Responsable: Gestor Remoto.

  • [ ] 1. Aprovisionar un Servidor de Restauración Temporal:
    • [ ] Levantar un nuevo VPS limpio.
  • [ ] 2. Descargar el Último Backup:
    • [ ] Obtener el último archivo .tar.gz del backup desde el almacenamiento off-site (ej: Rclone).
  • [ ] 3. Restaurar Servicios:
    • [ ] Desplegar una nueva instancia de NetBox y Grafana con Docker.
    • [ ] Seguir el manual de restauración documentado para importar el dump de la base de datos de NetBox y los datos del volumen de Grafana.
  • [ ] 4. Validar la Restauración:
    • [ ] Iniciar sesión en la instancia restaurada de NetBox y verificar que los datos (dispositivos, IPs, etc.) son correctos.
    • [ ] Iniciar sesión en la instancia restaurada de Grafana y verificar que los dashboards y las fuentes de datos están presentes.
  • [ ] 5. Medir y Documentar:
    • [ ] Registrar el tiempo total que tomó el proceso de restauración (RTO - Recovery Time Objective).
    • [ ] Actualizar el manual de restauración con cualquier lección aprendida.
  • [ ] 6. Destruir el Entorno Temporal:
    • [ ] Eliminar el VPS de restauración.