🧾 Checklists y Manuales de Operaciones Estándar (SOPs)
🎯 Objetivo
Centralizar los checklists operativos más importantes en un solo lugar. Estos checklists son la base para la consistencia, la calidad y la delegación de tareas. Deben ser tratados como documentos vivos y mejorados continuamente.
✅ SOP-01: Onboarding de un Nuevo Nodo
Propósito: Añadir un único nodo nuevo a la infraestructura gestionada.
Responsables: Operador Local, Gestor Remoto.
Fase I: Aprovisionamiento Físico (Operador Local)
- [ ] 1. Conexión Física: El MiniPC está conectado al switch y a la corriente.
- [ ] 2. Configuración de Red: Se ha asignado una IP pública fija, máscara, gateway y DNS al sistema operativo.
- [ ] 3. Habilitación de Acceso: El script
enable-ssh.ps1ha sido ejecutado como Administrador. - [ ] 4. Validación Local:
- [ ]
ipconfigmuestra la IP correcta. - [ ]
ping <gateway>es exitoso. - [ ]
ping 8.8.8.8es exitoso. - [ ]
Get-Service sshdmuestra el servicio comoRunningyAutomatic.
- [ ]
- [ ] 5. Notificación: Se ha comunicado al Gestor Remoto que el nodo está listo, indicando la IP asignada.
Fase II: Integración Lógica (Gestor Remoto)
- [ ] 1. Validación Remota:
- [ ]
ping <nueva_ip>es exitoso. - [ ]
nc -zv <nueva_ip> 22confirma que el puerto SSH está abierto. - [ ] La conexión
ssh admin@<nueva_ip>es exitosa.
- [ ]
- [ ] 2. Registro en NetBox:
- [ ] El nuevo objeto de dispositivo ha sido creado.
- [ ] La dirección IP ha sido asignada al dispositivo.
- [ ] El dispositivo ha sido asignado al Tenant correcto.
- [ ] El dispositivo ha sido etiquetado con el Tag correcto.
- [ ] 3. Ejecución de Automatización:
- [ ] Se ha verificado que el nuevo host aparece en el inventario dinámico de Ansible.
- [ ] Se han ejecutado los playbooks de configuración base (instalación, monitoreo, hardening) limitando la ejecución al nuevo host (
--limit <hostname>).
- [ ] 4. Verificación de Monitoreo:
- [ ] El nuevo host aparece como
UPen la página de Targets de Prometheus. - [ ] Las métricas del nuevo host son visibles en los dashboards de Grafana.
- [ ] El nuevo host aparece como
✅ SOP-02: Descomisionamiento de un Nodo
Propósito: Retirar un nodo de la infraestructura de forma segura y limpia.
Responsable: Gestor Remoto.
- [ ] 1. Exclusión de la Automatización:
- [ ] En NetBox, cambiar el Status del dispositivo de
ActiveaDecommissioningoOffline. Esto lo excluirá automáticamente de la mayoría de los playbooks y del monitoreo.
- [ ] En NetBox, cambiar el Status del dispositivo de
- [ ] 2. Limpieza de Servicios (Opcional):
- [ ] Ejecutar un playbook de "offboarding" que desinstale el software de monitoreo, elimine las reglas de firewall y deshabilite el acceso SSH.
- [ ] 3. Eliminación de Registros:
- [ ] Eliminar el objeto de dispositivo de NetBox.
- [ ] Liberar la dirección IP en el IPAM de NetBox, marcándola como
DeprecatedoAvailable.
- [ ] 4. Limpieza de Monitoreo y Backups:
- [ ] Verificar que el nodo ha desaparecido de Prometheus.
- [ ] Excluir el nodo de cualquier configuración de backup específica si existiera.
- [ ] 5. Notificar al Operador Local: Comunicar que el nodo ha sido retirado lógicamente y puede ser desconectado físicamente.
✅ SOP-03: Prueba de Restauración de Backups (Trimestral)
Propósito: Verificar la integridad y la viabilidad de las copias de seguridad del plano de control.
Responsable: Gestor Remoto.
- [ ] 1. Aprovisionar un Servidor de Restauración Temporal:
- [ ] Levantar un nuevo VPS limpio.
- [ ] 2. Descargar el Último Backup:
- [ ] Obtener el último archivo
.tar.gzdel backup desde el almacenamiento off-site (ej: Rclone).
- [ ] Obtener el último archivo
- [ ] 3. Restaurar Servicios:
- [ ] Desplegar una nueva instancia de NetBox y Grafana con Docker.
- [ ] Seguir el manual de restauración documentado para importar el dump de la base de datos de NetBox y los datos del volumen de Grafana.
- [ ] 4. Validar la Restauración:
- [ ] Iniciar sesión en la instancia restaurada de NetBox y verificar que los datos (dispositivos, IPs, etc.) son correctos.
- [ ] Iniciar sesión en la instancia restaurada de Grafana y verificar que los dashboards y las fuentes de datos están presentes.
- [ ] 5. Medir y Documentar:
- [ ] Registrar el tiempo total que tomó el proceso de restauración (RTO - Recovery Time Objective).
- [ ] Actualizar el manual de restauración con cualquier lección aprendida.
- [ ] 6. Destruir el Entorno Temporal:
- [ ] Eliminar el VPS de restauración.