Disponibilidad 24/7: Observabilidad y Resiliencia en el Core

WAU Marketing
28 abr
4 min de lectura

El cliente de tu banco no duerme. Hace una transferencia a las 2 de la mañana, paga a las 11 de la noche, revisa su saldo en domingo. Muchos cores, en cambio, fueron diseñados para un mundo que cerraba a las cinco de la tarde. Esa distancia se paga en caídas.

La banca cambió de horario sin avisarle a su tecnología. Los pagos instantáneos lo dejaron claro: en Brasil, PIX procesó más de 63 mil millones de transacciones en 2024, operando los 365 días sin pausa. La expectativa del cliente ya no respeta la ventana de mantenimiento nocturna que el core legado da por sentada. Y cuando un sistema pensado para procesar por lotes de madrugada tiene que estar de pie a toda hora, las grietas aparecen.

El costo de caerse, en números

Una caída no es una molestia: es una factura. En la banca, el costo de una hora de inactividad supera con frecuencia los cinco millones de dólares, según las mediciones de la industria. En el Reino Unido, una encuesta a tomadores de decisión de TI cifró la caída promedio de un banco de inversión en más de una hora de duración y unas 600 mil libras de costo. Y el Uptime Institute encontró que más de la mitad de los operadores reportó que su última caída seria costó más de 100 mil dólares, y uno de cada cinco, más de un millón.

El caso más revelador es público. Datos entregados al Parlamento británico mostraron que nueve de los mayores bancos del Reino Unido acumularon más de 803 horas de caídas no planeadas —más de 33 días— en apenas dos años, repartidas en 158 incidentes. En una de esas caídas, más de la mitad de los pagos en línea de un banco fallaron por una degradación severa de su mainframe. Y dos de las mayores caídas recientes en Estados Unidos no fueron del banco, sino de su proveedor de core y pagos: el riesgo de concentrar todo en un sistema tercerizado y opaco.

Qué significa "estar siempre disponible"

Vale la pena ponerle número a la promesa. La disponibilidad se mide en "nueves":

99.9% suena bien hasta que lo traduces: son casi 9 horas de caída al año.
99.99% baja a unos 52 minutos al año. Es el estándar que se espera de pagos y autenticación.
99.999% son apenas 5 minutos al año, el terreno de los sistemas más críticos.

Cada nueve adicional cuesta un orden de magnitud más de ingeniería, y no se alcanza con un core monolítico al que se le pide aguantar. Se alcanza con arquitectura.

Las dos capacidades que lo hacen posible: observabilidad y resiliencia

Aquí está el corazón técnico. Un core que opera 24/7 necesita dos cosas que el legado no trae de fábrica.

La primera es observabilidad: la capacidad de saber qué está pasando dentro del sistema en todo momento. Se apoya en tres pilares —los registros (logs), las métricas y las trazas distribuidas—. Las métricas te avisan que algo se rompió, las trazas te muestran por dónde, y los logs te dan el contexto para arreglarlo. Sin observabilidad, una caída a las 3 de la mañana es una llamada de pánico a ciegas; con ella, es un incidente que se diagnostica y se contiene.

La segunda es resiliencia: la capacidad —en la definición del Comité de Basilea— de entregar las operaciones críticas a través de la disrupción. No se trata de no fallar nunca; eso es imposible. Se trata de que cuando un componente falla, el sistema siga de pie. Netflix lo llevó al extremo con su famoso "Chaos Monkey", que apaga servidores al azar en producción a propósito, para obligar al sistema a ser tolerante a fallos por diseño. La idea de fondo aplica a un core: una pieza puede caer sin arrastrar al resto.

Seamos honestos en un punto que se suele vender mal: partir el monolito en microservicios no te hace resiliente por arte de magia. De hecho, mal hecho, añade complejidad y nuevas formas de fallar. La resiliencia real viene del paquete completo: diseño tolerante a fallos, observabilidad nativa y la disciplina de probar las fallas antes de que ocurran. No es solo trocear; es adoptar un modelo operativo.

El regulador también lo exige

No es solo buena práctica. El Banco de México opera SPEI bajo el concepto de ciberresiliencia y exige que los participantes mantengan conexión permanente. La CNBV obliga a tener un Plan de Continuidad de Negocio actualizado al menos cada año, que contemple desde desastres naturales hasta ciberataques. Y a nivel internacional, los Principios de Resiliencia Operativa del Comité de Basilea marcan la pauta. La disponibilidad 24/7 dejó de ser una aspiración de marketing; es una expectativa regulatoria.

Cómo lo vemos en WAU

En WAU construimos cores para operar sin pausa: observabilidad nativa —logs, métricas y trazas desde el primer día—, arquitectura tolerante a fallos donde una pieza puede caer sin tumbar el sistema, y la disciplina de resiliencia que convierte el "ojalá no se caiga" en "está diseñado para no caerse". Tu cliente opera 24/7; tu core debería también.

Si tu core todavía piensa en horario de sucursal y cada caída te cuesta sueño y dinero, hablemos. Te mostramos qué hace falta para estar siempre de pie. 👉 Agenda una conversación con nuestro equipo.