METHOD · JUN · 15 · 2026

La forma correcta de medir si tu sistema de IA realmente está funcionando

El uptime y la latencia te dicen que el sistema está corriendo. No te dicen que está produciendo resultados correctos. Son instrumentos distintos, y la mayoría de los equipos solo instala el primer conjunto.

5 MIN READ

Un flujo de trabajo de IA en producción puede mostrar 99.9% de uptime, latencia p95 por debajo de 200ms y cero alertas de infraestructura — mientras genera respuestas incorrectas en el 30% de las solicitudes sin que nadie lo note. La infraestructura está sana. Los resultados no. Son modos de falla distintos y requieren instrumentos distintos.

La mayoría de los equipos instrumenta primero la capa de infraestructura porque esas herramientas son conocidas. Prometheus, Datadog, PagerDuty — son bien entendidas. La instrumentación de calidad de salida se pospone porque parece más difícil de definir. Esa postergación es donde los sistemas de IA en producción se degradan en silencio.

Métricas de infraestructura vs. métricas de calidad de salida

Las métricas de salud de infraestructura responden: ¿está corriendo el sistema?

Uptime / disponibilidad
Latencia p50, p95, p99
Tasa de errores (HTTP 5xx, conteo de timeouts)
Profundidad de cola y throughput

Estas importan. Un sistema caído no produce nada. Pero un sistema activo que produce resultados incorrectos suele ser peor — porque parece estar bien desde afuera mientras erosiona la confianza o genera errores en procesos posteriores.

Las métricas de calidad de salida responden: ¿está el sistema produciendo resultados correctos y útiles?

Precisión contra un ground truth conocido
Drift de salida a lo largo del tiempo
Tasa de rechazo o fallback

Estas requieren que definas qué significa "correcto" para tu flujo de trabajo específico. Esa definición es la parte difícil. La instrumentación, una vez que tienes la definición, es directa.

Tres señales de calidad de salida para rastrear desde el primer día

1. Precisión contra una muestra etiquetada

Elige un conjunto fijo de entradas donde conoces la salida correcta. 50–100 ejemplos es suficiente para empezar. Ejecuta tu pipeline contra ese conjunto de forma programada — diariamente o en cada despliegue. Registra la tasa de aprobación a lo largo del tiempo.

Esto no requiere un framework de evaluación completo. Un script que ejecute la muestra, compare las salidas con los valores esperados y escriba un conteo de aprobados/fallidos en un log es suficiente. La disciplina está en ejecutarlo de forma consistente, no en construir algo elaborado.

Si tu tasa de aprobación cae de 94% a 81% después de un cambio de prompt o una actualización de versión del modelo, quieres saberlo antes de que llegue al tráfico de producción.

2. Tasa de drift de salida

El drift ocurre cuando la distribución de salidas cambia sin un cambio intencional. Un clasificador que antes devolvía "alta confianza" en el 60% de las entradas ahora lo devuelve en el 85% — sin cambios en el modelo ni en el prompt. Ese cambio es una señal de que algo upstream cambió: formato de datos de entrada, longitud de contexto, distribución de tokens.

Registra un histograma simple de tus categorías de salida o bandas de confianza. Guárdalo diariamente. Compara semana a semana. Un cambio del 5% es ruido. Un cambio del 20% en dos semanas es una señal de alerta.

No necesitas una base de datos vectorial ni comparación de embeddings para detectar drift básico. Una tabla de frecuencias escrita en un archivo de log y comparada contra una línea base móvil es suficiente para la mayoría de los flujos de trabajo.

3. Tasa de rechazo y fallback

Todo pipeline de IA en producción debe tener un camino de fallback — un default basado en reglas, un disparador de escalación humana o una respuesta segura en caché. La tasa a la que tu sistema activa ese fallback es una señal directa de calidad.

Si tu tasa de fallback es 2% el lunes y 14% el jueves, algo cambió. Quizás una fuente de datos upstream empezó a enviar entradas malformadas. Quizás un modelo empezó a rechazar una clase de prompts que antes manejaba. La tasa de fallback expone el problema antes de que lo hagan los usuarios.

Registra cada evento de fallback con un código de razón. Incluso tres códigos — low_confidence, malformed_input, timeout — te dan suficiente señal para hacer triage.

Cómo instrumentar sin construir una plataforma de observabilidad completa

No necesitas una plataforma dedicada de MLOps para capturar estas tres señales. Aquí hay una configuración mínima que funciona:

Precisión: Un script programado (cron o un job runner simple) que ejecuta tu conjunto de muestra etiquetada y agrega una línea JSON a un archivo de log. Campos: timestamp, sample_size, pass_count, fail_count, pass_rate.
Drift: Un contador que se incrementa por categoría de salida en cada solicitud en vivo. Vuelca a un log o a un almacén de series de tiempo ligero cada hora. Compara contra un promedio móvil de 7 días.
Tasa de fallback: Un wrapper alrededor de tu lógica de fallback que registra {timestamp, reason_code, input_hash} en cada activación. Agrega diariamente.

Los tres se pueden implementar en una tarde. El footprint total de almacenamiento para un flujo de trabajo que procesa 1,000 solicitudes por día es menor a 10MB por mes.

El punto no es la sofisticación. El punto es que estos números existan en algún lugar donde puedas consultarlos, y que los consultes de forma programada — no solo cuando algo se rompe.

El hábito operacional que hace que esto funcione

La instrumentación sin revisión es solo ruido en los logs. Establece una cadencia de revisión semanal. Tres números, cinco minutos: tasa de aprobación de precisión, delta de drift, tasa de fallback. Si los tres son estables, sigue adelante. Si uno cambia, investiga antes de que se acumule.

Esta es la misma disciplina que revisar alertas de infraestructura. La calidad de salida solo requiere que definas las condiciones de alerta tú mismo, porque ningún proveedor las entrega preconfiguradas para tu flujo de trabajo específico.

Si estás construyendo o auditando un pipeline de IA en producción y quieres un segundo par de ojos en tu configuración de medición, Inicia una conversación →