Todo el mundo habla de deuda técnica. Código que escribiste rápido, decisiones de arquitectura que tomaste bajo presión, atajos que parecían razonables en el momento. Es un concepto que los equipos de ingeniería entienden bien.
Pero hay una deuda más silenciosa y más costosa de la que casi nadie habla: la deuda de datos.
Qué es la deuda de datos
Es la acumulación de decisiones (o no-decisiones) sobre cómo se capturan, almacenan, organizan y mantienen los datos de una empresa. Y a diferencia de la deuda técnica, que tarde o temprano te explota en un bug o un deploy fallido, la deuda de datos te explota cuando intentas hacer algo nuevo con lo que ya tienes.
Ejemplos concretos:
- Tienes 5 años de datos de clientes, pero los primeros 3 años están en un formato que nadie documentó
- Tu CRM tiene 40,000 contactos, pero 15,000 son duplicados con variaciones de nombre
- Las categorías de productos cambiaron 3 veces y nadie migró los históricos
- Hay campos que dicen “tipo” pero nadie sabe qué significan los valores “A”, “B” y “C”
- Tus datos de ventas están en pesos, dólares y UF mezclados sin indicador de moneda
Cada una de estas cosas es manejable por sí sola. Pero se acumulan. Y cuando un día decides que quieres “hacer algo con AI” o simplemente generar un reporte confiable, descubres que el 70% del trabajo es limpiar y organizar datos. No construir modelos. No diseñar interfaces. Limpiar.
Por qué es peor que la deuda técnica
La deuda técnica la puedes ver. Está en el código. Puedes buscarla con linters, medirla con herramientas de análisis estático, y planificar sprints de refactorización.
La deuda de datos es invisible hasta que la necesitas. Nadie hace un “audit de datos” trimestral. Nadie mide la calidad de los datos con la misma disciplina con la que mide el code coverage. Los datos simplemente se van acumulando, y todos asumen que “están bien” porque los reportes mensuales siguen saliendo.
Hasta que alguien hace la pregunta equivocada y el reporte no cuadra. O hasta que compras una herramienta de BI y los dashboards muestran números que nadie reconoce.
En ingeniería de software hay un concepto llamado entropía: la tendencia natural de los sistemas a desordenarse con el tiempo si no se les aplica mantenimiento activo. Los datos son iguales. Si nadie está activamente cuidando la calidad, la consistencia y la documentación, el desorden crece exponencialmente.
Señales de que la tienes
Cinco preguntas que revelan deuda de datos en cualquier empresa:
-
¿Cuánto tardan en generar un reporte ad-hoc? Si la respuesta es “depende de quién lo pida” o “una semana”, hay deuda.
-
¿Cuántas personas entienden la estructura de su base de datos principal? Si la respuesta es una o dos, estás en riesgo. Si la respuesta es “nadie completamente”, es urgente.
-
¿Confían en sus datos para tomar decisiones? Si la respuesta empieza con “bueno, más o menos…”, ya sabes.
-
¿Tienen un diccionario de datos documentado? La mayoría de las empresas no sabe qué significa la mitad de sus campos.
-
¿Qué pasa si necesitan migrar a otro sistema? Si la respuesta causa sudor frío, la deuda es seria.
Cómo empezar a pagar
No se trata de un proyecto masivo de “limpieza de datos.” Eso suena bien en una presentación, pero en la práctica nadie lo prioriza.
Lo que funciona:
Inventario antes que limpieza. Antes de limpiar, necesitas saber qué tienes. Un catálogo simple de fuentes de datos, qué contienen, quién las usa, y cuál es su estado. No necesitas una herramienta de data governance de $200K. Necesitas un documento honesto.
Reglas de calidad en el punto de captura. Es más barato prevenir la deuda que pagarla. Validaciones en formularios, formatos estandarizados, campos obligatorios bien pensados. Cada dato que entra limpio es un dato que no tienes que limpiar después.
Ownership explícito. Cada fuente de datos necesita un dueño. No un equipo. Una persona que es responsable de su calidad. Si el dato es de todos, no es de nadie.
Pagar de a poco. Cada vez que alguien toca un dataset para un proyecto, deja los datos mejor de lo que los encontraste. Es el equivalente del “boy scout rule” en código: deja el campamento más limpio de lo que lo encontraste.
La inversión que nadie quiere hacer
Pagar deuda de datos no es emocionante. No tiene un demo impresionante. No sale en TechCrunch. Pero es la diferencia entre una empresa que puede adoptar AI en semanas y una que necesita meses solo para tener datos utilizables.
Si estás pensando en cualquier iniciativa de AI, automatización, o analítica avanzada, empieza por preguntarte: ¿cómo están mis datos? La respuesta honesta a esa pregunta vale más que cualquier proof of concept.