Agentes AI: lo que funcionan, lo que no, y lo que nadie te dice

18 de noviembre de 2025

Si 2024 fue el año de los modelos de lenguaje, 2025 es el año de los agentes. Cada semana aparece un framework nuevo, una startup nueva, una demo nueva de un agente que “hace todo solo.” Y cada semana me preguntan lo mismo: “¿Esto funciona de verdad?”

La respuesta honesta: depende de qué le pidas.

Qué es un agente AI (sin el marketing)

Despojado de la capa de hype, un agente AI es un sistema que recibe un objetivo, descompone las tareas necesarias para lograrlo, ejecuta esas tareas usando herramientas disponibles, y ajusta su plan según los resultados que obtiene.

Eso es todo. No es magia. No es inteligencia general. Es un loop de planificación-ejecución-evaluación alimentado por un modelo de lenguaje que es bueno entendiendo contexto y generando texto.

La diferencia con un prompt normal es que el agente tiene capacidad de actuar. Puede llamar APIs, leer archivos, ejecutar código, buscar información. No solo responde. Hace.

Dónde funcionan bien

Después de meses trabajando con agentes en distintos contextos, los patrones donde realmente entregan valor son bastante específicos:

Tareas con pasos claros y verificables. Si puedes describir la tarea como una secuencia de pasos donde cada resultado se puede verificar, un agente funciona bien. Ejemplo: extraer datos de un documento, cruzarlos con una base de datos, generar un reporte. Cada paso tiene un output concreto que se puede validar.

Tareas repetitivas con variaciones. No exactamente iguales cada vez (para eso sirve un script), pero similares con matices. Ejemplo: procesar 200 emails de proveedores que tienen formatos distintos pero piden lo mismo. Un script no maneja la variación. Un humano pierde horas. Un agente navega las diferencias.

Investigación y síntesis. Buscar información en múltiples fuentes, extraer lo relevante, y sintetizarlo. Los agentes son sorprendentemente buenos en esto porque es esencialmente lo que los modelos de lenguaje hacen mejor: procesar mucho texto y extraer señal del ruido.

Dónde fallan (todavía)

Tareas que requieren juicio subjetivo. “¿Este diseño es bueno?” “¿Este email suena profesional?” “¿Este cliente vale la pena?” Los agentes pueden intentar responder, pero su juicio es inconsistente y no tiene el contexto cultural, emocional o estratégico que un humano aporta.

Cadenas largas sin checkpoints. Si un agente necesita ejecutar 15 pasos secuenciales y el error del paso 3 se propaga invisiblemente hasta el paso 12, tienes un problema. Los errores se acumulan. Sin puntos de verificación intermedios, el resultado final puede estar completamente desviado sin que nadie lo note.

En ingeniería de control le llaman “propagación de errores en sistemas en cascada.” Cada etapa amplifica la desviación de la anterior. La solución es la misma en ambos campos: verificación intermedia y corrección temprana.

Decisiones con consecuencias irreversibles. Enviar un email a un cliente, hacer un deploy a producción, ejecutar una transacción financiera. Cualquier acción que no puedas deshacer necesita supervisión humana. Los agentes son herramientas, no tomadores de decisiones.

Contexto organizacional complejo. “Pregúntale a Juan del equipo de ventas por qué rechazaron a ese prospecto” no es algo que un agente pueda resolver. Las dinámicas humanas, las políticas internas, el conocimiento tácito de una organización no están en ningún sistema que un agente pueda consultar.

Lo que nadie te dice

Los agentes necesitan infraestructura. No basta con conectar un modelo a unas herramientas. Necesitas manejo de errores, reintentos, logging, límites de costo, timeouts, y supervisión. Un agente sin guardrails es un generador de facturas de API y resultados impredecibles.

El costo puede escalar rápido. Cada paso de un agente es una llamada al modelo. Un agente complejo puede hacer 20-30 llamadas para completar una tarea. Multiplica eso por volumen y el costo se vuelve significativo. La optimización de costos en agentes es un skill que poca gente tiene.

La demo no es el producto. Una demo donde un agente reserva un vuelo en 30 segundos es impresionante. Pero esa demo no muestra qué pasa cuando la aerolínea tiene errores, cuando el usuario cambia de opinión a mitad del proceso, cuando la conexión falla, o cuando el modelo interpreta mal una instrucción ambigua. La distancia entre demo y producción es enorme.

Nuestra perspectiva

En Redstone Labs usamos agentes internamente y los construimos para clientes. Pero con una regla clara: el agente es una herramienta, no un reemplazo. El humano define el objetivo, supervisa los checkpoints críticos, y toma las decisiones irreversibles.

Los agentes de AI hoy son como los primeros coches: revolucionarios en concepto, limitados en práctica, y requieren un operador que sepa lo que hace. Eso va a cambiar. Pero hoy, la diferencia entre un agente que entrega valor y uno que genera problemas está en quién lo diseña, cómo lo supervisa, y qué tan honesto es sobre sus limitaciones.

Si alguien te dice que un agente puede “hacer todo solo”, pregúntale cuántas veces falló en el camino. Si no tiene una respuesta, no lo ha probado en producción.