La pregunta que más se hace mal al arrancar un proyecto con IA es "¿cuánto me va a salir?". Mucha gente la responde mirando el precio por token del modelo elegido y multiplicando por el volumen esperado. Después descubren, tres meses más tarde, que la factura es tres o cinco veces más alta de lo estimado. Y el factor que más impactó nunca fue el precio del token: fueron las decisiones de diseño que los llevaron a llamar al modelo más veces de lo necesario.
Este post explica cómo calculamos nosotros el costo real antes de comprometernos con un diseño, y cuáles son los multiplicadores que casi nadie incluye.
Los 4 componentes del costo
Cuando pensamos en el costo mensual de un workflow con IA, lo desglosamos en cuatro partes. Solo mirar una de ellas es cómo se llega a estimaciones irreales.
1. Costo de API (LLM + embeddings + otros servicios). Es lo que te cobra OpenAI, Anthropic, o el proveedor que estés usando. Es el componente más visible y el que todos calculan.
2. Costo de infraestructura. El VPS donde corre n8n, la base de datos, el almacenamiento de documentos procesados, los backups. Para una PyME típica, entre 10 y 50 USD mensuales. Suele olvidarse.
3. Costo de mantenimiento. Horas mensuales que requiere el sistema para seguir funcionando: monitoreo, investigación de errores, ajustes de prompts, actualizaciones. Depende del diseño y de la madurez del proyecto.
4. Costo de incidentes. Cada tanto algo sale mal: la API cambió, una credencial venció, un prompt empezó a dar outputs raros, un upstream tiró datos corruptos. Estos incidentes requieren tiempo de respuesta y a veces reparaciones costosas.
Los componentes 2, 3 y 4 juntos suelen ser más altos que el componente 1, especialmente en los primeros seis meses. Ignorarlos te lleva a proponer proyectos que no cierran el ROI cuando salen a producción.
Por qué "tokens in + tokens out" es la parte fácil
El cálculo base es simple. Si tu workflow procesa 500 items por mes, cada item requiere un prompt de 2.000 tokens de input y una respuesta de 500 tokens, y usás GPT-4o-mini (~0.15 USD por millón de tokens input, ~0.6 USD por millón output), el cálculo directo da:
- Input: 500 × 2.000 = 1.000.000 tokens → 0.15 USD
- Output: 500 × 500 = 250.000 tokens → 0.15 USD
- Total estimado directo: 0.30 USD por mes
Ese número es casi siempre muy optimista. Para llegar al número real, hay que aplicar los multiplicadores que el cálculo directo ignora.
Los multiplicadores que la gente olvida
Retries. Cuando la API tira un 429 o un 500 transitorio, tu sistema reintenta. Si configuraste 3 retries, peor caso cada ejecución cuesta 4x el costo base. En la práctica, los retries agregan entre 5% y 20% al costo total, dependiendo del comportamiento de la API upstream.
Chain-of-thought / razonamiento explícito. Muchos patrones de prompting exitosos piden al modelo que "piense en voz alta" antes de dar la respuesta. Eso puede duplicar o triplicar los tokens de output. Si tu prompt dice "explicá tu razonamiento antes de dar el resultado", multiplicá el output estimado por 2 o 3.
System prompts y few-shot examples. Los prompts de producción rara vez son "pregunta directa". Suelen tener instrucciones extensas, ejemplos, contexto, reglas de formato. Un system prompt de 1.500 tokens se suma a cada llamada. Si vas a llamar 500 veces por mes, son 750.000 tokens adicionales de input que no estaban en tu cálculo optimista.
RAG context. Si tu workflow recupera documentos para dar contexto, esos documentos son tokens de input. Si recuperás top-5 chunks de 500 tokens cada uno, son 2.500 tokens adicionales de input por query. Multiplicá por volumen y el número crece rápido.
Multi-step workflows. Casi ningún workflow real es una única llamada al LLM. Lo típico es extraer → clasificar → generar → validar. Cuatro llamadas por item, cada una con su costo. Multiplicá el cálculo base por el número de pasos.
Tools / function calls. Si tu workflow usa function calling o tools, cada "pensamiento" del modelo antes de llamar a una función es tokens adicionales. Y si el tool devuelve datos que vuelven al contexto, son tokens adicionales también.
Cálculo real vs directo para 3 workflows nuestros
Casos reales para hacer tangible el multiplicador.
Caso 1: clasificación de tickets de soporte. 3.000 tickets por mes, GPT-4o-mini, prompt system 800 tokens, input del ticket 300 tokens promedio, respuesta estructurada 50 tokens.
- Cálculo directo: 3.000 × (300 + 50) = 1.05M tokens, costo ~0.3 USD.
- Cálculo real: 3.000 × (800 system + 300 input) = 3.3M input, 3.000 × 50 = 150k output. Costo: ~0.6 USD. Retries y reruns agregan 10%. Total mensual real: ~0.66 USD.
Relación real vs directo: 2.2x. En este caso el costo absoluto sigue siendo trivial, pero el método está claro.
Caso 2: extracción de datos de facturas. 800 facturas por mes, 3 llamados por factura (OCR, extracción, validación), GPT-4o para la extracción (porque calidad importa), prompt system con ejemplos 3.000 tokens, input OCR ~2.000 tokens por factura, output estructurado 400 tokens.
- Cálculo directo: 800 × (2.000 + 400) = 1.9M tokens, asumiendo un solo modelo. Costo ~20 USD (GPT-4o tiene input 5 USD/1M y output 15 USD/1M aproximado).
- Cálculo real: 3 llamadas por factura, system prompt en cada una. Input total: 800 × 3 × (3.000 + 2.000) = 12M tokens input → 60 USD. Output: 800 × 3 × 400 = 960k tokens → 14.4 USD. Total API: ~75 USD.
Relación real vs directo: 3.7x. En este caso el costo absoluto sí importa para el ROI del proyecto y el cliente tiene que saberlo antes de comprometerse.
Caso 3: generación de resúmenes para equipo de ventas. 200 generaciones por mes, Claude Sonnet, RAG con 5 documentos de contexto, prompt system 1.000 tokens, input adicional variable 500 tokens, output 1.500 tokens, con chain-of-thought explícito.
- Cálculo directo: 200 × (500 + 1.500) = 400k tokens. Costo asumiendo tarifa de Sonnet (~3 USD/1M input, ~15 USD/1M output): 6.3 USD.
- Cálculo real: Input = 200 × (1.000 system + 500 query + 5 × 800 chunks RAG) = 1.1M tokens → 3.3 USD. Output con CoT explícito 2.5x = 750k → 11.25 USD. Total API: ~14.55 USD. Retries 5% → ~15.3 USD. Cost de embeddings para RAG en el mes ~1 USD. Total: ~16.3 USD.
Relación real vs directo: 2.6x. Si al cliente le habíamos dicho 6 USD, habría sido un problema al primer mes.
Cuándo un modelo más barato sale más caro
Este es un caso contraintuitivo pero importante. A veces cambiar a un modelo más barato aumenta el costo total porque el modelo más chico requiere más intentos para alcanzar calidad aceptable.
Ejemplo real: arrancamos un workflow de extracción de datos con GPT-4o-mini porque era "más barato". La tasa de output válido según schema era del 85%. El otro 15% había que reintentar o escalar a manual. Cuando cambiamos a GPT-4o, la tasa de output válido subió a 98%. El costo por llamada fue 8x, pero el costo total del workflow (incluyendo retries y procesamiento manual) bajó ~30% porque casi no había casos problemáticos.
La moraleja: el costo de un workflow no es el precio del modelo. Es el costo de producir un output válido. A veces un modelo 10 veces más caro produce outputs 12 veces más útiles y gana.
Cómo monitorear costo en producción
Estimar es necesario; medir es indispensable. Algunas cosas que hacemos desde el día 1:
Log de costos por ejecución. Cada vez que el workflow llama al LLM, guardamos tokens input, tokens output, modelo usado, y ejecución asociada. Con eso podemos agregar por día, por tipo de input, por caso de uso. Sin esto, "¿por qué este mes costó más?" se vuelve imposible de contestar.
Alerta de threshold diario. Si el costo diario excede cierto porcentaje de lo estimado (ej. 150% del promedio de los 7 días previos), alerta. Puede ser un bug (loop infinito de retries), un cambio de volumen inesperado, o un drift del modelo. En cualquier caso, querés saberlo al día siguiente, no al fin de mes.
Breakdown por paso del workflow. Si tu workflow tiene múltiples llamadas, loggear cuál llamada es la más cara. A veces descubrís que un paso "de verificación" que parecía menor es el 60% del costo.
Revisión mensual. Al cierre de cada mes, comparación costo real vs estimado, identificación de divergencias, ajustes del prompt o del modelo si hay optimizaciones obvias.
El techo mental: ¿sobrevive a 10x?
Una pregunta que nos salvó de varios proyectos mal diseñados: "si el volumen se multiplica por 10, ¿este workflow sigue siendo rentable?". El negocio puede crecer, la adopción puede subir, el caso de uso puede expandirse. Si el costo unitario del workflow es 80% del valor que genera, un 10x de volumen con el mismo costo unitario destruye el ROI.
A veces hacemos esta prueba al revés: ¿qué costo unitario tendría que tener el workflow para seguir siendo rentable a 10x de volumen? Ese número es el target de optimización, y define qué modelos son viables a mediano plazo y cuáles no. A menudo obliga a rediseñar al principio para usar modelo más barato con mejor prompting, en vez de confiar en que "vamos a optimizar cuando sea necesario".
El punto
El costo de un workflow con IA no es el precio del token. Es el costo total de producir outputs válidos, incluyendo infraestructura, mantenimiento y incidentes. Una estimación que solo mira tokens es casi garantía de sorpresa. El método que funciona: calcular real (no directo), medir desde día 1, y tener threshold alerts que te avisen antes de que el fin de mes sea noticia. No es trabajo adicional; es parte del diseño.