Aprende a gastar menos
en tokens.

Guías, casos reales y análisis técnicos sobre optimización de LLMs. Todo en español, con datos reales.

Guía completa

Prompt caching en Claude: cómo ahorrar un 90% en tokens repetidos

El prompt caching es probablemente la técnica con mayor ROI en optimización de tokens. Si tienes un system prompt largo que envías en cada request, estás pagando por él miles de veces al día. Te explicamos cómo funciona, cuándo activarlo y cuánto puedes ahorrar.

// Sin caching — pagas el system prompt cada vez
tokens_por_request: 4.200 // 3.800 son system prompt
coste_diario (1k req): €62.40
 
// Con caching activado
tokens_por_request: 420 // solo los nuevos
coste_diario (1k req): €6.24
Caso real

De €4.200/mes a €860: cómo una startup SaaS redujo su factura de Claude en 3 días

Tres cambios concretos — prompt caching, compresión de contexto y model routing — aplicados a un pipeline de atención al cliente con 5.000 requests/día.

Técnica

Model routing: usa GPT-4 solo cuando de verdad lo necesitas

La mayoría de las tareas en un pipeline de IA no requieren el modelo más potente. Te mostramos cómo clasificar requests automáticamente y enrutar cada uno al modelo más económico sin perder calidad.

Técnica

Structured output y max_tokens: el freno de mano que nadie activa

Forzar JSON estructurado y limitar el output_tokens son dos cambios que toman 5 minutos y pueden reducir tus tokens de salida entre un 40% y un 70%. Con ejemplos reales en Python.

Análisis

Comparativa de costes 2025: Claude 3.5 Sonnet vs GPT-4o vs Gemini 1.5 Pro

Precio por millón de tokens, latencia media, calidad en tareas de clasificación y generación. Tabla comparativa actualizada con los modelos más usados en producción.

Caso real

Cómo comprimimos el contexto de un chatbot legal sin perder ni un dato relevante

Un despacho de abogados usaba contextos de 12.000 tokens por conversación. Aplicando summarización progresiva y extracción de entidades, lo bajamos a 2.800 manteniendo el 100% de precisión.