Claude Code y los 200k tokens: controla contexto y coste

TL;DR: En Claude Code, cruzar los 200k tokens de contexto no activa ningún cargo mágico, pero sí dispara el consumo por turno: cada mensaje reenvía toda la conversación, así que una sesión a 400k cuesta varias veces más por turno que una a 80k. El premium 2x por contexto largo se retiró en marzo de 2026, pero el problema sigue ahí porque es volumen, no multiplicador. Aquí tienes cómo controlar el contexto con settings.json y comandos para que no se te vaya el presupuesto sin darte cuenta.

El problema: tu sesión engorda y tú no lo ves

El patrón es siempre el mismo. Abres Claude Code por la mañana, arrancas una tarea, lees diez ficheros, lanzas tests, iteras. A media tarde sigues en la misma sesión y, de repente, tu presupuesto mensual está al 40% un martes cualquiera. Nadie tocó el modelo. Nadie hizo nada raro. Lo que pasó es que el contexto creció hasta superar los 200k tokens y empezaste a pagar (en tokens o en límites de uso) por arrastrar toda esa conversación en cada turno.

El caso que disparó las alarmas en la comunidad esta semana es claro: un usuario configuró CLAUDE_CODE_DISABLE_1M_CONTEXT=1 esperando blindarse, y aun así Sonnet 4.6 le fundió todo el crédito extra al superar los 200k. La variable no siempre actúa donde crees. Vamos a entender por qué pasa esto y cómo cortarlo de raíz.

¿Qué es el contexto facturable en Claude Code?

El contexto es todo lo que el modelo "ve" en cada turno: el system prompt, tu CLAUDE.md, cada fichero leído, cada resultado de herramienta y cada mensaje previo. El contexto crece de forma lineal: cada turno reenvía completo todo lo acumulado más lo nuevo. No es memoria gratis; es input que se procesa (y se tarifica o se descuenta de tu límite) en cada llamada.

Hasta hace poco había dos ventanas según el modelo: la estándar de 200k tokens y la ampliada de 1M (un millón) de tokens, disponible en Opus 4.6, 4.7, 4.8 y Sonnet 4.6. La diferencia importaba porque cruzar 200k te metía en territorio de contexto largo. Si quieres una base sobre cómo se acumula y dispara el gasto, lo desarrollé en cómo medir tokens y coste de Claude Code en VS Code.

La verdad incómoda: el premium 2x ya no existe (pero el coste sí)

Aquí hay que ser honesto, porque circula mucha desinformación. El 13 de marzo de 2026 Anthropic eliminó el recargo del 2x por contexto largo para Opus 4.6/4.7/4.8 y Sonnet 4.6. La ventana de 1M es GA a tarifa estándar. Según la documentación oficial de pricing de Claude, estos modelos incluyen la ventana de 1M "at standard pricing", sin multiplicador.

Entonces, ¿por qué se sigue vaciando el presupuesto al cruzar 200k? Por una razón puramente aritmética:

El coste escala con el volumen. Sin multiplicador, un turno a 400k de contexto lee unas 5 veces más tokens que un turno a 80k. Cinco veces más input procesado por turno significa, a grandes rasgos, cinco veces más coste por turno. No hay premium; hay masa.
Los límites de suscripción se consumen igual. En Pro o Max, tu cupo no mide "número de turnos", mide tokens. Un contexto hinchado quema tu límite semanal mucho más rápido aunque cada token valga lo estándar.
La caché ayuda, pero sobre una base mayor. El descuento del 90% en cache reads sigue, pero el 90% se aplica a un volumen mucho más grande. 90% de mucho sigue siendo más que 90% de poco.

La conclusión práctica: 200k no es un peaje, es un punto donde tu sesión deja de ser barata sin que ningún aviso te lo grite.

200k vs 1M: cuándo te interesa cada ventana

Aspecto	Ventana 200k	Ventana 1M
Coste por turno bajo	Sí, mientras compactes	Crece rápido con el contexto
Riesgo de quemar límites	Bajo	Alto en sesiones largas
Espacio usable real	~167k (buffer de ~33k reservado)	Hasta ~1M
Cuándo conviene	El 90% de tu trabajo diario	Auditar un codebase entero en una pasada
Modelo recomendado	Sonnet 4.6 / Opus	Opus (Sonnet rinde mal a 1M)

El dato clave: en la mayoría de sesiones reales el contexto pico ronda 80k-120k antes de compactar. Casi nunca necesitas la ventana de 1M; activarla solo te expone a hinchar la sesión.

Implementación: blinda tu contexto en 4 pasos

1. Fija el contexto en 200k y baja el umbral de auto-compactación

Estas dos variables, en tu settings.json, son la base. Desactivan la ventana de 1M y fuerzan la compactación al 80% en vez de esperar al límite.

// settings.json — vuelve a 200k y compacta antes de que sea tarde
{
  "env": {
    "CLAUDE_CODE_DISABLE_1M_CONTEXT": "1",
    "CLAUDE_AUTOCOMPACT_PCT_OVERRIDE": "80"
  }
}

Si trabajas mucho con configuración de Claude Code, revisa también que tu CLAUDE.md no esté inflando el contexto base; lo traté en cómo auditar tu CLAUDE.md con Opus 4.8.

2. Vigila el número con `/context`

Antes de seguir teorizando, mide. El comando /context te dice exactamente dónde estás:

# Muestra el uso real de contexto de la sesión
/context
# Salida tipo: 142k/200k tokens  -> aún en ventana estándar
# Si ves 320k/1000k -> estás en 1M y pagando volumen

Si la salida muestra /1000k, la ventana de 1M está activa aunque creyeras haberla desactivado. Esa es la señal de que tu env no se está aplicando donde toca.

3. Compacta pronto y limpia entre tareas

Dos hábitos cambian tu factura más que cualquier setting:

/compact al 50% o tras cada tarea cerrada. No esperes al auto-compact: cuando salta tarde, ya pagaste el pico.
/clear entre trabajos no relacionados. Una sesión nueva arranca con prefijo fresco. Arrastrar exploración vieja no solo cuesta, también ensucia el razonamiento del modelo.

4. Si estás en Pro, controla `/extra-usage`

En Pro, la ventana de 1M no es automática: se activa con /extra-usage. El problema es que mucha gente la activó "para probar" y se olvidó. Revisa tu estado y desactívala si no la necesitas hoy.

Caso real: la sesión maratón que costó de más

En escenarios reales de equipos de producto, el patrón típico es una sesión de refactor que dura tres horas. Sin compactar, el contexto trepa de 90k a 350k mientras el modelo relee los mismos ficheros en cada turno. A tarifa estándar, sin ningún premium, esa sesión consumió el equivalente a varias sesiones limpias, simplemente porque cada uno de los últimos 40 turnos arrastró 350k de input.

El arreglo no fue cambiar de modelo ni de plan. Fue trocear el refactor en sub-tareas con /clear entre ellas y compactar al 80%. Mismo trabajo, fracción del gasto. Si vienes de otros entornos, esto conecta con buenas prácticas de separación de responsabilidades: tareas acotadas, contextos acotados.

En Producción

Cuando esto deja de ser tu sesión personal y pasa a ser un equipo o workflows programados, los números se multiplican. Consideraciones reales:

Coste: en Max 20x (unos 180€/mes) un solo usuario disciplinado puede gastar el 30% del cupo; el mismo flujo sin control de contexto se va por encima del límite y empuja a pagar extra usage pay-as-you-go. La diferencia entre ambos escenarios es solo higiene de contexto.
Workflows automatizados: si lanzas tareas programadas, cada una debería arrancar en sesión limpia. Una sesión persistente que acumula contexto entre ejecuciones es una fuga garantizada.
Equipos: estandariza el settings.json con las dos variables en el repo. Un CLAUDE_CODE_DISABLE_1M_CONTEXT=1 compartido evita sorpresas en la factura del equipo.
Escalabilidad: la ventana de 1M es una herramienta puntual para auditar un codebase entero, no un modo de trabajo por defecto. Trátala como una excepción explícita.

Para entender qué otros factores disparan el gasto más allá del contexto, complementa esto con las 5 cosas que provocan cache miss y suben tu factura.

Errores comunes y depuración

Error: pusiste CLAUDE_CODE_DISABLE_1M_CONTEXT=1 y sigues viendo /1000k → Causa: la variable no se cargó en el entorno donde corre Claude Code (la pusiste en una shell, pero el proceso usa otra) o un flag de sesión la sobrescribe. Solución: fíjala en settings.json dentro de env, no solo en tu shell, y reinicia la sesión. Verifica con /context.

Error: "Usage credits required for 1M context" bloquea todo en Pro pese a tener cupo → Causa: es un bug reportado (GitHub issue #65514) donde el error salta antes de procesar el modelo, lo que hace inútiles tanto --model como la variable de entorno. Solución: a junio de 2026 sigue siendo un fallo abierto; el workaround es no activar /extra-usage y, si ya lo activaste, abrir sesión nueva sin él. Actualiza Claude Code a la última versión, porque las regresiones de harness se cuelan a menudo.

Error: el auto-compact salta tarde y te empuja por encima del umbral → Causa: el buffer de compactación reserva ~33k tokens (16,5%) y el disparo por defecto llega cuando ya pagaste el pico. Solución: baja el umbral con CLAUDE_AUTOCOMPACT_PCT_OVERRIDE y, sobre todo, compacta tú a mano antes.

Preguntas frecuentes

¿Sigue habiendo un recargo del 2x al pasar de 200k en 2026?

No. Anthropic retiró el premium por contexto largo el 13 de marzo de 2026 para Opus 4.6/4.7/4.8 y Sonnet 4.6. La ventana de 1M va a tarifa estándar. El gasto extra al cruzar 200k viene del volumen de tokens por turno, no de un multiplicador.

¿Qué hace exactamente `CLAUDE_CODE_DISABLE_1M_CONTEXT=1`?

Devuelve la sesión a la ventana de 200k en lugar de 1M, así el contexto no puede hincharse hasta el millón de tokens. Para que funcione debe estar en el entorno real del proceso, idealmente en settings.json, y conviene verificar con /context que ves /200k.

¿Me conviene la ventana de 1M para mi trabajo diario?

Casi nunca. La mayoría de sesiones pican entre 80k y 120k de contexto antes de compactar y jamás se acercan a 200k. Reserva la ventana de 1M para casos puntuales, como auditar un codebase grande en una sola pasada, y usa Opus para ello porque Sonnet rinde mal a esa escala.

Lo que te llevas

Hemos visto que el famoso "peaje de los 200k" ya no es un recargo, sino pura aritmética de volumen: cada turno arrastra todo el contexto, y un contexto grande sale caro turno tras turno aunque la tarifa sea estándar. La defensa no es un truco, es higiene: fija la ventana en 200k, baja el umbral de auto-compactación, compacta pronto y limpia entre tareas. Con eso, una sesión maratón vuelve a costar lo que debería.

Si quieres afinar más, el siguiente paso natural es decidir cuándo subir el esfuerzo de razonamiento sin disparar el gasto, algo que desgloso en cómo usar los niveles de effort en Claude Code. ¿Has tenido un susto en la factura por contexto acumulado? Cuéntamelo en los comentarios o en Twitter @sergiomarquezp_. En el próximo artículo entro en cómo orquestar sesiones largas sin perder el hilo ni el presupuesto.