TL;DR

Los prompts en español cuestan ~50% más tokens que en inglés, pero la diferencia de calidad es insignificante para tareas de programación. Usar tu idioma nativo te permite pensar más rápido y dar instrucciones más claras — eso importa más que ahorrar tokens.

Actualización, mayo 2026. Volví a auditar cada cifra de este post contra mis datos locales en crudo (history.jsonl y la caché de estadísticas de uso). Cambiaron dos cosas: sustituí algunas cifras agregadas que no se habían calculado a partir de datos reales, y encontré una historia mucho mejor escondida en los timestamps — no me desplacé poco a poco hacia el español, cambié, casi de un día para otro, a principios de 2026. Los datos nuevos están en la Parte 4, la metodología completa vive en el apéndice de datos, y la conclusión original sigue en pie.

El contexto

Soy un ingeniero de software hispanohablante que usa Claude Code como herramienta principal de desarrollo. En los últimos meses he acumulado ~2.000 sesiones y 620K+ mensajes de uso real. Mi flujo de trabajo está muy orientado a la ejecución: sesiones largas de depuración, discusiones de arquitectura, revisiones de código. (Aquí ponía originalmente “todo en español” — los datos de la Parte 4 cuentan una verdad más interesante.)

En algún momento me hice la pregunta obvia: ¿debería estar escribiendo todos estos prompts en inglés? El inglés es la lingua franca de la programación. La mayoría de los datos de entrenamiento están en inglés. Todos los benchmarks están en inglés. Seguro que estoy perdiendo rendimiento, ¿no?

Decidí averiguarlo.


Parte 1: El impuesto de tokens

Los LLMs no ven palabras — ven tokens. Y los tokenizers están fuertemente optimizados para el inglés. La palabra authentication es un solo token. Su equivalente en español, autenticación, son tres tokens.

Pasé prompts equivalentes por el tokenizer de Claude (proxy cl100k_base) para medir el coste real. Estos son prompts reales que uso a diario en Claude Code:

Tipo de prompt Inglés Español Sobrecoste
Corrección de bug 20 tokens 31 tokens +55%
Creación de endpoint API 32 tokens 46 tokens +44%
Tarea de refactorización 26 tokens 41 tokens +58%
Generación de documentación 33 tokens 52 tokens +58%
Depuración de DevOps 37 tokens 58 tokens +57%
Revisión de código (larga) 65 tokens 106 tokens +63%
Discusión de arquitectura 58 tokens 93 tokens +60%
Media de todas las pruebas 352 tokens 544 tokens +54,5%

Eso es un sobrecoste del 54,5% en tokens de media. Para prompts más largos y complejos, empeora — el prompt de revisión de código llegó al +63%.

Corrección de mayo 2026: cl100k_base es el tokenizer de OpenAI, no el de Claude — usarlo aquí fue una chapuza. Volví a pasar pares de prompts equivalentes por el tokenizer real de Claude (la API count_tokens en claude-sonnet-4-6) y obtuve un +50,0% de sobrecoste. La cifra original se midió con la herramienta equivocada pero quedó cerca. El impuesto de tokens del español, ~50%, es real.

¿Por qué la diferencia es tan grande?

Los tokenizers BPE construyen su vocabulario a partir de datos de entrenamiento, que son predominantemente en inglés. Las palabras comunes en inglés tienen su propio token. Las palabras en español a menudo se dividen en sub-palabras:

authentication 1 token
autenticación 3 tokens
deployment 1 token
despliegue 4 tokens
configuration 1 token
configuración 3 tokens
database 1 token
base de datos 3 tokens
environment 1 token
entorno 2 tokens
backward compatibility 2 tokens
compatibilidad hacia atrás 5 tokens

Observa que middleware se mantiene en 1 token en ambos idiomas — los términos técnicos tomados directamente del inglés no pagan el impuesto. Esto es importante: cuanto más técnico sea tu prompt, más anglicismos contiene, y menor es la diferencia.


Parte 2: La realidad de la ventana de contexto

En una sesión típica de Claude Code, tus prompts son una fracción mínima del contexto total. Esto es lo que realmente llena la ventana de contexto:

Sistema
~35% — Inglés (system prompt, tools)
Código
~40% — Inglés (contenido de archivos, diffs)
Herramientas
~15% — Inglés (bash, grep)
~10% — Tu idioma

Tus mensajes suelen representar ~10% del contexto. Un sobrecoste del 54% sobre el 10% del contexto es un aumento del ~5,5% en el uso total de tokens. Ese es el número real.

54% suena aterrador. 5,5% suena manejable. Ambos números son correctos — la diferencia está en contra qué lo mides.


Parte 3: ¿Afecta el idioma a la calidad?

Esta es la pregunta que realmente importa. Los tokens son dinero, pero la calidad lo es todo.

Para generación de código: sin diferencia significativa

Claude genera el mismo Go, TypeScript o Python independientemente de si le preguntas en inglés o en español. La salida de código es agnóstica al idioma. Los nombres de variables, las firmas de funciones y las decisiones de arquitectura no cambian según el idioma del prompt.

Considera estos dos prompts equivalentes:

English

Add pagination to the list endpoint. Use cursor-based
pagination with a default page size of 20.
Spanish

Añade paginación al endpoint de listado. Usa paginación
basada en cursor con un tamaño de página por defecto de 20.

Ambos producen código idéntico. Los nombres de funciones generados, las consultas SQL, los structs de respuesta — todo igual. Claude entiende la intención independientemente del idioma que la envuelve.

Para tareas de razonamiento: ligera ventaja del inglés

Los benchmarks académicos como MMLU y GSM8K muestran una pequeña ventaja (2-5%) para prompts en inglés en tareas que requieren mucho razonamiento. Es esperable — el modelo ha visto más ejemplos de razonamiento encadenado en inglés durante el entrenamiento.

Pero hay un matiz: esos benchmarks evalúan el idioma del modelo, no el tuyo. Cuando escribes en español, Claude sigue razonando internamente en la representación que usa y solo traduce la salida final. No le estás obligando a “pensar en español”.

Para claridad en las instrucciones: gana el idioma nativo

Aquí es donde está la diferencia real. Testé mi propia velocidad de escritura y descubrí que escribo ~30% más rápido en español que en inglés. No solo más rápido — también con más precisión. Cuando intenté escribir una nota rápida en inglés para probarlo, inmediatamente cometí una errata. ¿En español? Limpio a la primera.

Cuando intentaba escribir prompts en inglés:

Cuando escribo en español, expreso exactamente lo que quiero decir, con todos los matices, condiciones y casos límite. Un prompt que me lleva 5 segundos en español me lleva 8-10 en inglés — y la versión en español suele ser más precisa y sin erratas.

El mejor prompt no es el que tiene menos tokens. Es el que describe con mayor precisión lo que quieres. Tu idioma nativo te da eso.


Parte 4: Los números — y el día que cambié de idioma

Esta es la sección que reescribí en mayo de 2026. La versión original listaba unos números redondos enormes que no pude reproducir desde mis logs reales, así que aquí van los agregados verificados directamente de las estadísticas de uso de Claude Code (2025-12-23 → 2026-05-06, 108 días activos):

Pero el verdadero hallazgo no estaba en los totales — estaba en los timestamps. Asumía que era un usuario estable “60/40 español-inglés”. No lo soy. Clasifiqué todos los ~23.600 prompts por idioma y los agrupé por mes:

Sep '25
96% inglés
Oct '25
100% inglés
Nov '25
98% inglés
Dic '25
98% inglés
Ene '26
65% inglés — el cambio
Feb '26
93% español
Mar '26
95% español
Abr '26
95% español
May '26
96% español

Hasta diciembre de 2025 escribí casi todo en inglés. Luego, entre enero y febrero de 2026, salté a casi todo en español — y me quedé ahí. La “mezcla 60/40” que imaginaba no existe; era una media que ocultaba dos épocas opuestas. (Lo que también significa que, cuando publiqué esto en marzo, mi marco de “años en español” era erróneo — acababa de cambiar.)

Esto convirtió mi post, sin querer, en algo más raro que un benchmark: un antes/después real sobre el mismo humano, el mismo flujo de trabajo, solo que cambiando el idioma del prompt. Así que comparé las dos épocas.

Qué cambió al pasarme al español

Métrica Época inglés Época español Cambio
Palabras por prompt (mediana) 12 9 −25%
Palabras por prompt (media) 22,9 12,9 −44%
Tasa de corrección / “no, hazlo de otra forma” 6,3 / 100 7,9 / 100 +1,6 pts

La señal limpia es la primera: en español escribo prompts un 44% más cortos. Es exactamente el efecto de “menos fricción en mi idioma nativo” de la Parte 3, ahora visible en 13.000 prompts — digo lo que quiero con menos esfuerzo.

La tasa de corrección subió un poco, pero no lo leo como “Claude entiende peor mi español”, por tres razones: (1) la familia de modelos también cambió entre épocas, así que está confundido; (2) prompts más cortos llevan menos detalle por adelantado, así que itero más en vez de especificarlo todo de golpe — un cambio de flujo de trabajo, no una mala interpretación; y (3) el pico fue justo el mes en que cambié (un mes de adaptación torpe) y luego bajó acercándose al nivel base de la época inglesa. El idioma no era el cuello de botella — la claridad sí lo es, y los modos de fallo (requisitos ambiguos, contexto faltante, casos límite poco especificados) son idénticos en ambos idiomas.


Parte 5: El coste real

Pongamos números reales. Con Claude Sonnet a $3/M tokens de entrada:

Escenario Inglés Español Coste extra
Un prompt (media) 35 tokens 54 tokens $0.000057
Sesión típica (20 prompts) 700 tokens 1,080 tokens $0.00114
Día intenso (200 prompts) 7,000 tokens 10,800 tokens $0.0114
Mes de uso intensivo 140K tokens 216K tokens $0.228

El “impuesto” del español en mis prompts de entrada cuesta aproximadamente 23 céntimos al mes. Eso es menos de un céntimo por día laborable. Y recuerda: esto solo afecta a tus mensajes, no al system prompt, los resultados de herramientas o el contenido del código que componen la mayor parte del uso de tokens.

Con el modelo de suscripción de Claude Code, esto es aún menos relevante — pagas una tarifa plana independientemente del número de tokens.


Parte 6: Qué dice la investigación

Tras escribir la primera versión, busqué si alguien había estudiado esto en serio. Lo han hecho — pero casi siempre como benchmarks controlados (traducir la misma tarea a ambos idiomas, manteniendo al humano constante), nunca como el uso longitudinal de un desarrollador real. La literatura se divide en tres corrientes que parecen contradictorias hasta que te fijas en qué caso mide cada una:

Para código en concreto, hay “sesgo lingüístico” medido (p.ej. un prompt en un idioma dando una solución O(n²) donde el inglés daba O(n·log n)), y los prompts mezclados pueden perjudicar — pero ambos efectos tienden a cero en modelos frontera grandes.

La brecha de razonamiento a favor del inglés es real — pero se desvanece justo donde yo estoy: un idioma de altos recursos (español), un output de código (el dominio más transferible) y un modelo frontera. Y todos estos estudios miden al modelo manteniendo al humano fijo — así que ninguno puede siquiera ver mi mayor ganancia: la caída del 44% en la longitud del prompt.

Referencias: Native Design Bias, Native vs Non-Native Prompting, Better to Ask in English, Linguistic Bias in Code Generation, CodeMixBench, How NL Proficiency Shapes GenAI Code, llm-language-token-tax. Lista completa en el apéndice de datos.


El veredicto

Ventajas del idioma nativo

  • Piensas más rápido, escribes prompts más rápido
  • Instrucciones más precisas
  • Mejores discusiones de arquitectura
  • Menor carga cognitiva
  • Expresión natural de casos límite

Ventajas del inglés

  • ~50% menos tokens en prompts
  • 2-5% mejor en benchmarks de razonamiento
  • Ligera ventaja en temas raros o de nicho
  • Más fácil compartir prompts con equipos angloparlantes

Usa tu idioma nativo.

El sobrecoste de tokens es real pero irrelevante a la escala del uso real. La diferencia de calidad es medible en benchmarks pero invisible en la práctica. La ventaja en claridad de pensar en tu propio idioma es significativa y se acumula a lo largo de miles de interacciones.

Dos matices. Primero: si escribes prompts que se van a compartir como plantillas con un equipo angloparlante, escríbelos en inglés. Segundo, y más honesto: este consejo es más fuerte para mi situación exacta — un idioma de altos recursos, output de código y un modelo frontera. Si hablas un idioma de bajos recursos y te apoyas en el modelo para razonamiento puro intenso, la brecha a favor del inglés es mayor y el trade-off es real. Pero para el trabajo diario de programación — depurar, arquitectura, “arregla este bug” — usa el idioma que te permita pensar más rápido.

Eso es lo que hago yo. ~23.000 prompts después, y no pienso volver atrás.


Análisis de Jairo Caro-Accino. Originalmente marzo 2026; datos auditados y actualizados en mayo 2026. Conteos de tokens medidos con la API count_tokens de Claude (y cl100k_base para la tabla original). Datos de sesiones y prompts de los logs locales de Claude Code (history.jsonl, estadísticas de uso). Metodología completa en el apéndice de datos.