Por qué los modelos grandes a veces pierden ante los pequeños (y cómo el prompt lo corrige)

Un paper de marzo 2026 muestra que en el 7,7% de los problemas evaluados, los LLMs grandes rinden 28,4 puntos peor que los pequeños. El motivo es verbosidad espontánea dependiente de la escala. La solución cabe en una línea de prompt.

20 de abril de 2026

1 min de lectura

LLMAI EngineeringPrompt EngineeringResearch

Los modelos grandes a veces rinden peor que los pequeños. Y el motivo es el prompt.

La semana pasada escribí sobre Caveman y RTK como herramientas para reducir el consumo de tokens. Forzar brevedad no solo ahorra dinero — en ciertos casos mejora la precisión del modelo. Un paper de marzo 2026 (arXiv:2604.00025) lo demuestra.

El hallazgo

Se evaluaron 31 modelos, de 0.5B a 405B parámetros, en 1.485 problemas distribuidos en cinco benchmarks. En el 7,7% de los problemas, los modelos grandes rinden 28,4 puntos porcentuales peor que los pequeños.

Por qué ocurre

Verbosidad espontánea dependiente de la escala. Los modelos grandes tienden a sobreelaborar y añaden razonamientos intermedios innecesarios que degradan la precisión final.

El experimento

Los investigadores aplicaron una intervención simple: forzar al modelo a responder de forma breve.

Métrica	Resultado
Mejora en modelos grandes	+26,3 puntos porcentuales de precisión
Reducción de brecha con modelos pequeños	−67%
Respuesta media (control)	197 tokens
Respuesta media (brevity constraint)	78 tokens

En GSM8K (matemáticas) y MMLU-STEM (ciencias), la jerarquía se invierte completamente: los modelos grandes pasan a superar a los pequeños por 7,7–15,9 puntos.

La conclusión

Un modelo grande con un prompt mal calibrado puede rendir peor que uno pequeño con el prompt correcto. Para tareas de razonamiento, forzar respuestas breves puede recuperar la ventaja real del modelo.

Fuente: arXiv:2604.00025