Por qué los modelos grandes a veces pierden ante los pequeños (y cómo el prompt lo corrige)
Un paper de marzo 2026 muestra que en el 7,7% de los problemas evaluados, los LLMs grandes rinden 28,4 puntos peor que los pequeños. El motivo es verbosidad espontánea dependiente de la escala. La solución cabe en una línea de prompt.
Los modelos grandes a veces rinden peor que los pequeños. Y el motivo es el prompt.
La semana pasada escribí sobre Caveman y RTK como herramientas para reducir el consumo de tokens. Forzar brevedad no solo ahorra dinero — en ciertos casos mejora la precisión del modelo. Un paper de marzo 2026 (arXiv:2604.00025) lo demuestra.
El hallazgo
Se evaluaron 31 modelos, de 0.5B a 405B parámetros, en 1.485 problemas distribuidos en cinco benchmarks. En el 7,7% de los problemas, los modelos grandes rinden 28,4 puntos porcentuales peor que los pequeños.
Por qué ocurre
Verbosidad espontánea dependiente de la escala. Los modelos grandes tienden a sobreelaborar y añaden razonamientos intermedios innecesarios que degradan la precisión final.
El experimento
Los investigadores aplicaron una intervención simple: forzar al modelo a responder de forma breve.
| Métrica | Resultado |
|---|---|
| Mejora en modelos grandes | +26,3 puntos porcentuales de precisión |
| Reducción de brecha con modelos pequeños | −67% |
| Respuesta media (control) | 197 tokens |
| Respuesta media (brevity constraint) | 78 tokens |
En GSM8K (matemáticas) y MMLU-STEM (ciencias), la jerarquía se invierte completamente: los modelos grandes pasan a superar a los pequeños por 7,7–15,9 puntos.
La conclusión
Un modelo grande con un prompt mal calibrado puede rendir peor que uno pequeño con el prompt correcto. Para tareas de razonamiento, forzar respuestas breves puede recuperar la ventaja real del modelo.
Fuente: arXiv:2604.00025