En una era donde las grandes tecnológicas compiten por adquirir los chips Blackwell de Nvidia —cuyo precio puede alcanzar los 40.000 dólares por unidad—, un experimento ha vuelto a poner los pies en la tierra a la industria. Mientras se nos dice que para la IA local necesitamos potentes NPU y cantidades ingentes de memoria, un equipo de científicos ha decidido mirar hacia atrás. El resultado es tan nostálgico como revolucionario: han logrado que una computadora que hoy consideraríamos «chatarra electrónica» razone y genere respuestas a una velocidad sorprendente.
Hardware del siglo pasado, velocidad del presente
El equipo de EXO Labs, fundado por investigadores de Oxford, utilizó para su prueba un auténtico superviviente: un PC equipado con un procesador Intel Pentium II a 350 MHz, lanzado originalmente en 1998. Lo más asombroso no es solo la antigüedad del procesador, sino que el sistema apenas contaba con 128 MB de memoria RAM y corría bajo el sistema operativo Windows 98.
A pesar de estas limitaciones extremas, el modelo de IA ejecutado alcanzó una velocidad de 39,31 tokens por segundo. Para ponerlo en perspectiva, esta velocidad es comparable (y en muchos casos superior) a la velocidad de lectura humana y a la respuesta de algunos servicios de IA en la nube bajo carga pesada. El secreto reside en la optimización: un modelo diseñado específicamente con 260.000 parámetros, una cifra minúscula comparada con los billones de parámetros de GPT-4, pero suficiente para tareas específicas de lenguaje.
35.9 tok/sec on Windows 98 🤯
This is a 260K LLM with Llama-architecture.
We also tried out larger models. Results in the blog post. https://t.co/QsViEQLqS9 pic.twitter.com/lRpIjERtSr
— Alex Cheema (@alexocheema) December 28, 2024
¿Qué significa esto para el futuro de la IA?
Este experimento no es solo una curiosidad para entusiastas del retrocomputing. Tiene implicaciones profundas sobre la accesibilidad y la sostenibilidad de la tecnología:
- Democratización del acceso: Demuestra que no es necesario renovar el hardware cada año para utilizar funciones básicas de asistencia inteligente.
- Eficiencia algorítmica: Pone en evidencia que el software actual suele ser ineficiente. Si un Pentium II puede procesar 39 tokens por segundo, un smartphone económico actual debería poder ejecutar modelos mucho más complejos de forma local sin esfuerzo.
- Privacidad total: Al requerir tan pocos recursos, estos modelos podrían integrarse en dispositivos sin conexión a internet, garantizando que los datos nunca salgan del equipo.
La IA «pequeña» es la nueva tendencia
Aunque los grandes modelos de lenguaje (LLM) siguen siendo necesarios para tareas complejas, la tendencia para este 2026 se está desplazando hacia los SLM (Small Language Models). El éxito de EXO Labs confirma que la optimización del código es tan importante como la potencia bruta. Al reducir los requisitos de hardware, la inteligencia artificial podría llegar a dispositivos médicos antiguos, sistemas de control industrial y regiones con acceso limitado a tecnología de punta.
Este hito nos recuerda que, a veces, para avanzar más rápido en el futuro, es necesario aprender de las limitaciones de eficiencia que teníamos en el pasado.