Fernando Rodríguez[1]
Desde que el Gobierno anunciara ALIA —supuestamente el primer gran modelo de IA español, desarrollado en el Centro de Supercomputación de Barcelona—, la controversia no ha dejado de crecer. En redes sociales surgieron acusaciones de que ALIA no era más que un «plagio» de Llama, un modelo de código abierto de Meta, o, en el mejor de los casos, un simple «ajuste fino» de ese modelo ya existente.
Junto a mi colega Eric Risco, director del bootcamp de IA de KeepCoding, analizamos en profundidad ALIA y lo mencionamos en nuestro podcast (https://www.codemancers.pro/).
Origen y Controversia
Para entender el debate, debemos remontarnos a los modelos anteriores que precedieron a ALIA. Antes de «Salamandra» (la base actual de ALIA), hubo otro modelo llamado «Flor». De este modo, ALIA no es el primer desarrollo español de IA, pero sí el que más atención ha generado. Su criticada similitud con Llama se debe a que ALIA parte de la misma arquitectura (algo perfectamente razonable en el ámbito de la IA) y se entrena con datos distintos, ajustándose a necesidades específicas del proyecto.
Características diferenciadoras
ALIA se distingue, sobre todo, por tener un mayor porcentaje de datos en idiomas romances, en especial aquellos hablados en España (catalán, gallego, valenciano, euskera, entre otros).
• Arquitectura abierta: Al ser de código abierto, cualquier persona puede revisar su desarrollo y descargar el modelo, fomentando así la transparencia.
• Enfoque multilingüe: Aunque los grandes modelos ya funcionan con notable eficacia en idiomas como el inglés, el chino o el español, su desempeño en lenguas minoritarias suele ser limitado. ALIA aporta más datos y afinación en estos idiomas para mejorar los resultados.
Aplicaciones potenciales
El entrenamiento de ALIA no ha sido barato, como tampoco lo es en otros grandes modelos de texto. Sin embargo, su verdadera utilidad se vislumbra en escenarios donde se requiera la generación de texto en idiomas cooficiales o poco comunes, a modo de «traductor» final dentro de un sistema de agentes.
• Soporte a idiomas minoritarios: Dado que la mayoría de los grandes modelos cubre de manera eficiente el español, ALIA cobra relevancia para aquellos otros idiomas con menor representación en los corpus de entrenamiento.
• Integración en sistemas: ALIA podría encajar en arquitecturas donde varios modelos cooperan, delegando la generación de texto multilingüe especializado a un «experto» en lenguas minoritarias.
El futuro de ALIA
En la nueva era de la IA, los grandes modelos tienden a convivir con sistemas de agentes más pequeños y eficientes. ALIA, gracias a su orientación hacia los idiomas romances y minoritarios, podría hallar su lugar como un componente clave para traducir y generar contenido con mayor naturalidad.
Es probable que futuras versiones opten por arquitecturas más ligeras (como las propuestas por DeepSeek), permitiendo abaratar costes y perfeccionar su especialidad en lenguas con escasa representación digital.
¿Estamos ante un simple derivado de Llama o ante la pieza que faltaba para llevar la IA española a un nuevo nivel? ALIA promete revolucionar la forma en que abordamos la diversidad lingüística y plantea un debate vital sobre la importancia de los datos y la colaboración abierta en la IA.
- Fernando Rodríguez, Cofundador y Chief Learning Officer de KeepCoding