Nace en Chile el primer modelo de lenguaje colaborativo de Latinoamérica
Los principales modelos de inteligencia artificial, como ChatGPT, Gemini y Claude, fueron desarrollados desde el “Norte Global”, con datos poco representativos de Latinoamérica. En respuesta, en 2023 desde Chile comenzó la creación del primer modelo de lenguaje regional, abierto y colaborativo, que busca reflejar la cultura, idioma y realidad de la región, llamado LatamGPT.

Nace en Chile el primer modelo de lenguaje colaborativo de Latinoamérica
Un modelo de inteligencia artificial como ChatGPT, de OpenAI, cuenta con un promedio de 400 millones de usuarios activos por semana. Le sigue Gemini, de Google, con 42 millones, y Claude, de Anthropic, con 18,9 millones. Esta masividad ha consolidado a estos sistemas como referentes globales en la interacción humano-máquina. Sin embargo, todos comparten un mismo origen: fueron desarrollados desde lo que se conoce como el "Norte Global", es decir, países ricos y altamente desarrollados, lo que implica que están entrenados con datos que no representan adecuadamente la idiosincrasia, los matices lingüísticos ni los contextos culturales de Latinoamérica y el Caribe.
Esta brecha de representatividad no es menor: puede limitar su desempeño e incluso provocar errores conocidos como "alucinaciones", cuando la inteligencia artificial inventa información al intentar responder con seguridad temas que desconoce o que no comprende desde una perspectiva regional.
En febrero de 2023, se comenzó a trabajar en el primer LLM regional, un modelo de lenguaje con un enfoque colaborativo y regional en la recopilación de datos, de modo que su entrenamiento refleje la cultura, el lenguaje y la historia de Latinoamérica, ofreciendo información más precisa y representativa de los contextos locales.
“Uno de los problemas que tenemos en Latinoamérica y el Caribe es que los LLM que usamos, si bien funcionan en español y portugués, son bastante limitados en el conocimiento que tienen sobre la región. Al poco andar, comienzan a alucinar, porque muy pocos de los datos con los que estos modelos fueron entrenados, son de esta parte del mundo. Es importante que en la región podamos desarrollar capacidades para tener cierta independencia y tomar decisiones de cómo esta tecnología impacta a la sociedad. Hasta el momento no tenemos un modelo de lenguaje regional, y esta tarea no la puede asumir solo un grupo ni un solo país: es un desafío que requiere el esfuerzo de toda la región”, comenta Álvaro Soto, director de CENIA.
Por su parte, la ministra de Ciencia, Aisén Etcheverry, se refiere al proyecto como "un esfuerzo colectivo, abierto y que es reflejo de lo que esperamos sea este modelo de lenguaje. Cuando hablamos de Inteligencia Artificial, ésta tiene que proyectar el mundo que somos, su diversidad. Y en el caso de Latinoamérica, no solo hablar español o portugués, sino que entender nuestra idiosincrasia, aportar desde la cultura y desde la visión del mundo, y eso tiene que estar presente en el desarrollo".
En comparación con otros modelos cerrados (o Propietary), el nuevo modelo de lenguaje LatamGPT será abierto, lo que implica que permitirá que más personas en Latinoamérica y el Caribe lo estudien, usen y mejoren, construyendo sobre él. “Esto democratiza el conocimiento y promueve el desarrollo de capacidades para poder entender mejor los modelos de lenguaje, sus aplicaciones y límites", explica el gerente de CENIA., Rodrigo Durán.
Un esfuerzo colaborativo para la soberanía tecnológica
Gracias al trabajo conjunto de universidades, fundaciones, bibliotecas, entidades gubernamentales y organizaciones de la sociedad civil de Latinoamérica y el Caribe, se han logrado reunir más de 8 TB (terabytes) de información en texto plano, lo que equivale a millones de libros. Estas alianzas incluyen a instituciones de Chile, Uruguay, Colombia, México, Perú, Ecuador, España, Estados Unidos, Argentina, y Costa Rica.
A esto se suman 33 alianzas estratégicas consolidadas el 2024, que han permitido formar un corpus de datos lo suficientemente amplio para dar vida a este modelo de 50 billones de parámetros, lo que es comparable a GPT-3.5. “No buscamos competir con OpenAI o uno de los gigantes. Queremos un modelo propio de Latinoamérica y el Caribe, con los requisitos y desafíos culturales que eso implica, es decir, comprender los distintos dialectos, historia y aspectos culturales. Para lograr lo anterior estamos generando métricas propias que puedan evaluar estos conocimientos , como también recolectando datos atingentes a esto”, explica Rodrigo Durán.
Que el modelo de lenguaje cuente con 50 billones de parámetros implica que tiene una capacidad mediana-alta de funciones como el raciocinio, mejor traducción o de hacer asociaciones.
Centro de supercómputo en la Universidad de Tarapacá
Uno de los pilares fundamentales para el desarrollo de Latam GPT es la infraestructura de alto rendimiento instalada en la Universidad de Tarapacá (UTA), que planea invertir USD 10 millones para la creación del Centro de Supercómputo en dos etapas. Este clúster, con tecnología de punta en GPUs –12 nodos, cada uno implementado con 8 GPUs NVIDIA H200 – posibilita el entrenamiento del modelo a gran escala inexistente hasta ahora en Chile, promoviendo además la descentralización y eficiencia energética.
“La creación de tecnologías de IA también pueden empoderar a las comunidades locales al proporcionar herramientas que les permitan construir y definir su propio futuro digital. Entrenar en una versión inicial un modelo medianamente grande como éste, en un clúster multinodo como éste, es posible gracias a la visión del rector de la Universidad de Tarapacá, Emilio Rodríguez. Sin la inversión de esta entidad, sería imposible la ejecución”, sostiene el gerente de CENIA.
Durante el 2025, el proyecto seguirá levantando datos y aportes de diferentes instituciones y sumando a más países de la región, a la vez que se avanzará en la creación de benchmarks de desempeño, publicaciones científicas y nuevas alianzas.
La primera versión de Latam GPT verá la luz a mitad de 2025, con planes de fortalecimiento y mejoras continuas en la medida que se sumen más instituciones colaboradoras y se integren nuevos datos para perfeccionar el modelo.
Este proyecto es coordinado por el Centro Nacional de Inteligencia Artificial (CENIA) e impulsado en conjunto con más de 30 instituciones de América Latina y el Caribe y más de 60 expertas y expertos. Además, el proyecto cuenta con el apoyo del Ministerio de Ciencia, Tecnología, Conocimiento e Innovación de Chile, entidad que coordina la colaboración internacional con los distintos estados de la región y el apoyo de recursos desde CAF.
- Tecnología
- Inteligencia Artificial