12/12/2025 | Isabel Durán Muñoz (The Conversation)
Cuando usamos una inteligencia artificial para traducir un texto, responder una pregunta o escribir un correo, tendemos a imaginar que funciona igual en cualquier idioma. La idea resulta lógica: si es “inteligente”, debería manejar todas las lenguas con la misma soltura. Sin embargo, la realidad es bien distinta. Los modelos no rinden igual en inglés que en español, ni en español que en euskera. ¿Por qué? ¿Es una limitación tecnológica inevitable o el reflejo de desigualdades más profundas del mundo digital?
Para entenderlo, hay que mirar la base de estas tecnologías: los datos. Los modelos de lenguaje, como ChatGPT, se entrenan con cantidades inmensas de texto, tanto originales como creados por personas que los han entrenado. Pero aquí aparece la primera gran asimetría: la mayor parte del contenido escrito en la red está en inglés. No es una preferencia del modelo, simplemente es lo que hay.
Idiomas de entrenamiento
OpenAI, la empresa que hay detrás de ChatGPT, y otras compañías no publican porcentajes exactos del peso de cada idioma en el entrenamiento, y los modelos tampoco pueden calcularlos con los datos que manejan. Aun así, la tendencia es evidente: el inglés domina con diferencia este contexto, seguido por grandes idiomas globales como el español, el francés o el alemán.
Más en theconversation.com
Fundéu Guzmán Ariza República Dominicana