- Los modelos de IA ahora funcionan de manera sólida en lenguajes difusos con datos de entrenamiento mínimos
- La transferencia entre idiomas permite que los patrones compartidos mejoren el rendimiento en lenguas raras
- La mejora de la eficiencia del tokenizador afecta significativamente el costo y la calidad del procesamiento multilingüe.
Los modelos de lenguajes grandes (LLM) están cerrando la brecha lingüística global a un ritmo sin precedentes, y los modelos de frontera ahora funcionan bien en lenguajes raros que tuvieron problemas con las generaciones anteriores.
Según el estudio de generación de datos sintéticos TrainAI LLM multilingüe de RWS, Gemini Pro de Google logró una puntuación de alta calidad de más de 4,5 sobre 5 en kinyarwanda, un idioma hablado por alrededor de 12 millones de personas en Ruanda, Uganda y la República Democrática del Congo.
“Este estudio señala un momento transformador que no se trata de reemplazar las habilidades humanas, sino de mejorarlas con la tecnología adecuada”, afirmó Vasagi Kothandapani, director ejecutivo de TrainAI en RWS.
El artículo continúa a continuación.
Cómo LLM aprende idiomas con datos de formación limitados
A diferencia de la “Torre de Babel” bíblica, donde una repentina confusión de lenguas detuvo la construcción, la IA ahora parece estar derribando barreras lingüísticas que alguna vez parecieron insuperables.
Tomáš Burkert, jefe de innovación de TrainAI, explicó que las herramientas de inteligencia artificial a menudo comparten patrones estadísticos entre idiomas.
Los modelos de frontera no requieren grandes conjuntos de datos para cada idioma para producir resultados confiables porque la transferencia entre idiomas permite que el conocimiento compartido compense los datos de entrenamiento limitados.
El equipo de RWS ha documentado mejoras en la eficiencia del tokenizador, lo que afecta la eficiencia con la que modela el texto en un idioma determinado.
Estas mejoras se combinan con otros avances del modelo en ganancias significativas de rendimiento para lenguajes dispersos y ambiguos.
El equipo de Burkert identificó una “desviación de los puntos de referencia”, donde las capacidades de LLM pueden cambiar inesperadamente de una versión a otra.
Por ejemplo, la última versión de GPT se quedó atrás del modelo más pequeño en varias tareas de creación de contenido, mientras que su predecesor fue competitivo en las mismas tareas.
El rendimiento del tokenizador también varía ampliamente entre generaciones de modelos, y un modelo resulta 3,5 veces más rentable que otro en determinados idiomas.
Esto significa que las empresas no pueden confiar en el desempeño pasado al elegir qué modelo implementar para aplicaciones multilingües.
Hasta hace poco, los laboratorios de IA priorizaban el desempeño en inglés y algunos idiomas principales, pero ahora que los modelos han mejorado en esa área, algunos laboratorios están comenzando a priorizar una audiencia global y los expertos esperan que sigan más laboratorios.
Las estrategias exitosas de IA empresarial requieren una validación continua basada en datos de alta calidad y con matices culturales, en lugar de tablas de clasificación universales.
Dicho esto, una puntuación de 4,5 sobre 5 en un punto de referencia sintético no garantiza la fluidez en el mundo real, y los datos multilingües no son realmente un enfoque.
Según Burkert, los laboratorios de IA están recurriendo a datos multilingües en parte porque es probable que hayan agotado las fuentes en inglés de alta calidad.
Sin embargo, al superar la barrera del idioma, la IA demuestra ser un verdadero “Rey de Babel”: no alguien que construyó una torre, sino alguien que derribó los muros que dividen el habla humana.
En este punto, la corona obviamente no encaja del todo, pero la dirección y las ideas son muy claras.
Siga TechRadar en Google News Y Agréganos como fuente preferida Recibe noticias, reseñas y opiniones de nuestros expertos en tu feed.