El nuevo modelo admite más de 30 idiomas, siete dialectos chinos principales y más de 20 acentos regionales.
Un nuevo modelo de voz con inteligencia artificial, desarrollado por Alibaba Group Holding, ha superado a sus rivales occidentales OpenAI y xAI en un importante referente global, lo que subraya su ventaja técnica a la hora de captar complejos dialectos y acentos chinos.
Fun-Realtime-TTS-Preview, desarrollado por el laboratorio Tongyi de Alibaba, ha asegurado el quinto puesto en la tabla de clasificación de *Artificial Analysis Speech Arena* con una puntuación de 1.190. Fue el único sistema de voz de ingeniería china en situarse entre los cinco mejores a nivel mundial.
El referente *Speech Arena* es gestionado por Artificial Analysis, una organización de evaluación de IA con sede en San Francisco, respaldada por inversores entre los que se incluyen el exdirector ejecutivo de GitHub, Nat Friedman, y el fundador de Google Brain, Andrew Ng.
La plataforma clasifica los modelos mediante evaluaciones ciegas por parte de usuarios sobre clips de voz generados, utilizando un sistema basado en la escala Elo. Los usuarios de *Speech Arena* ponen a prueba el rendimiento de los modelos en tres capacidades fundamentales: convertir voz en texto, permitir la comprensión de voz integral y la interacción conversacional, y transformar texto en voz con un sonido natural.
En un índice independiente de *Artificial Analysis* sobre la tasa de error de palabras (*Word Error Rate*), el modelo Fun-Realtime-ASR de Alibaba ocupó el primer lugar con una tasa de error del 1,8 por ciento, lo que significa que se transcribieron incorrectamente menos de dos palabras de cada 100.


