En este momento estás viendo El modelo de voz con IA de Alibaba se sitúa entre los 5 mejores a nivel mundial, superando a sus rivales estadounidenses en acentos regionales
Por lo general, se considera que los sistemas de IA basados en voz son más fáciles de adoptar para los usuarios convencionales que las interfaces basadas en texto.

El modelo de voz con IA de Alibaba se sitúa entre los 5 mejores a nivel mundial, superando a sus rivales estadounidenses en acentos regionales

  • Autor de la entrada:
  • Categoría de la entrada:China
  • Última modificación de la entrada:junio 2, 2026

El nuevo modelo admite más de 30 idiomas, siete dialectos chinos principales y más de 20 acentos regionales.

Un nuevo modelo de voz con inteligencia artificial, desarrollado por Alibaba Group Holding, ha superado a sus rivales occidentales OpenAI y xAI en un importante referente global, lo que subraya su ventaja técnica a la hora de captar complejos dialectos y acentos chinos.

Fun-Realtime-TTS-Preview, desarrollado por el laboratorio Tongyi de Alibaba, ha asegurado el quinto puesto en la tabla de clasificación de *Artificial Analysis Speech Arena* con una puntuación de 1.190. Fue el único sistema de voz de ingeniería china en situarse entre los cinco mejores a nivel mundial.

El referente *Speech Arena* es gestionado por Artificial Analysis, una organización de evaluación de IA con sede en San Francisco, respaldada por inversores entre los que se incluyen el exdirector ejecutivo de GitHub, Nat Friedman, y el fundador de Google Brain, Andrew Ng.

La plataforma clasifica los modelos mediante evaluaciones ciegas por parte de usuarios sobre clips de voz generados, utilizando un sistema basado en la escala Elo. Los usuarios de *Speech Arena* ponen a prueba el rendimiento de los modelos en tres capacidades fundamentales: convertir voz en texto, permitir la comprensión de voz integral y la interacción conversacional, y transformar texto en voz con un sonido natural.

En un índice independiente de *Artificial Analysis* sobre la tasa de error de palabras (*Word Error Rate*), el modelo Fun-Realtime-ASR de Alibaba ocupó el primer lugar con una tasa de error del 1,8 por ciento, lo que significa que se transcribieron incorrectamente menos de dos palabras de cada 100.

El logotipo de Alibaba aparece fotografiado frente a sus oficinas en Beijing el 1 de abril de 2026.