Canonical ha publicado más detalles sobre el motor local de voz a texto que tomará dictado en la próxima versión 26.10 de Ubuntu, también conocido como «Stonking Stingray».
En una publicación en los foros Discourse de la compañía el miércoles, el equipo nombró uno de los elementos nuevos más importantes que vendrán en la próxima versión: Myna: Speech to Text para Ubuntu Desktop.
A principios de este mes, en la Cumbre de Ubuntu que Canonical estaba haciendo grandes avances en IA y que una de las primeras señales sería la entrada de voz a texto a través de modelos de reconocimiento de voz ejecutados localmente. Después de la Cumbre, la compañía publicó la hoja de ruta de Ubuntu Desktop 26.10 “Stonking Stingray”, como mencionamos hacia el final de nuestra revisión de MX Linux 25.2.
El anuncio explica (e ilustra) cuál es el plan, cómo funcionará y la interfaz de usuario que el equipo busca en la versión inicial:
Para Ubuntu 26.10, nos centramos deliberadamente en lo básico: un dictado de escritorio confiable.
La experiencia inicial será simple: presione un atajo de teclado, hable con naturalidad y vea cómo aparece el texto resultante en la aplicación que está utilizando. Myna está diseñado para proporcionar reconocimiento de voz con retroalimentación visual clara mientras el dictado está activo.
Esto es bueno. Aunque no será una revolución en materia de accesibilidad por sí sola, es un paso importante y ayudará a que Linux de escritorio se ponga al día con la competencia comercial. El reconocimiento de voz está integrado en macOS de Apple en una herramienta llamada Control por voz. En las Mac modernas con procesadores Apple Silicon, el motor de reconocimiento está en el dispositivo y funciona sin conexión. Durante unos meses en 2023, el escritorio FOSS de The Reg no pudo usar su brazo derecho y, cuando regresó al trabajo, dictó sus artículos en una MacBook Air M1 usando esta función.
El columnista del Registro, Colin Hughes, sabe mucho más sobre estos temas que nosotros. Escribió sobre cómo el control por voz necesitaba más trabajo ese mismo año y volvió a abordar el tema en el Día Mundial de la Concientización sobre la Accesibilidad, el 21 de mayo.
La oferta actual de Microsoft se llama Voice Access, que reemplaza la herramienta de reconocimiento de voz de Windows que Microsoft introdujo con Windows Vista en 2006.
El proyecto Myna será de código abierto y ya existe un repositorio en GitHub, pero aún no hay mucho más allá de algunas notas de planificación. Hay tiempo: aunque solo faltan unos cuatro meses para el lanzamiento de octubre de 26.10, esta no es una nueva tecnología pionera importante. Varias herramientas ya pueden hacer cosas similares.
Uno de los primeros fue Mycroft, aunque ya no existe: hace unos tres años, describió cómo el creador del asistente virtual de Linux culpó a un «troll de patentes» por la muerte del proyecto. También existe la herramienta Speech Note de Michal Kosciesza, que puedes instalar desde Flathub.
En agosto pasado, informamos sobre el lanzamiento de FFmpeg 8, que puede usar la versión local Whisper.cpp del modelo Whisper de OpenAI para convertir voz a texto en el dispositivo, lo que le permite agregar automáticamente subtítulos a archivos de video.
Aunque a este escritor no le preocupa que lo etiqueten como un enemigo de la IA, creemos que permitir el control por voz de una PC es una función aceptable y beneficiosa para la tecnología. O, como lo expresó el autor de jqwik y destacado escéptico de la IA, Johannes Link, un uso ético de la IA generativa.

