El canal de datos SynthSmith del equipo desarrolla un modelo de codificación que supera la escasez de datos reales para mejorar los modelos de IA.
Investigadores de la Universidad de Tsinghua y Microsoft han desarrollado un canal de datos sintéticos para entrenar modelos de inteligencia artificial sin necesidad de datos reales, utilizando chips de Nvidia, el principal diseñador estadounidense de chips.
El pipeline llamado SynthSmith logró desarrollar un modelo de codificación pequeño que superó a un modelo del doble de su tamaño, lo que potencialmente solucionó un obstáculo clave: la escasez de datos reales para mejorar los modelos de IA, según el artículo publicado en el repositorio de acceso abierto arXiv el 11 de enero.
«Un análisis exhaustivo revela que las leyes de escalado se aplican a nuestro conjunto de datos sintéticos», afirmaron los investigadores de la Universidad de Tsinghua, Microsoft Research Asia y la Universidad de Wuhan.
Los algoritmos de IA generan datos sintéticos que imitan los datos reales. A medida que escasean los datos reales, los investigadores de IA experimentan con datos sintéticos para seguir mejorando los modelos de IA.

Utilizando SynthSmith, los investigadores entrenaron un modelo de X-Coder con 7 mil millones de parámetros que obtuvo una puntuación superior a la de los modelos con 14 mil millones de parámetros en las principales pruebas de codificación, a pesar de utilizar menos datos y ninguno del mundo real, según el artículo.

