Mientras la inteligencia artificial transforma el mundo a un ritmo asombroso, ¿se ha preguntado alguna vez de dónde proviene el combustible que sustenta su continua evolución?. La respuesta está en el modelo de negocio emergente de la «fábrica de datos». A diferencia de las fábricas tradicionales que producen acero o automóviles, esta se especializa en la producción de conjuntos de datos de alta calidad, proporcionando un flujo continuo de «alimento» para grandes modelos de IA.
Algunas empresas nacionales son pioneras en el concepto de «fábrica de datos».
En Tianjin, hay una fábrica particularmente especial. En lugar de máquinas rugientes, hay filas de cubículos ordenados. Cada día, aproximadamente 500.000 datos de alta calidad se desconectan aquí: una superfábrica de datos que encarna la inteligencia.
El fundador de la fábrica, Xu Jincheng, explicó que han equipado la mano con casi 4.000 sensores táctiles y han creado el codificador de ángulos más pequeño del mundo, que detecta el ángulo de un dedo en tiempo real al doblarse.
Utilizando guantes especiales que registran las sensaciones táctiles y de fuerza en tiempo real y decenas de cámaras, cada dato producido contiene información multidimensional que incluye visión, tacto, audio y trayectoria. Xu Jincheng afirma que estos datos permiten a los robots no solo «ver» los movimientos durante el entrenamiento, sino también «sentir» los detalles.
¿Qué es una «fábrica de datos»?.
Sin embargo, esto es solo la punta del iceberg en la liberación del valor de los datos. Actualmente, toda la industria de la IA se enfrenta a un enorme cuello de botella: una grave escasez de datos de alta calidad. Un fenómeno emergente llamado «fábrica de datos» intenta superar este cuello de botella. A diferencia de las fábricas tradicionales que producen automóviles o teléfonos móviles, esta se especializa en la producción y el procesamiento de datos, transformando recursos de datos dispersos, sin procesar y masivos en conjuntos de datos de alta calidad que la inteligencia artificial puede absorber directamente y utilizar eficientemente.
El profesor Zhang Xianghong, del Centro Internacional de Investigación para la Teoría y la Tecnología de la Gestión de la Información de la Universidad Jiaotong de Beijing, explica que nuestra eficiencia era muy baja en las sociedades agrícolas debido a la falta de infraestructura. Un avance crucial para mejorar la eficiencia en las sociedades industriales fue la disponibilidad de infraestructura; contamos con suministro de agua potable y gas.

En la sociedad digital actual, los datos se han convertido en un factor de producción fundamental, que requiere una infraestructura similar a la de las centrales hidroeléctricas y las centrales eléctricas para el suministro a gran escala; esto es la «fábrica de datos».
Zhang Xianghong afirmó que estas empresas modelo a gran escala se enfrentan actualmente al mismo problema: sus datos son principalmente de dominio público; los datos de dominio privado siguen estando en gran medida sin explotar, lo que crea un importante cuello de botella en los datos.
Este cuello de botella ha dado lugar a un círculo vicioso: por un lado, las empresas con cantidades masivas de datos «tienen datos pero no los recopilan, los recopilan pero no los almacenan, los almacenan pero no los procesan»; por otro lado, las empresas modelo a gran escala, ávidas de datos, se ven obligadas a excavar repetidamente sus propios pozos, ocupándose de todo, desde la recopilación y la limpieza hasta el etiquetado, un proceso costoso e ineficiente. La fábrica de datos es la clave para romper este estancamiento.
¿Cómo debería avanzar la construcción de una «fábrica de datos»?.
¿Cuál es el camino para la construcción de una fábrica de datos en China?. Zhang Xianghong señaló que las fábricas de datos tienen diferentes formas, divididas principalmente en centralizadas, semicentralizadas y distribuidas:
Las fábricas de datos centralizadas implican la recopilación, agregación y procesamiento unificados. Actualmente, más del 90% de las fábricas de datos adoptan un enfoque centralizado.
Los sistemas semicentralizados son tecnologías de propósito general que construyen diferentes plataformas según la aplicación.
Los sistemas distribuidos carecen de una estructura de fábrica física, pero la tecnología para la adquisición, el almacenamiento, el cálculo, la gestión y el uso de datos es esencialmente tecnología de entrelazado de datos, al igual que la virtualización de datos.
Los expertos del sector creen que, a largo plazo, las fábricas de datos distribuidas que logran «datos utilizables pero no visibles» son una tendencia inevitable, ya que abordan fundamentalmente las preocupaciones de los titulares de datos sobre seguridad y control. Sin embargo, a corto plazo, los tres modelos se desarrollarán en paralelo.
Las iniciativas políticas facilitan una profunda integración de la producción de datos y la inteligencia artificial. A nivel nacional, la Administración Nacional de Datos, el Ministerio de Industria y Tecnología de la Información, el Ministerio de Seguridad Pública y la Comisión Reguladora de Valores de China emitieron conjuntamente el 7 de febrero las «Opiniones sobre el Desarrollo de Instituciones de Servicios de Circulación de Datos y la Aceleración de la Comercialización y Valoración de Elementos de Datos», declarando explícitamente por primera vez que mi país desarrollará tres tipos de instituciones de servicios de circulación de datos.
Estos tres tipos incluyen: centros de intercambio de datos, empresas de plataformas de servicios de circulación de datos y proveedores de datos. Las «Opiniones» proponen apoyar a diversas instituciones que ofrecen servicios de circulación de datos para fortalecer la cooperación con empresas de inteligencia artificial y otras entidades, proporcionando servicios como agregación de datos, gobernanza y entrenamiento de modelos basados en la infraestructura de datos.
Ma Yuan, investigador del Centro de Investigación para el Desarrollo del Consejo de Estado, afirmó que las empresas de inteligencia artificial se enfrentan actualmente a una escasez generalizada de datos. Las organizaciones de servicios de circulación de datos tienen ahora una nueva misión principal: agregar e integrar recursos de datos intersectoriales e interdisciplinarios, facilitando una correspondencia eficiente entre los proveedores de datos y las necesidades de las empresas de IA.

De cara al futuro, la importancia de las fábricas de datos va mucho más allá de simplemente «alimentar» la IA. Se convertirán en una unidad central de la infraestructura nacional de datos. Desde los guantes con sensores que recopilan datos en el taller de datos de Tianjin hasta la red nacional de infraestructura de datos interconectada que se prevé, las fábricas de datos están pasando rápidamente de ser un concepto vanguardista a una realidad industrial. Si bien pueden carecer del ajetreo y el bullicio de las fábricas tradicionales, el torrente de datos que «producen» transformará nuestra era, de forma silenciosa pero profunda.

