Datos de entrenamiento
Los datos de entrenamiento son el conjunto de datos histórico, a menudo etiquetado, que se utiliza para enseñar a un modelo de aprendizaje automático los patrones que aplicará después. Su calidad, cantidad y representatividad determinan en gran medida lo bien que funcionará el modelo.
Un modelo solo puede ser tan bueno como los datos de los que aprende. En las aplicaciones industriales, los datos de entrenamiento suelen extraerse de historiadores y registros de mantenimiento, y conseguir suficientes ejemplos de fallos poco frecuentes es un reto perpetuo. Los datos deben limpiarse, alinearse en el tiempo, etiquetarse con resultados confirmados y hacerse representativos de las condiciones que el modelo afrontará. Unos datos de entrenamiento sesgados o escasos conducen a modelos frágiles, y las condiciones cambiantes provocan después la deriva del modelo.