Données d'entraînement
Les données d'entraînement sont le jeu de données historique, souvent étiqueté, utilisé pour enseigner à un modèle d'apprentissage automatique les motifs qu'il appliquera ensuite. Leur qualité, leur quantité et leur représentativité déterminent largement la performance du modèle.
Un modèle ne peut être meilleur que les données dont il apprend. Dans les applications industrielles, les données d'entraînement proviennent typiquement des historians et des dossiers de maintenance, et obtenir assez d'exemples de défaillances rares est un défi permanent. Les données doivent être nettoyées, alignées dans le temps, étiquetées avec des résultats confirmés et rendues représentatives des conditions que le modèle affrontera. Des données biaisées ou clairsemées donnent des modèles fragiles, et des conditions changeantes provoquent ensuite la dérive de modèle.