Trainingsdaten
Trainingsdaten sind der historische, oft beschriftete Datensatz, mit dem einem Modell des maschinellen Lernens die Muster beigebracht werden, die es später anwendet. Ihre Qualität, Menge und Repräsentativität bestimmen weitgehend, wie gut das Modell abschneidet.
Ein Modell kann nur so gut sein wie die Daten, aus denen es lernt. In industriellen Anwendungen stammen Trainingsdaten typischerweise aus Datenarchiven (Historians) und Instandhaltungsaufzeichnungen, und genügend Beispiele seltener Ausfälle zu gewinnen, ist eine ständige Herausforderung. Daten müssen bereinigt, zeitlich abgeglichen, mit bestätigten Ergebnissen beschriftet und repräsentativ für die Bedingungen gemacht werden, denen das Modell begegnen wird. Verzerrte oder spärliche Trainingsdaten führen zu brüchigen Modellen, und sich ändernde Bedingungen verursachen später Modelldrift.