Wat is Trainingsdata?

Trainingsdata

Trainingsdata is de historische, vaak gelabelde dataset die wordt gebruikt om een machine-learning-model de patronen aan te leren die het later zal toepassen. De kwaliteit, hoeveelheid en representativiteit ervan bepalen grotendeels hoe goed het model presteert.

Een model kan slechts zo goed zijn als de data waaruit het leert. In industriële toepassingen wordt trainingsdata doorgaans getrokken uit historians en onderhoudsregistraties, en genoeg voorbeelden van zeldzame storingen verkrijgen is een blijvende uitdaging. Data moet worden geschoond, in de tijd uitgelijnd, gelabeld met bevestigde uitkomsten en representatief gemaakt voor de condities die het model zal tegenkomen. Bevooroordeelde of schaarse trainingsdata leidt tot broze modellen, en veranderende condities veroorzaken later modeldrift.

Gerelateerde begrippen

Supervised Learning · Feature Engineering · Model Drift