Zpětnovazební učení

Zpětnovazební učení je třída strojového učení, v níž se agent učí činit posloupnosti rozhodnutí pokusem a omylem, přičemž za své akce dostává odměny nebo tresty. Uplatňuje se na problémy řízení a optimalizace jako energetický management a ladění procesů.

Namísto učení z označených příkladů agent zpětnovazebního učení interaguje s prostředím, podniká akce, pozoruje výsledný stav a odměnu a postupně se učí strategii, která maximalizuje kumulativní odměnu. V průmyslu se jeví slibně pro složité řízení a rozvrhování, kde je obtížné přímo specifikovat dobré akce. Protože pokus a omyl ve skutečném světě mohou být nákladné nebo nebezpečné, trénink se obvykle provádí proti simulaci nebo digitálnímu dvojčeti před nasazením.

Související pojmy