Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem to klasa uczenia maszynowego, w której agent uczy się podejmowania sekwencji decyzji metodą prób i błędów, otrzymując nagrody lub kary za swoje działania. Jest stosowane do problemów sterowania i optymalizacji, takich jak zarządzanie energią i strojenie procesów.

Zamiast uczyć się na oznakowanych przykładach, agent uczenia ze wzmocnieniem wchodzi w interakcję ze środowiskiem, podejmuje działania, obserwuje wynikowy stan i nagrodę oraz stopniowo uczy się strategii maksymalizującej skumulowaną nagrodę. W przemyśle wykazuje obiecujące zastosowanie w złożonym sterowaniu i harmonogramowaniu, gdzie trudno bezpośrednio określić dobre działania. Ponieważ próby i błędy w świecie rzeczywistym mogą być kosztowne lub niebezpieczne, trenowanie odbywa się zwykle na symulacji lub cyfrowym bliźniaku przed wdrożeniem.

Powiązane terminy