Vahvistusoppiminen

Vahvistusoppiminen on koneoppimisen luokka, jossa agentti oppii tekemään päätössarjoja yrityksen ja erehdyksen kautta, saaden palkkioita tai rangaistuksia toimistaan. Sitä sovelletaan ohjaus- ja optimointiongelmiin kuten energianhallintaan ja prosessin viritykseen.

Sen sijaan, että se oppisi merkityistä esimerkeistä, vahvistusoppimisen agentti on vuorovaikutuksessa ympäristön kanssa, tekee toimia, havaitsee tuloksena olevan tilan ja palkkion ja oppii vähitellen toimintaperiaatteen, joka maksimoi kumulatiivisen palkkion. Teollisuudessa se osoittaa lupausta monimutkaiseen ohjaukseen ja aikataulutukseen, joissa hyviä toimia on vaikea määritellä suoraan. Koska todellinen yritys ja erehdys voi olla kallista tai turvatonta, koulutus tehdään yleensä simulointia tai digitaalista kaksosta vasten ennen käyttöönottoa.

Aiheeseen liittyvät termit