Aprendizagem por Reforço

A aprendizagem por reforço é uma classe de aprendizagem automática na qual um agente aprende a tomar sequências de decisões por tentativa e erro, recebendo recompensas ou penalizações pelas suas ações. É aplicada a problemas de controlo e otimização, como a gestão de energia e o afinamento de processos.

Em vez de aprender a partir de exemplos rotulados, um agente de aprendizagem por reforço interage com um ambiente, executa ações, observa o estado e a recompensa resultantes e aprende gradualmente uma política que maximiza a recompensa cumulativa. Na indústria, mostra-se promissora para controlo e programação complexos onde as boas ações são difíceis de especificar diretamente. Como a tentativa e erro no mundo real pode ser dispendiosa ou insegura, o treino é normalmente feito contra uma simulação ou um gémeo digital antes da implantação.

Termos relacionados