Aprendizagem por Reforço
A aprendizagem por reforço é uma classe de aprendizagem automática na qual um agente aprende a tomar sequências de decisões por tentativa e erro, recebendo recompensas ou penalizações pelas suas ações. É aplicada a problemas de controlo e otimização, como a gestão de energia e o afinamento de processos.
Em vez de aprender a partir de exemplos rotulados, um agente de aprendizagem por reforço interage com um ambiente, executa ações, observa o estado e a recompensa resultantes e aprende gradualmente uma política que maximiza a recompensa cumulativa. Na indústria, mostra-se promissora para controlo e programação complexos onde as boas ações são difíceis de especificar diretamente. Como a tentativa e erro no mundo real pode ser dispendiosa ou insegura, o treino é normalmente feito contra uma simulação ou um gémeo digital antes da implantação.
Termos relacionados
Advanced Process Control (APC) · Digital Twin · Machine Learning (Industrial)