Considerando o exposto acima e o que estudamos sobre a solução do MDP, podemos afirmar:
O equacionamento matemático proposto por Markov, elimina as funções de valor de estado e de valor de ação substituindo-as pela constante de Bellman.
Uma possibilidade alternativa para o cálculo da melhor política é partirmos de uma política aleatória e iteramos novas políticas até encontrar a pior delas, assim descartamos o valor de Qmax que prejudica o cálculo de V(S).
Os Modelos Ocultos de Markov (HMM - Hidden Markov Models, em inglês) tentam sintetizar incertezas multivariadas em uma única supervariável estocástica. Os algoritmos HMM criam uma supervariável que expressa, de maneira única, o total das incertezas do meio.
A utilidade de um estado atual pode ser calculada pela soma das recompensas que conduziram até o estado que o antecede se V(s)<6.
Nenhuma das alternativas está correta.
Comentários
Ainda não há comentários para esta questão.
Seja o primeiro a comentar!