<学術雑誌論文>
A LEARNING ALGORITHM FOR COMMUNICATING MARKOV DECISION PROCESSES WITH UNKNOWN TRANSITION MATRICES

作成者
本文言語
出版者
発行日
収録物名
開始ページ
終了ページ
出版タイプ
アクセス権
Crossref DOI
関連DOI
関連URI
関連情報
概要 This study is concerned with finite Markov decision processes (MDPs) whose state are exactly observable but its transition matrix is unknown. We develop a learning algorithm of the reward-penalty type... for the communicating case of multi-chain MDPs. An adaptively optimal policy and an asymptotic sequence of adaptive policies with nearly optimal properties are constructed under the average expected reward criterion. Also, a numerical experiment is given to show the practical effectiveness of the algorithm.続きを見る

本文ファイル

pdf bic039_p011 pdf 160 KB 345  

詳細

PISSN
EISSN
NCID
レコードID
査読有無
主題
タイプ
登録日 2010.03.11
更新日 2020.11.02

この資料を見た人はこんな資料も見ています