ISSN:
1436-6304
Quelle:
Springer Online Journal Archives 1860-2000
Thema:
Mathematik
,
Wirtschaftswissenschaften
Beschreibung / Inhaltsverzeichnis:
Zusammenfassung Das klassische Verfahren für die adaptive Steuerung von Markovschen Entscheidungsprozessen mit einem unbekannten Parameter und Durchschnittsgewinn-Kriterium wählt auf jeder Stufe eine Entscheidung, die durchschnittsoptimal ist für das Problem mit dem gerade geschätzten Parameter. Aber in vielen Fällen ist es nicht effektiv oder unmöglich, jeweils die optimale Politik für unendlichen Planungshorizont zu berechnen. Deshalb wurden Verfahren der sukzessiven Approximation vorgeschlagen und untersucht. Hier wird nun ein allgemeiner Ansatz vorgestellt, der die beiden genannten Methoden enthält und darüber hinaus den Rahmen für eine Reihe weiterer Verfahren bietet.
Notizen:
Summary The classical procedure for the adaptive control of average reward Markov decision processes with an unknown parameter chooses at each stage a decision which is optimal for the average reward problem with the presently estimated parameter. But in many cases it is inefficient or impossible to compute each time the long run optimal policy. So successive approximation methods were proposed and investigated. We present a unifying and generalizing approach including both types of methods mentioned above and generating a lot of new procedures, too.
Materialart:
Digitale Medien
URL:
http://dx.doi.org/10.1007/BF01740510
Permalink