Changes

Reinforcement Learning

184 bytes added, 21:32, 11 June 2019

no edit summary

* [[Richard Sutton]], [[Andrew Barto]] ('''1990'''). ''Time Derivative Models of Pavlovian Reinforcement''. Learning and Computational Neuroscience: Foundations of Adaptive Networks: 497-537

* [[Jürgen Schmidhuber]] ('''1990'''). ''Reinforcement Learning in Markovian and Non-Markovian Environments''. [https://dblp.uni-trier.de/db/conf/nips/nips1990.html NIPS 1990], [ftp://ftp.idsia.ch/pub/juergen/nipsnonmarkov.pdf pdf]

* [[Peter Dayan]] ('''1991'''). ''[https://www.era.lib.ed.ac.uk/handle/1842/14754 Reinforcing Connectionism: Learning the Statistical Way]''. Ph.D. thesis, [[University of Edinburgh]]

* [[Chris Watkins]], [[Peter Dayan]] ('''1992'''). ''[http://www.gatsby.ucl.ac.uk/~dayan/papers/wd92.html Q-learning]''. [https://en.wikipedia.org/wiki/Machine_Learning_(journal) Machine Learning], Vol. 8, No. 2

* [[Gerald Tesauro]] ('''1992'''). ''Temporal Difference Learning of Backgammon Strategy''. [http://www.informatik.uni-trier.de/~ley/db/conf/icml/ml1992.html#Tesauro92 ML 1992]

GerdIsenberg

Bureaucrats, Administrators

25,161

edits

Changes

Reinforcement Learning

Navigation menu

Personal tools

Namespaces

Variants

Views

More

Search

Navigation

Tools