Adaptivni sistemi mašinskog učenja
Keywords:
Učenje sa ojačanjem, Markovljev proces odlučivanja, Belmanova jednačina, učenje trenutnih razlika, tragovi aktivnosti, algoritam TR (0), algoritam TR (Lambda)Abstract
U radu je analizirana metoda mašinskog učenja sa ojačanjem, kod koje se definiše predmet učenja. Suština ove metode je biranje akcija postupkom probe i greške i dodjela odložene nagrade. Ako stanje okruženja posjeduje Markovljevu osobinu, onda dinamika “jednog koraka” omogućava predviñanje slijedećeg stanja i slijedeće nagrade na osnovu poznatog, trenutnog, stanja i akcije, odnosno provoñenje Markovljevog procesa odlučivanja. Relacija izmeñu vrijednosti trenutnog stanja i vrijednosti mogućeg slijedećeg stanja je definisana Belmanovom jednačinom. Diskutovana je metoda učenja trenutnih razlika, mehanizam tragova aktivnosti, kao i njihovi algoritmi TR(0) i TR(Lambda). Teorijska razmatranja su ilustrovana praktičnim istraživanjima, odnosno implementacijom algoritma Sarsa(Lambda), sa jediničnim tragovima aktivnosti i Epsilon gramzivom politikom.
Downloads
Published
Issue
Section
License
This work is licensed under a Creative Commons Attribution 4.0 International License.
Authors retain copyright and grant the journal right of first publication with the work simultaneously licensed under a Creative Commons Attribution (CC-BY) 4.0 License that allows others to share the work with an acknowledgment of the work’s authorship and initial publication in this journal.
Provided they are the owners of the copyright to their work, authors are able to enter into separate, additional contractual arrangements for the non-exclusive distribution of the journal’s published version of the work (e.g., post it to an institutional repository, in a journal or publish it in a book), with an acknowledgment of its initial publication in this journal.