Podržano učenje

Tipični scenario u podržanom učenju: agent preduzima akcije u okruženju, što se tumači kao nagrada i reprezentacija stanja, što se vraća nazad agentu.

Podržano učenje (Шаблон:Jez-en) područje je mašinskog učenja i optimalne kontrole koje se bavi time kako bi inteligentni agenti trebali odabrati akcije u okruženju kako bi maksimizovali pojam kumulativne nagrade. Podržano učenje jedno je od tri osnovne paradigme mašinskog učenja, uz nadzirano učenje i nenadzirano učenje.

Podržano učenje se razlikuje od nadziranog učenja po tome što ne zahteva prikazivanje označenih ulazno/izlaznih parova, kao ni obavezno ispravljanje suboptimalnih akcija. Umesto toga, fokus je na pronalaženju ravnoteže između istraživanja (nepoznatih područja) i iskorištavanja (trenutnog znanja).^[1] Okruženje se obično izražava u obliku Markovljevog procesa odlučivanja (MDP) jer mnogi algoritmi podržanog učenja u ovom kontekstu koriste tehnike dinamičkog programiranja.^[2]

Glavna razlika između klasičnih metoda dinamičkog programiranja i algoritama podržanog učenja je da podržano učenje ne pretpostavlja poznavanje tačnog matematičkog modela MDP-a i da cilja na velike MDP-ove za koje tačne metode postaju nemoguće.^[3]

Formalizacija problema

Zaleđina

Podržano učenje se uglavnom definiše kao Markovljev proces odlučivanja nazvan po ruskom matematičaru Markovu. Model je koncipiran kao skup stanja koja poseduju sve informacije o sistemu odnosno okolini koje modeluju. Svako od stanja omogućuje što preciznije predviđanje posledica svake izvedene radnje. MDP se formalno zapisuje kao četverac $(S, A (s), P (s^{'} | s, a), R (s, s^{'}, a))$ , pri čemu je:

$S$ : množina svih mogućih stanja.
$A (s)$ : množina svih mogućih radnji u svakom stanju. $s \in S$
$P (s^{'} | s, a)$ : verovatnoća prelaza u stanje $s^{'}$ , pod pretpostavkom da se nalazimo u stanju $s$ i da je izvršena radnja $a \in A (s)$ .
$R (s, s^{'}, a)$ : nagrada / kazna

Strategija

Cilj postupka je pronaći strategiju ponašanja (policy) π: $s \in S \to a \in A (s)$ , koja za svako stanje $s$ ^[4]Шаблон:Rp i akciju $a$ maksimizira očekivanu buduću nagradu. Strategija se može menjati tokom učenja zavisno od količine dobijenih nagrada.

Postoji nekoliko opcija za odabir akcije, na primer:

pohlepna: uvek će biti izabrana najbolja akcija - $π (s) = \arg \max_{a} Q (s, a)$
ε-pohlepna: uglavnom će biti izabrana najbolja akcija, povremeno sa verovatnoćom ε biće odabrana i nasumična akcija

Vrednost funkcije

Postoje dve slične varijante vrednosti funkcije

Funkcije vrednosti stanja $V (s)$ (state value function)
Funkcije vrednosti prelaza između stanja $Q (s, a)$ (state-action value function)

Funkcije vrednosti definirane su kao alat za traženje maksimalne sume svih očekivanih nagrada pomoću sledećeg algoritma:

Čekaj nagradu u budućnosti s faktorom umanjenja γ:
- Uvažavajući stanja $s \in S$ : $V^{π} (s) = E {r t + 1 + γ r t + 2 + γ^{2} r t + 3 + ... | s t = s, π}$
- Uvažavajući prelaze između stanja $s \in S, a \in A (s)$ : $Q^{π} (s, a) = E {r t + 1 + γ r t + 2 + γ 2 r t + 3 + ... | s t = s, a t = a, π}$

Vidi još

Podržano učenje na osnovu povratnih informacija od ljudi

Reference

Шаблон:Reflist

Literatura

Шаблон:Reflist

Шаблон:Refend

Spoljašnje veze

Reinforcement Learning Repository
Reinforcement Learning and Artificial Intelligence (RLAI, Rich Sutton's lab at the University of Alberta)
Autonomous Learning Laboratory (ALL, Andrew Barto's lab at the University of Massachusetts Amherst)
Real-world reinforcement learning experiments Шаблон:Webarchive at Delft University of Technology
Stanford University Andrew Ng Lecture on Reinforcement Learning
Dissecting Reinforcement Learning Series of blog post on reinforcement learning with Python code
A (Long) Peek into Reinforcement Learning

Шаблон:Authority control-lat

[kaelbling-1] Шаблон:Cite journal

[2] Шаблон:Cite book

[Li-2023-3] Шаблон:Cite book

[:0-4] Шаблон:Cite web

[1]

[2]

[3]

[4]

Podržano učenje

Садржај

Formalizacija problema

Zaleđina

Strategija

Vrednost funkcije

Vidi još

Reference

Literatura

Spoljašnje veze

Мени за навигацију

Podržano učenje

Formalizacija problema

Zaleđina

Strategija

Vrednost funkcije

Vidi još

Reference

Literatura

Spoljašnje veze

Мени за навигацију

Претрага