Podržano učenje

Извор: testwiki
Пређи на навигацију Пређи на претрагу
Tipični scenario u podržanom učenju: agent preduzima akcije u okruženju, što se tumači kao nagrada i reprezentacija stanja, što se vraća nazad agentu.

Podržano učenje (Шаблон:Jez-en) područje je mašinskog učenja i optimalne kontrole koje se bavi time kako bi inteligentni agenti trebali odabrati akcije u okruženju kako bi maksimizovali pojam kumulativne nagrade. Podržano učenje jedno je od tri osnovne paradigme mašinskog učenja, uz nadzirano učenje i nenadzirano učenje.

Podržano učenje se razlikuje od nadziranog učenja po tome što ne zahteva prikazivanje označenih ulazno/izlaznih parova, kao ni obavezno ispravljanje suboptimalnih akcija. Umesto toga, fokus je na pronalaženju ravnoteže između istraživanja (nepoznatih područja) i iskorištavanja (trenutnog znanja).[1] Okruženje se obično izražava u obliku Markovljevog procesa odlučivanja (MDP) jer mnogi algoritmi podržanog učenja u ovom kontekstu koriste tehnike dinamičkog programiranja.[2]

Glavna razlika između klasičnih metoda dinamičkog programiranja i algoritama podržanog učenja je da podržano učenje ne pretpostavlja poznavanje tačnog matematičkog modela MDP-a i da cilja na velike MDP-ove za koje tačne metode postaju nemoguće.[3]

Formalizacija problema

Zaleđina

Podržano učenje se uglavnom definiše kao Markovljev proces odlučivanja nazvan po ruskom matematičaru Markovu. Model je koncipiran kao skup stanja koja poseduju sve informacije o sistemu odnosno okolini koje modeluju. Svako od stanja omogućuje što preciznije predviđanje posledica svake izvedene radnje. MDP se formalno zapisuje kao četverac (S,A(s),P(s|s,a),R(s,s,a)), pri čemu je:

  • S: množina svih mogućih stanja.
  • A(s): množina svih mogućih radnji u svakom stanju. sS
  • P(s|s,a): verovatnoća prelaza u stanje s, pod pretpostavkom da se nalazimo u stanju s i da je izvršena radnja aA(s).
  • R(s,s,a): nagrada / kazna

Strategija

Cilj postupka je pronaći strategiju ponašanja (policy) π: sSaA(s), koja za svako stanje s[4]Шаблон:Rp i akciju a maksimizira očekivanu buduću nagradu. Strategija se može menjati tokom učenja zavisno od količine dobijenih nagrada.

Postoji nekoliko opcija za odabir akcije, na primer:

  • pohlepna: uvek će biti izabrana najbolja akcija - π(s)=argmaxaQ(s,a)
  • ε-pohlepna: uglavnom će biti izabrana najbolja akcija, povremeno sa verovatnoćom ε biće odabrana i nasumična akcija

Vrednost funkcije

Postoje dve slične varijante vrednosti funkcije

  • Funkcije vrednosti stanja V(s) (state value function)
  • Funkcije vrednosti prelaza između stanja Q(s,a) (state-action value function)

Funkcije vrednosti definirane su kao alat za traženje maksimalne sume svih očekivanih nagrada pomoću sledećeg algoritma:

  • Čekaj nagradu u budućnosti s faktorom umanjenja γ:
    • Uvažavajući stanja sS: Vπ(s)=E{rt+1+γrt+2+γ2rt+3+...|st=s,π}
    • Uvažavajući prelaze između stanja sS,aA(s): Qπ(s,a)=E{rt+1+γrt+2+γ2rt+3+...|st=s,at=a,π}

Vidi još

Reference

Шаблон:Reflist

Literatura

Шаблон:Reflist

Шаблон:Refend

Spoljašnje veze

Шаблон:Authority control-lat