Активациона функција
У вештачким неуронским мрежама, активациона функција чвора дефинише излаз тог чвора на основу улаза или скупа улаза. Стандардно коло компјутерског чипа може се гледати као дигитална мрежа активационих функција које могу имати вредност „укључено” (1) или „искључено” (0), у зависности од улаза. Ово је слично понашању линеарног перцептрона у неуронским мрежама. Међутим, само нелинеарне активационе функције дозвољавају таквим мрежама да израчунају нетривијалне проблеме користећи само мали број чворова.[1] У вештачким неуронским мрежама, ова функција се назива и функција преноса.
Функције
У биолошки инспирисаним неуронским мрежама, активациона функција је обично апстракција која представља стопу акционог потенцијала који се појављује у ћелији. У својој најједноставнијој форми, ова функција је бинарна — тј. или се неурон активира или не. Функција изгледа као , гдје је Хевисајдова одскочна функција. У овом случају многи неурони се морају користити у рачунању изван линеарног раздвајања категорија.
Линија позитивног нагиба може се користити да би се одразило повећање стопе активирања која се јавља како се улазна струја повећава. Таква функција би била у форми , где је нагиб. Ова активациона функција је линеарна и стога има исте проблеме као и бинарна функција. Поред тога, мреже конструисане коришћењем овог модела имају нестабилну конвергенцију зато што неуронски улази по фаворизованим путевима имају тенденцију да се повећају без везивања, јер ова функција није нормализована.
Сви наведени проблеми могу се обрадити коришћењем нормализоване сигмоидне активационе функције. Један реалан модел остаје на нули све док не прими улазну струју. У том тренутку, стопа активације се прво брзо повећава, али се постепено приближава асимптоти са стопом од 100%. Математички, ово изгледа као , где се хипероболичка тангентна функција може заменити било којом сигмоидном функцијом. Ово понашање се реално рефлектује у неурону, јер неурони физички не могу да се активирају брже од одређене стопе. Међутим, овај модел се сусреће са проблемима у рачунарским мрежама, јер није диференцијабилан, што је захтев за израчунавање бекпропагације.
Коначни модел, који се користи у вишеслојним перцептронима, је сигмоидна активациона функција у облику хиперболичног тангенса. Обично се користе два облика ове функције: , чији је распон нормализован од -1 до 1 и , који је вертикално транслиран како би био нормализован од 0 до 1. Овај последњи модел често се сматра биолошки реалнијим, али има теоријске и експерименталне потешкоће са одређеним типовима рачунарских проблема.
Поређење активационих функција
Активационе функције треба да имају нека пожељна својства, међу којима су:
- Нелинеарност — Када је активациона функција нелинеаерна, онда се може доказати да је двослојна неуронска мрежа универзални апроксиматор функције.[2]
- Интервал — Када је интервал активационе функције коначан, методе учења засноване на градијенту имају тенденцију да буду стабилније. Када је интервал бесконачан, учење је генерално ефикасније.
- Непрекидна диференцијабилност — Ово својство је пожељно (ReLU није непрекидно диференцијабилан и има неке проблеме са оптимизацијом заснованом на градијенту) за омогућавање метода оптимизације заснованих на градијенту. Активациона бинарна одскочна функција није диференцијабилна у нули, а извод јој је 0 за све остале вредности, тако да методе засноване на градијенту немају напретка са овом функцијом.[3]
- Монотоност — Када је активациона функција монотона, површина грешке која је повезана са једнослојним моделом гарантовано је конвексна.[4]
- Глатке функције са монотоним изводом — За ове функције показало се да у неким случајевима боље генерализују.
- Апроксимација идентитета приближно оригиналу — Када активационе функције имају ово својство, неуронска мрежа ће ефикасно учити када се њене тежине иницијализују на мале случајне вредности. Када активациона функција не апроксимира идентитет приближан оригиналу, приликом иницијализације тежина мора се обратити посебна пажња.[5] У табели испод, активацион ефункције где је и и где је непрекидно у 0, означене су да имају ово својство.
Следећа табела пореди својства неколико активационих функција:
- Шаблон:NoteОвде, Шаблон:Mvar је Хевисајдова функција.
- Шаблон:NoteШаблон:Mvar је стохастичка променљива изведена из униформне расподеле времена учења и фиксирана је на очекивану вредност расподеле времена тестирања.
- Шаблон:NoteШаблон:NoteШаблон:NoteОвде, је логистичка функција.
Следећа табела садржи активационе функције које нису функције једног сложеног Шаблон:Mvar из претходног слоја или слојева:
| Назив | Једначина | Изводи | Интервал | Ред непрекидности |
|---|---|---|---|---|
| Softmax | for Шаблон:Mvar = 1, …, Шаблон:Mvar | Шаблон:Ref | ||
| Maxout[28] |
Референце
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Citation
- ↑ Шаблон:Citation
- ↑ 8,0 8,1 Шаблон:Citation
- ↑ Шаблон:Cite web
- ↑ Шаблон:Citation
- ↑ 11,0 11,1 Шаблон:Cite arxiv
- ↑ Шаблон:Citation
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite arxiv
- ↑ Шаблон:Cite arxiv
- ↑ Шаблон:Cite arxiv
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite arxiv
- ↑ Шаблон:Cite arxiv
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite arxiv
- ↑ Шаблон:Cite arxiv
- ↑ Шаблон:Cite arxiv
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite arxiv
- ↑ Шаблон:Cite arxiv
- ↑ Шаблон:Cite journal
