Исправљач (неуронске мреже)

Графикон функције РеЛУ исправљача (плави) и ГЕЛУ (зелени) у близини Шаблон:Nowrap

У контексту вештачких неуронских мрежа, функција активације исправљача или ReLU (Rectified Linear Unit) ^[1] ^[2] је активациона функција дефинисана као позитиван део свог аргумента:

f (x) = x^{+} = \max (0, x)

где x представља улаз у неурон. Ово је иначе познато и као функција рампе и аналогно је полуталасном исправљању која је област у електротехници .

Ова активациона функција се почела појављивати у контексту екстракције визуелних карактеристика у хијерархијским неуронским мрежама почевши од краја 1960-их година. ^[3] ^[4] Касније се тврдило да има јаке биолошке мотиве и математичка оправдања. ^[5] 2011. године је откривено да омогућава бољу обуку дубљих мрежа, ^[6] у поређењу са широко коришћеним активационим функцијама од пре 2011. године, на пример, логистички сигмоид (који је инспирисан теоријом вероватноће ; погледајте и логистичку регресију ) и његов практичнији ^[7] еквивалент, хиперболичка тангента . Исправљач је, од 2017. године, најпопуларнија активациона функција за дубоке неуронске мреже . ^[8]

Исправљене линеарне јединице углавном налазе примену у компјутерском виду ^[9] и препознавању говора ^[10] ^[11] тако што користе дубоке неуронске мреже и рачунарску неуронауку . ^[12] ^[13] ^[14]

Шаблон:TOC limit

Предности

Ретка активација: На пример, у насумично иницијализованој мрежи, само око 50% скривених јединица је активирано (имају не-нултну излазну вредност).
Боље ширење градијента: Мање проблема са нестајајућим градијентом у поређењу са функцијама сигмоидалне активације које се засићују у оба смера. ^[9]
Ефикасно рачунање: Само поређење, сабирање и множење.
Инваријантна размера: $\max (0, a x) = a \max (0, x) for a \geq 0$ .

Активационе функције за исправљање су коришћене за раздвајање специфичне ексцитације и неспецифичних инхибиција у неурално апстрактној пирамиди, која је обучена на надгледајући начин да научи неколико задатака компјутерске визије. ^[15] У 2011. години, ^[9] показало се да употреба исправљача као нелинеарности омогућава обуку дубоко надгледаних неуронских мрежа без потребе за претходном обуком без надзора . Исправљене линеарне јединице, у поређењу са сигмоидном функцијом или сличним активационим функцијама, омогућавају бржи и ефикаснији тренинг дубоких неуронских архитектура на великим и сложеним скуповима података.

Потенцијални проблеми

Није диференцијабилан на нули; међутим, може се разликовати било где другде, а вредност деривата на нули може се произвољно изабрати да буде 0 или 1.
Није нултно-центриран.
Неограниченост
Проблем умирања ReLU-а: ReLU (Rectified Linear Unit) неурони понекад могу бити гурнути у стања у којима постају неактивни за суштински све улазе. У овом стању, ниједан од градијената не тече уназад кроз неурон, тако да се неурон заглави у трајно неактивном стању и „умире“. Ово је облик проблема нестајања градијента . У неким случајевима, велики број неурона у мрежи може да се заглави у мртвим стањима, ефективно смањујући капацитет модела. Овај проблем се обично јавља када је стопа учења постављена превисоко. Може се ублажити коришћењем пропуштајућих ReLU-ова, који додељују мали позитиван нагиб за х < 0; међутим, перформансе су смањене.

Варијанте

Комадично-линеарне варијанте

Пропуштајући ReLU

Пропуштајући ReLU-ови дозвољавају мали, позитиван градијент када јединица није активна. Следећа функција гласи: ^[11]

f (x) = {\begin{matrix} x & if x > 0, \\ 0.01 x & otherwise . \end{matrix}

Параметризован ReLU

Параметризовани ReLU-ови (PReLUs) развијају ову идеју даље тако што претварају коефицијент цурења у параметар који се учи заједно са другим параметрима неуронске мреже. ^[16]

f (x) = {\begin{matrix} x & if x > 0, \\ a x & otherwise . \end{matrix}

Имајте на уму да су за а ≤ 1 ове две функције еквивалентне максималној вредности функције која се налази испод

f (x) = \max (x, a x)

и самим тим имају везу са "maxout" мрежама. ^[17]

Друге нелинеарне варијанте

Гаусова линеарна јединица грешке (GELU)

GELU представља глатку апроксимацију исправљача. Има немонотонски „bump“ када је х < 0, и служи као подразумевана активација за моделе као што је БЕРТ . ^[18]

$f (x) = x \cdot Φ (x)$ ,

где Φ( х ) представља кумулативна функција расподеле стандардне нормалне расподеле .

Ова активациона функција је илустрована на слици која се налази на почетку овог чланка.

SiLU

SiLU (Сигмоидова Линеарна Јединица) или функција swish ^[19] је још једна глатка апроксимација која је први пут скована у ГЕЛУ раду. ^[20]

$f (x) = x \cdot sigmoid (x)$

где $sigmoid (x)$ је сигмоидна функција .

Softplus

Апроксимација исправљача глатког и лаганог облика представља наведену аналитичку функцију која је представљена функцијом испод:

f (x) = \ln (1 + e^{x}),

и та функција се назива softplus ^[21] ^[9] или SmoothReLU . ^[22] За велике негативне вредности $x$ је отприлике једнако $l n (1)$ дакле нешто изнад 0, док за велике позитивне вредности $x$ је отприлике једнако $l n (e^{x})$ тек мало изнад $x$ .

Параметар оштрине $k$ може бити укључено:

f (x) = \frac{\ln (1 + e^{k x})}{k}

Извод softplus-а једнак је логистичкој функцији . Почевши од параметарске верзије,

f^{'} (x) = \frac{e^{k x}}{1 + e^{k x}} = \frac{1}{1 + e^{- k x}}

Логистичка сигмоидна функција је приближна апроксимација извода исправљача, односно Хевисајдове корак функције .

Мултиваријабилна генерализација softplus-а са једном променљивом је [1]LogSumExp са првим аргументом који је постављен на нулу:

{L S E_{0}}^{+} (x_{1}, \dots, x_{n}) := LSE (0, x_{1}, \dots, x_{n}) = \log (1 + e^{x_{1}} + \dots + e^{x_{n}}) .

Функција LogSumExp је

LSE (x_{1}, \dots, x_{n}) = \log (e^{x_{1}} + \dots + e^{x_{n}}),

а његов градијент представља [2]softmax ; softmax са првим аргументом који је постављен на нулу је мултиваријабилна генерализација логистичке функције. И LogSumExp и softmax се користе у машинском учењу.

ELU

Експоненцијалне линеарне јединице покушавају да учине средње активације буду ближе нули, што убрзава процес учења. Показало се да ELU могу постићи већу тачност класификације од ReLU-ова. ^[23]

f (x) = {\begin{matrix} x & if x > 0, \\ a (e^{x} - 1) & otherwise, \end{matrix}

где $a$ је хиперпараметар који треба подесити, и $a \geq 0$ је ограничење.

ELU се може посматрати као да је изглађена верзија помереног ReLU (SReLU), који има облик функције $f (x) = \max (- a, x)$ с обзиром на исто тумачење $a$ .

Mish

Mish функција се такође може икористити као апроксимација исправљача глатког облика. ^[24] Дефинише се као

f (x) = x \tanh (softplus (x))

где $\tanh (x)$ представља хиперболичну тангенту и $softplus(x)$ је [3]softplus функција.

Миш је немонотон и самосталан . ^[25] Инспирисан је [4]Swish -ом, који је варијанта ReLU-а . ^[25]

Види још

Шаблон:Извори Шаблон:Нормативна контрола

↑ Шаблон:Cite web
↑ Шаблон:Cite web
↑ Шаблон:Cite journal
↑ Шаблон:Cite journal
↑ Шаблон:Cite journal
↑ Шаблон:Cite conference
↑ Шаблон:Cite encyclopedia
↑ Шаблон:Cite arXiv
↑ ^9,0 ^9,1 ^9,2 ^9,3 Шаблон:Cite conferenceXavier Glorot, Antoine Bordes and Yoshua Bengio (2011). Deep sparse rectifier neural networks Шаблон:Wayback (PDF). AISTATS. Rectifier and softplus activation functions. The second one is a smooth version of the first.{{cite conference}}: CS1 maint: uses authors parameter (link)
↑ Шаблон:Cite conference
↑ ^11,0 ^11,1 Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). Rectifier Nonlinearities Improve Neural Network Acoustic Models.
↑ Шаблон:Cite journal
↑ Шаблон:Cite journal
↑ Шаблон:Cite arXiv
↑ Шаблон:Cite book
↑ Шаблон:Cite arXiv
↑ Шаблон:Cite arXiv
↑ Шаблон:Cite arXiv
↑ Шаблон:Citation
↑ Шаблон:Cite arXiv
↑ Шаблон:Cite journal
↑ Шаблон:Cite web
↑ Шаблон:Cite arXiv
↑ Шаблон:Citation
↑ ^25,0 ^25,1 Шаблон:Cite web

[brownlee-1] Шаблон:Cite web

[medium-relu-2] Шаблон:Cite web

[Fukushima1969-3] Шаблон:Cite journal

[Fukushima1982-4] Шаблон:Cite journal

[Hahnloser2000-5] Шаблон:Cite journal

[glorot20119-6] Шаблон:Cite conference

[7] Шаблон:Cite encyclopedia

[8] Шаблон:Cite arXiv

[glorot2011-9] 9,0 ^9,1 ^9,2 ^9,3 Шаблон:Cite conferenceXavier Glorot, Antoine Bordes and Yoshua Bengio (2011). Deep sparse rectifier neural networks Шаблон:Wayback (PDF). AISTATS. Rectifier and softplus activation functions. The second one is a smooth version of the first.{{cite conference}}: CS1 maint: uses authors parameter (link)

[tothl2013-10] Шаблон:Cite conference

[maas2014-11] 11,0 ^11,1 Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). Rectifier Nonlinearities Improve Neural Network Acoustic Models.

[hansel2002-12] Шаблон:Cite journal

[13] Шаблон:Cite journal

[14] Шаблон:Cite arXiv

[NeuralAbstractionPyramid-15] Шаблон:Cite book

[prelu99-16] Шаблон:Cite arXiv

[prelu-17] Шаблон:Cite arXiv

[ReferenceA-18] Шаблон:Cite arXiv

[Misrakk-19] Шаблон:Citation

[ReferenceAk-20] Шаблон:Cite arXiv

[21] Шаблон:Cite journal

[22] Шаблон:Cite web

[23] Шаблон:Cite arXiv

[Misra-24] Шаблон:Citation

[shaw-25] 25,0 ^25,1 Шаблон:Cite web

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

Исправљач (неуронске мреже)

Садржај

Предности

Потенцијални проблеми

Варијанте

Комадично-линеарне варијанте

Пропуштајући ReLU

Параметризован ReLU

Друге нелинеарне варијанте

Гаусова линеарна јединица грешке (GELU)

SiLU

Softplus

ELU

Mish

Види још

Мени за навигацију

Исправљач (неуронске мреже)

Предности

Потенцијални проблеми

Варијанте

Комадично-линеарне варијанте

Пропуштајући ReLU

Параметризован ReLU

Друге нелинеарне варијанте

Гаусова линеарна јединица грешке (GELU)

SiLU

Softplus

ELU

Mish

Види још

Мени за навигацију

Претрага