Исправљач (неуронске мреже)

Извор: testwiki
Пређи на навигацију Пређи на претрагу

 

Графикон функције РеЛУ исправљача (плави) и ГЕЛУ (зелени) у близини Шаблон:Nowrap

У контексту вештачких неуронских мрежа, функција активације исправљача или ReLU (Rectified Linear Unit) [1] [2] је активациона функција дефинисана као позитиван део свог аргумента:

f(x)=x+=max(0,x)

где x представља улаз у неурон. Ово је иначе познато и као функција рампе и аналогно је полуталасном исправљању која је област у електротехници .

Ова активациона функција се почела појављивати у контексту екстракције визуелних карактеристика у хијерархијским неуронским мрежама почевши од краја 1960-их година. [3] [4] Касније се тврдило да има јаке биолошке мотиве и математичка оправдања. [5] 2011. године је откривено да омогућава бољу обуку дубљих мрежа, [6] у поређењу са широко коришћеним активационим функцијама од пре 2011. године, на пример, логистички сигмоид (који је инспирисан теоријом вероватноће ; погледајте и логистичку регресију ) и његов практичнији [7] еквивалент, хиперболичка тангента . Исправљач је, од 2017. године, најпопуларнија активациона функција за дубоке неуронске мреже . [8]

Исправљене линеарне јединице углавном налазе примену у компјутерском виду [9] и препознавању говора [10] [11] тако што користе дубоке неуронске мреже и рачунарску неуронауку . [12] [13] [14]

Шаблон:TOC limit

Предности

  • Ретка активација: На пример, у насумично иницијализованој мрежи, само око 50% скривених јединица је активирано (имају не-нултну излазну вредност).
  • Боље ширење градијента: Мање проблема са нестајајућим градијентом у поређењу са функцијама сигмоидалне активације које се засићују у оба смера. [9]
  • Ефикасно рачунање: Само поређење, сабирање и множење.
  • Инваријантна размера: max(0,ax)=amax(0,x) for a0 .

Активационе функције за исправљање су коришћене за раздвајање специфичне ексцитације и неспецифичних инхибиција у неурално апстрактној пирамиди, која је обучена на надгледајући начин да научи неколико задатака компјутерске визије. [15] У 2011. години, [9] показало се да употреба исправљача као нелинеарности омогућава обуку дубоко надгледаних неуронских мрежа без потребе за претходном обуком без надзора . Исправљене линеарне јединице, у поређењу са сигмоидном функцијом или сличним активационим функцијама, омогућавају бржи и ефикаснији тренинг дубоких неуронских архитектура на великим и сложеним скуповима података.

Потенцијални проблеми

  • Није диференцијабилан на нули; међутим, може се разликовати било где другде, а вредност деривата на нули може се произвољно изабрати да буде 0 или 1.
  • Није нултно-центриран.
  • Неограниченост
  • Проблем умирања ReLU-а: ReLU (Rectified Linear Unit) неурони понекад могу бити гурнути у стања у којима постају неактивни за суштински све улазе. У овом стању, ниједан од градијената не тече уназад кроз неурон, тако да се неурон заглави у трајно неактивном стању и „умире“. Ово је облик проблема нестајања градијента . У неким случајевима, велики број неурона у мрежи може да се заглави у мртвим стањима, ефективно смањујући капацитет модела. Овај проблем се обично јавља када је стопа учења постављена превисоко. Може се ублажити коришћењем пропуштајућих ReLU-ова, који додељују мали позитиван нагиб за х < 0; међутим, перформансе су смањене.

Варијанте

Комадично-линеарне варијанте

Пропуштајући ReLU

Пропуштајући ReLU-ови дозвољавају мали, позитиван градијент када јединица није активна. Следећа функција гласи: [11]

f(x)={xif x>0,0.01xotherwise.

Параметризован ReLU

Параметризовани ReLU-ови (PReLUs) развијају ову идеју даље тако што претварају коефицијент цурења у параметар који се учи заједно са другим параметрима неуронске мреже. [16]

f(x)={xif x>0,axotherwise.

Имајте на уму да су за а ≤ 1 ове две функције еквивалентне максималној вредности функције која се налази испод

f(x)=max(x,ax)

и самим тим имају везу са "maxout" мрежама. [17]

Друге нелинеарне варијанте

Гаусова линеарна јединица грешке (GELU)

GELU представља глатку апроксимацију исправљача. Има немонотонски „bump“ када је х < 0, и служи као подразумевана активација за моделе као што је БЕРТ . [18]

f(x)=xΦ(x) ,

где Φ( х ) представља кумулативна функција расподеле стандардне нормалне расподеле .

Ова активациона функција је илустрована на слици која се налази на почетку овог чланка.

SiLU

SiLU (Сигмоидова Линеарна Јединица) или функција swish [19] је још једна глатка апроксимација која је први пут скована у ГЕЛУ раду. [20]

f(x)=xsigmoid(x)

где sigmoid(x) је сигмоидна функција .

Softplus

Апроксимација исправљача глатког и лаганог облика представља наведену аналитичку функцију која је представљена функцијом испод:

f(x)=ln(1+ex),

и та функција се назива softplus [21] [9] или SmoothReLU . [22] За велике негативне вредности x је отприлике једнако ln(1) дакле нешто изнад 0, док за велике позитивне вредности x је отприлике једнако ln(ex) тек мало изнад x .

Параметар оштрине k може бити укључено:

f(x)=ln(1+ekx)k

Извод softplus-а једнак је логистичкој функцији . Почевши од параметарске верзије,

f(x)=ekx1+ekx=11+ekx

Логистичка сигмоидна функција је приближна апроксимација извода исправљача, односно Хевисајдове корак функције .

Мултиваријабилна генерализација softplus-а са једном променљивом је [1]LogSumExp са првим аргументом који је постављен на нулу:

LSE0+(x1,,xn):=LSE(0,x1,,xn)=log(1+ex1++exn).

Функција LogSumExp је

LSE(x1,,xn)=log(ex1++exn),

а његов градијент представља [2]softmax ; softmax са првим аргументом који је постављен на нулу је мултиваријабилна генерализација логистичке функције. И LogSumExp и softmax се користе у машинском учењу.

ELU

Експоненцијалне линеарне јединице покушавају да учине средње активације буду ближе нули, што убрзава процес учења. Показало се да ELU могу постићи већу тачност класификације од ReLU-ова. [23]

f(x)={xif x>0,a(ex1)otherwise,

где a је хиперпараметар који треба подесити, и a0 је ограничење.

ELU се може посматрати као да је изглађена верзија помереног ReLU (SReLU), који има облик функције f(x)=max(a,x) с обзиром на исто тумачење a .

Mish

Mish функција се такође може икористити као апроксимација исправљача глатког облика. [24] Дефинише се као

f(x)=xtanh(softplus(x))

где tanh(x) представља хиперболичну тангенту и softplus(x) је [3]softplus функција.

Миш је немонотон и самосталан . [25] Инспирисан је [4]Swish -ом, који је варијанта ReLU-а . [25]

Види још

Шаблон:Извори Шаблон:Нормативна контрола