Метода потпорних вектора

У машинском учењу, метода потпорних вектора је модел учења под надзором са припадајућим алгоритмима учења који анализирају податке за класификацију и регресиону анализу . Развио ју је Владимир Вапник са колегама у AT&T Bell Лабораторијама. Метода потпорних вектора је једна од најпоузданијих метода предвиђања, заснована на статистичким оквирима учења или VC теорији коју су предложили Вапник (1982, 1995) и Червонинкс (1974). Имајући у виду скуп примера за обуку, од којих је сваки означен као да припада једној од две категорије, МПВ алгоритам за обуку гради модел који додељује нове примере једној или другој категорији, чинећи га ненагађајућим бинарним линеарним класификатором . МПВ пресликава примере обуке на тачке у простору како би максимизирао ширину јаза између две категорије. Нови примери се затим мапирају у исти простор и предвиђају да припадају категорији на основу које стране јаза падају.

Поред извођења линеарне класификације, МПВ-ови могу ефикасно да изврше нелинеарну класификацију користећи оно што се назива трик језгра, имплицитно мапирајући своје улазе у просторе карактеристика високе димензије.

Када подаци нису означени, надгледано учење није могуће и потребан је приступ учењу без надзора, који покушава да пронађе природно груписање података у групе, а затим мапира нове податке у ове формиране групе. Алгоритам за груписање потпорних вектора ^[1], који су креирали Хава Сигелман и Владимир Вапник, примењује статистику вектора подршке, развијену у алгоритму мотоде поджаних вектора, за категоризацију неозначених података, и један је од најчешће коришћених алгоритама за груписање у инустријској апликацији.Шаблон:Чињеница

Мотивација

H₁ не раздваја класе. H₂ раздваја, али само са малом маргином. H₃ их раздваја са максималном маргином.

Класификација података је уобичајен задатак у машинском учењу . Претпоставимо да свака дата тачка припада једној од две класе, а циљ је да се одлучи у којој ће класи бити нова тачка података . У случају методе потпорних вектора, тачка података се посматра као $p$ -димензионални вектор (листа $p$ бројева), и желимо да знамо да ли можемо да одвојимо такве тачке са а $(p - 1)$ -димензионалном хиперравни . Ово се зове линеарни класификатор . Постоји много хиперравни које могу класификовати податке. Разуман избор као најбоља хиперравна је она који постиже највеће раздвајање, или маргину, између две класе. Зато бирамо хиперраван тако да је растојање од ње до најближе тачке података на свакој страни максимизирано. Ако таква хиперраван постоји, позната је као хиперраван максималне маргине, а линеарни класификатор који он дефинише је познат као класификатор максималне маргине; или еквивалентно, перцептрон оптималне стабилности .Шаблон:Чињеница

Дефиниција

Модел потпорних векотра конструише хиперраван или скуп хиперравни у високо- или бесконачно-димензионалном простору, који се може користити за класификацију, регресију или друге задатке као што је откривање одступања. ^[2] Добро раздвајање се постиже хиперравнином која има највећу удаљеност до најближе тачке података за обуку било које класе (функционална маргина), пошто генерално што је већа маргина, то је мања грешка генерализације класификатора. ^[3]

Док се оригинални проблем може навести у коначнодимензионалном простору, често се дешава да скупови дискриминанти нису линеарно одвојиви у том простору. Из тог разлога, предложено је ^[4] да се оригинални коначно-димензионални простор преслика у простор много веће димензије, што вероватно олакшава раздвајање у том простору. Да би рачунарско оптерећење било разумно, мапирања које користе МПВ шеме су дизајниране да обезбеде да се тачкасти производи парова вектора улазних података могу лако израчунати у смислу променљивих у оригиналном простору, дефинисањем у смислу функције језгра $k (x, y)$ одабрано да одговара проблему. ^[5] Хиперравне у вишедимензионалном простору су дефинисане као скуп тачака чији је тачкасти производ са вектором у том простору константан, при чему је такав скуп вектора ортогоналан (а тиме и минималан скуп вектора који дефинише хиперраван. Вектори који дефинишу хиперравне могу се изабрати да буду линеарне комбинације са параметрима $α_{i}$ слике вектора обележја $x_{i}$ који се јављају у бази података. Са овим избором хиперравнине, тачке $x$ у простору обележја који су пресликани у хиперравнину дефинисани су релацијом $\sum_{i} α_{i} k (x_{i}, x) = constant .$ Имајте на уму да ако $k (x, y)$ постаје мали као $y$ расте даље од $x$ , сваки члан у збиру мери степен блискости испитане тачке $x$ до одговарајуће тачке базе података $x_{i}$ . На овај начин, збир горњих језгара може да се користи за мерење релативне близине сваке испитне тачке тачкама података које потичу из једног или другог скупа који се дискриминише. Обратите пажњу на чињеницу да је скуп тачака $x$ пресликан у било коју хиперравнину може бити прилично замршен као резултат, омогућавајући много сложенију дискриминацију између скупова који уопште нису конвексни у оригиналном простору.

Апликације

Методе потпорних векотра се могу користити за решавање различитих проблема из стварног света:

Методе потпорних векотра су корисне у категоризацији текста и хипертекста, јер њихова примена може значајно смањити потребу за означеним инстанцама обуке и у стандардним индуктивним и трансдуктивним поставкама. ^[6] Неке методе за плитко семантичко рашчлањивање засноване су на методама потпорних векотра. ^[7]
Класификација слика се такође може извршити помоћу МПВ-а. Експериментални резултати показују да МПВ постижу знатно већу тачност претраге од традиционалних шема за прецизирање упита након само три до четири круга повратних информација о релевантности. Ово важи и за системе за сегментацију слика, укључујући и оне који користе модификовану верзију МПВ-а која користи привилеговани приступ како је предложио Вапник. ^[8] ^[9]
Класификација сателитских података као што су SAR подаци коришћењем надгледаног МПВ. ^[10]
Руком писани знакови се могу препознати помоћу МПВ. ^[11] ^[12]
Алгоритам МПВ има широку примену у биологијо и другим наукама. Коришћени су за класификацију протеина са до 90% исправно класификованих једињења. Пермутациони тестови засновани на МПВ тежинама су предложени као механизам за интерпретацију МПВ модела. ^[13] ^[14] Методе потпорних векотра су такође коришћене за тумачење МПВ модела у прошлости. ^[15] Постхок интерпретација модела потпорних вектора у циљу идентификације карактеристика које модел користи за предвиђање је релативно нова област истраживања од посебног значаја у биолошким наукама.

Историја

Оригинални МПВ алгоритам су измислили Владимир Н. Вапник и Алексеј Ја. Червонинкс 1963. године. Године 1992. Бернхард Босер, Изабела Гујон и Владимир Вапник су предложили начин да се створе нелинеарни класификатори применом трика језгра да би се добиле максималне маргине хиперравни. ^[4] Инкарнацију „меке маргине“, као што се уобичајено користе софтверски пакети, предложили су Корина Кортес и Вапник 1993. године и објављени 1995. године ^[16]

Линеарна МПВ

Имамо скуп података за обуку од $n$ тачке форме

(𝐱_{1}, y_{1}), \dots, (𝐱_{n}, y_{n}),

где $y_{i}$ су или 1 или −1, од којих сваки указује на класу до које је тачка $𝐱_{i}$ припада. Сваки $𝐱_{i}$ је $p$ -димензионални реални вектор. Желимо да пронађемо "хиперраван максималне маргине" која дели групу тачака $𝐱_{i}$ за које $y_{i} = 1$ из групе бодова за које $y_{i} = - 1$ , који је дефинисан тако да растојање између хиперравни и најближе тачке $𝐱_{i}$ из било које групе буде максимизиран.

Било која хиперраван се може написати као скуп тачака $𝐱$ уколико испуњава:

𝐰^{T} 𝐱 - b = 0,

где је $𝐰$ (не нужно нормализован) вектор нормале на хиперраван. Ово је слично Хесеновом нормалном облику, осим тога $𝐰$ није нужно јединични вектор. Параметар $\frac{b}{‖ 𝐰 ‖}$ одређује помак хиперравни од почетка дуж вектора нормале $𝐰$ .

Тврда маргина

Ако су тренинг подаци линеарно раздвојиви, можемо изабрати две паралелне хиперравне које раздвајају две класе података, тако да је растојање између њих што је могуће веће. Подручје ограничено са ове две хиперравне назива се „маргина“, а хиперраван максималне маргине је хиперраван која се налази на пола пута између њих. Са нормализованим или стандардизованим скупом података, ове хиперравне се могу описати слдећим једначинама:

𝐰^{T} 𝐱 - b = 1

(све на или изнад ове границе припрада једној класи, са ознаком 1)

и

𝐰^{T} 𝐱 - b = - 1

(све на или испод ове границе припада другој класи, са ознаком −1).

Геометријски, растојање између ове две хиперравне је $\frac{2}{‖ 𝐰 ‖}$ , ^[17] тако да би максимизовали растојање између равни које желимо да минимизирамо $‖ 𝐰 ‖$ . Растојање се израчунава коришћењем једначине удаљености тачке од равни . Такође морамо да спречимо да тачке података падну на маргину, додајемо следеће ограничење: за сваку $i$ било

𝐰^{T} 𝐱_{i} - b \geq 1

, ако је

y_{i} = 1

,

или

𝐰^{T} 𝐱_{i} - b \leq - 1

, ако је

y_{i} = - 1

.

Ови услови наводе да свака тачка података мора лежати на исправној страни маргине.

Ово се може написати и као:

y_{i} (𝐰^{T} 𝐱_{i} - b) \geq 1, за све 1 \leq i \leq n . (1)

Можемо да саставимо све ово и добијемо проблем оптимизације:

„Минимизуј

‖ 𝐰 ‖

на

y_{i} (𝐰^{T} 𝐱_{i} - b) \geq 1

за

i = 1, \dots, n

."

$𝐰$ и $b$ који решавају овај проблем одређују наш класификатор, $𝐱 \mapsto sgn (𝐰^{T} 𝐱 - b)$ где је $sgn (\cdot)$ функција знака .

Важна последица овог геометријског описа је да је хиперраван максималне маргине потпуно одређена векотром ${\vec{x}}_{i}$ који му је најближи. Ови $𝐱_{i}$ називају се вектори подршке .

Мека маргина

За проширење МПВ на случајеве у којима подаци нису линеарно одвојиви, функција губитка зглоба је од помоћи

\max (0, 1 - y_{i} (𝐰^{T} 𝐱_{i} - b)) .

Напоменути да је $y_{i}$ i-ти циљ (то јест, у овом случају је 1 или −1), и $𝐰^{T} 𝐱_{i} - b$ је i-ти излаз.

Ова функција је нула ако је услов из (1) задовољен, другим речима, ако $𝐱_{i}$ лежи на исправној страни маргине. За податке на погрешној страни маргине, вредност функције је пропорционална удаљености од тачке од маргине.

Циљ оптимизације је да се минимизује

λ ‖ 𝐰 ‖^{2} + [\frac{1}{n} \sum_{i = 1}^{n} \max (0, 1 - y_{i} (𝐰^{T} 𝐱_{i} - b))],

где је параметар $λ > 0$ одређује компромис између повећања величине маргине и обезбеђивања да $𝐱_{i}$ леже на исправној страни маргине. Дакле, за довољно мале вредности од $λ$ , понашаће се слично МПВ-а са тврдом маргином, ако се улазни подаци линеарно класификују, али ће и даље научити да ли је правило класификације одрживо или не. (Овај параметар $λ$ се такође назива Ц, нпр. у <a href="-{R|https://en.wikipedia.org/wiki/LIBSVM}-" rel="mw:ExtLink" title="LIBSVM" class="cx-link" data-linkid="534">LIBSVM</a> . )

Нелинеарна класификација

Оригинални алгоритам максималне маргине хиперавни који је предложио Вапник 1963. године конструисао је линеарни класификатор . Међутим, 1992. године, Бернхард Босер, Изабел Гујон и Владимир Вапник су предложили начин за креирање нелинеарних класификатора применом трика језгра (првобитно предложен од Аизермана ^[18] ) за максималне маргине хиперравни. ^[4] Добијени алгоритам је формално сличан, осим што је сваки тачкасти производ замењен нелинеарном функцијом језгра. Ово омогућава алгоритму да уклопи хиперраван максималне маргине у трансформисани простор обележја. Трансформација може бити нелинеарна, а трансформисани простор вишедимензионалан; иако је класификатор хиперравна у трансформисаном простору обележја, он може бити нелинеаран у оригиналном улазном простору.

Важно је напоменути да рад у вишедимензионалном простору карактеристика повећава грешку генерализације методе потпорних вектора, уколико има довољно тренинг узорака алгоритам ће и даље ради добро.

Нека уобичајена језгра укључују:

Полином (хомоген) : $k (\vec{x_{i}}, \vec{x_{j}}) = (\vec{x_{i}} \cdot \vec{x_{j}})^{d}$ .
Полином (нехомоген): $k (\vec{x_{i}}, \vec{x_{j}}) = (\vec{x_{i}} \cdot \vec{x_{j}} + 1)^{d}$ .
Гаусова радијална базна функција : $k (\vec{x_{i}}, \vec{x_{j}}) = \exp (- γ ‖ \vec{x_{i}} - \vec{x_{j}} ‖^{2})$ за $γ > 0$ . Понекад се параметризују коришћењем $γ = 1 / (2 σ^{2})$ .
Хиперболички тангент : $k (\vec{x_{i}}, \vec{x_{j}}) = \tanh (κ \vec{x_{i}} \cdot \vec{x_{j}} + c)$ за неке (не за све) $κ > 0$ и $c < 0$ .

Језгро је повезано са трансформацијом $φ (\vec{x_{i}})$ по једначини $k (\vec{x_{i}}, \vec{x_{j}}) = φ (\vec{x_{i}}) \cdot φ (\vec{x_{j}})$ . Вредност W је такође у трансформисаном простору, са $\vec{w} = \sum_{i} α_{i} y_{i} φ ({\vec{x}}_{i})$ . Тачкасти производи са w за класификацију се поново могу израчунати помоћу трика језгра, тј $\vec{w} \cdot φ (\vec{x}) = \sum_{i} α_{i} y_{i} k ({\vec{x}}_{i}, \vec{x})$ .

Израчунавање класификатора МПВ

Израчунавање (меке маргине) класификатора МПВ доводи до минимизирања израза форме

[\frac{1}{n} \sum_{i = 1}^{n} \max (0, 1 - y_{i} (𝐰^{T} 𝐱_{i} - b))] + λ ‖ 𝐰 ‖^{2} . (2)

Фокусирамо се на класификатор меке маргине пошто, као што је горе наведено, одабир довољно мале вредности за $λ$ даје класификатор тврде маргине за линеарно класификујуће улазне податке. Класични приступ, који укључује свођење (2) на проблем квадратног програмирања, детаљно је описан у наставку. Затим ће се расправљати о новијим приступима као што су суб-градијентални спуст и координатни спуст.

Примал

Минимизовање израза (2) се може написати као проблем ограничене оптимизације са диференцијабилном циљном функцијом овако:

За сваки $i \in {1, \dots, n}$ уводимо променљиву $ζ_{i} = \max (0, 1 - y_{i} (𝐰^{T} 𝐱_{i} - b))$ . Напоменути да је $ζ_{i}$ најмањи ненегативни број који задовољава(испуњава) $y_{i} (𝐰^{T} 𝐱_{i} - b) \geq 1 - ζ_{i} .$

Стога можемо преписати проблем оптимизације на следећи начин

минимизуј \frac{1}{n} \sum_{i = 1}^{n} ζ_{i} + λ ‖ 𝐰 ‖^{2}

за y_{i} (𝐰^{T} 𝐱_{i} - b) \geq 1 - ζ_{i} and ζ_{i} \geq 0, за свако i .

Ово се зове примарни проблем.

Дуал

Решавањем Лагранжовог дуала горњег проблема добија се упрошћени проблем

максимизуј f (c_{1} \dots c_{n}) = \sum_{i = 1}^{n} c_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} y_{i} c_{i} (𝐱_{i}^{T} 𝐱_{j}) y_{j} c_{j},

за \sum_{i = 1}^{n} c_{i} y_{i} = 0, and 0 \leq c_{i} \leq \frac{1}{2 n λ} за свако i .

Ово се зове дуални проблем. Пошто је проблем двоструке максимизације квадратна функција од $c_{i}$ а подлеже линеарним ограничењима, ефикасно се решава помоћу алгоритама квадратног програмирања.

Овде, променљиве $c_{i}$ дефинисане су тако да

𝐰 = \sum_{i = 1}^{n} c_{i} y_{i} 𝐱_{i}

.

Штавише, $c_{i} = 0$ тачно када $𝐱_{i}$ лежи на исправној страни маргине, и $0 < c_{i} < (2 n λ)^{- 1}$ када $𝐱_{i}$ лежи на граници маргине. Следи да се $𝐰$ може написати као линеарна комбинација потпорних векотра.

Офсет, $b$ , може се повратити проналажењем $𝐱_{i}$ на граници маргине и решавањем:

y_{i} (𝐰^{T} 𝐱_{i} - b) = 1 ⟺ b = 𝐰^{T} 𝐱_{i} - y_{i} .

(Напоменути да је $y_{i}^{- 1} = y_{i}$ јер је $y_{i} = \pm 1$ . )

Трик језгра

Тренинг пример МПВ са језгром датим са φ(( a, b )) = ( a, b, a ² + b ² )

Претпоставимо сада да бисмо желели да научимо правило нелинеарне класификације које одговара правилу линеарне класификације за трансформисане тачке података $φ (𝐱_{i}) .$ Штавише, дата нам је функција језгра $k$ која задовољава $k (𝐱_{i}, 𝐱_{j}) = φ (𝐱_{i}) \cdot φ (𝐱_{j})$ .

Познато нам је да вектор класификације $𝐰$ у трансформисаном простору задовољава

𝐰 = \sum_{i = 1}^{n} c_{i} y_{i} φ (𝐱_{i}),

где се $c_{i}$ добија се решавањем задатка оптимизације

\begin{matrix} maximize f (c_{1} \dots c_{n}) & = \sum_{i = 1}^{n} c_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} y_{i} c_{i} (φ (𝐱_{i}) \cdot φ (𝐱_{j})) y_{j} c_{j} \\ = \sum_{i = 1}^{n} c_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} y_{i} c_{i} k (𝐱_{i}, 𝐱_{j}) y_{j} c_{j} \end{matrix}

за \sum_{i = 1}^{n} c_{i} y_{i} = 0, and 0 \leq c_{i} \leq \frac{1}{2 n λ} за свако i .

Коефицијенти $c_{i}$ се могу решити коришћењем квадратног програмирања, као и раније. Опет, можемо пронаћи неки индекс $i$ тако да $0 < c_{i} < (2 n λ)^{- 1}$ , тако да $φ (𝐱_{i})$ лежи на граници маргине у трансформисаном простору, а затим можемо решити

\begin{matrix} b = 𝐰^{T} φ (𝐱_{i}) - y_{i} & = [\sum_{j = 1}^{n} c_{j} y_{j} φ (𝐱_{j}) \cdot φ (𝐱_{i})] - y_{i} \\ = [\sum_{j = 1}^{n} c_{j} y_{j} k (𝐱_{j}, 𝐱_{i})] - y_{i} . \end{matrix}

коначно,

𝐳 \mapsto sgn (𝐰^{T} φ (𝐳) - b) = sgn ([\sum_{i = 1}^{n} c_{i} y_{i} k (𝐱_{i}, 𝐳)] - b) .

Савремене методе

Најновији алгоритми за проналажење класификатора МПВ укључују суб-градијентни спус и координатни спуст. Обе технике показале су се да нуде значајне предности у односу на традиционални приступ када се ради са великим, ретким скуповима података — методе суб-градијента су посебно ефикасне када постоји много примера за обуку и координисани спуст када је димензија простора обележја велика.

Суб-градијенти спуст

Суб-градијентни спуст алгоритам за МПВ ради директно са изразом

f (𝐰, b) = [\frac{1}{n} \sum_{i = 1}^{n} \max (0, 1 - y_{i} (𝐰^{T} 𝐱_{i} - b))] + λ ‖ 𝐰 ‖^{2} .

Напоменути да $f$ је конвексна функција од $𝐰$ и $b$ . Као такав, традиционални градијенти спуст (или СГС) се може прилагодити, где уместо узимања корака у правцу функције градијента, корак се узима у правцу вектора изабраног из функције суб-градијента . Овај приступ има предност у томе што се, за одређене имплементације, број итерација не повећава са $n$ , број тачака података. ^[19]

Координатни спуст

Алгоритми координатног спуста за МПВ раде из дуалног проблема

максимизуј f (c_{1} \dots c_{n}) = \sum_{i = 1}^{n} c_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} y_{i} c_{i} (x_{i} \cdot x_{j}) y_{j} c_{j},

за \sum_{i = 1}^{n} c_{i} y_{i} = 0, and 0 \leq c_{i} \leq \frac{1}{2 n λ} за свако i .

За свако $i \in {1, \dots, n}$ , итеративно, коефицијент $c_{i}$ је подешен у правцу $\partial f / \partial c_{i}$ . Затим, резултујући вектор коефицијената $({c_{1}}^{'}, \dots, {c_{n}}^{'})$ пројектује се на најближи вектор коефицијената који задовољава дате услове. (Обично се користе еуклидске удаљености. ) Процес се затим понавља све док се не добије скоро оптималан вектор коефицијената. Добијени алгоритам је изузетно брз у пракси, иако је мало гаранција перформанси доказано. ^[20]

Емпиријска минимизација ризика

Горе описана мотода потпорних векотра меке маргине је пример емпиријског алгоритма за смањење ризика (ЕРМ) за губитак зглоба . Гледано на овај начин, метода потпорних векотра припадају природној класи алгоритама за статистичко закључивање, а многе од његових јединствених карактеристика су последица понашања губитка зглоба. Ова перспектива може пружити даљи увид у то како и зашто МПВ функционишу и омогућити нам да боље анализирамо њихова статистичка својства.

Минимизација ризика

У надгледаном учењу, даје се тренинг скуп примера $X_{1} \dots X_{n}$ са лабелама $y_{1} \dots y_{n}$ , и желимо да предвидимо $y_{n + 1}$ за дато $X_{n + 1}$ . Да би се то урадило, формира се хипотеза, $f$ , тако да је $f (X_{n + 1})$ "добра" апроксимација за $y_{n + 1}$ . "Добра" апроксимација се обично дефинише уз помоћ функције губитка, $ℓ (y, z)$ , што карактерише колико је лоше $z$ као предвиђање за $y$ . Затим бисмо желели да изаберемо хипотезу која минимизира очекивани ризик :

ε (f) = 𝔼 [ℓ (y_{n + 1}, f (X_{n + 1}))] .

У већини случајева не знамо заједничку расподелу $X_{n + 1}, y_{n + 1}$ директно. У овим случајевима, уобичајена стратегија је да се изабере хипотеза која минимизује емпиријски ризик:

\hat{ε} (f) = \frac{1}{n} \sum_{k = 1}^{n} ℓ (y_{k}, f (X_{k})) .

Под одређеним претпоставкама о редоследу случајних променљивих $X_{k}, y_{k}$ (на пример, да су генерисани коначним Марковљевим процесом), ако је скуп хипотеза које се разматрају довољно мали, минимизатор емпиријског ризика ће се блиско приближити минимизатору очекиваног ризика како $n$ постаје велико. Овај приступ се назива емпиријска минимизација ризика или ЕРМ.

Регуларизација и стабилност

Да би проблем минимизације имао добро дефинисано решење, морамо да поставимо нека ограничења на скуп $ℋ$ хипотеза које се разматрају. Ако је $ℋ$ нормирани простор (као што је случај са МПВ), посебно ефикасна техника је разматрање само тих хипотеза $f$ за које $‖ f ‖_{ℋ} < k$ . Ово је једнако изрицању казне регуларизације $ℛ (f) = λ_{k} ‖ f ‖_{ℋ}$ , и решавање новог проблема оптимизације

\hat{f} = a r g \min_{f \in ℋ} \hat{ε} (f) + ℛ (f) .

Овај приступ се назива Тихоновска регуларизација .

$ℛ (f)$ може бити нека мера сложености хипотезе $f$ , тако да предност добијају једноставније хипотезе.

МПВ и губитак зглоба

Подсетимо се да је МПВ класификатор (меке маргине) $\hat{𝐰}, b : 𝐱 \mapsto sgn ({\hat{𝐰}}^{T} 𝐱 - b)$ изабран да минимизује следећи израз:

[\frac{1}{n} \sum_{i = 1}^{n} \max (0, 1 - y_{i} (𝐰^{T} 𝐱 - b))] + λ ‖ 𝐰 ‖^{2} .

Видимо да је техника МПВ еквивалентна емпиријској минимизацији ризика са Тихоновом регуларизацијом, где је у овом случају функција губитка губитак зглоба.

ℓ (y, z) = \max (0, 1 - y z) .

Из ове перспективе, МПВ је уско повезана са другим основним класификационим алгоритмима као што су регуларизовани најмањи квадрати и логистичка регресија . Разлика између ова три алгоритма лежи у избору функције губитка: регуларизовани најмањи квадрати представљају емпиријску минимизацију ризика са квадратним губитком, $ℓ_{s q} (y, z) = (y - z)^{2}$ ; логистичка регресија користи лог-губитак,

ℓ_{\log} (y, z) = \ln (1 + e^{- y z}) .

Циљне функције

Разлика између губитка зглоба и ових других функција губитка најбоље се може изразити у смислу циљних функција – функција која минимизира очекивани ризик за дати пар случајних прмонељивих $X, y$ .

Конкретно, нека $y_{x}$ означава $y$ условљено догађајем који даје $X = x$ . У поставци класификације имамо:

y_{x} = {\begin{matrix} 1 & са вероватноћом p_{x} \\ - 1 & са вероватноћом 1 - p_{x} \end{matrix}

Дакле, оптимални класификатор је:

f^{*} (x) = {\begin{matrix} 1 & ако је p_{x} \geq 1 / 2 \\ - 1 & иначе \end{matrix}

За квадратни губитак, циљна функција је функција условног очекивања, $f_{s q} (x) = 𝔼 [y_{x}]$ ; За логистички губитак, то је logit функција, $f_{\log} (x) = \ln (p_{x} / (1 - p_{x}))$ . Док обе ове циљне функције дају исправан класификатор, као $sgn (f_{s q}) = sgn (f_{\log}) = f^{*}$ , оне нам дају више информација него што нам је потребно. У ствари, оне нам дају довољно информација да у потпуности опишемо расподелу по $y_{x}$ .

С друге стране, може се проверити да ли је циљна функција за губитак зглоба тачна $f^{*}$ . Дакле, у довољно богатом простору хипотеза — или еквивалентно, за одговарајуће одабрано језгро — МПВ класификатор ће конвергирати најједноставнијој функцији (у смислу $ℛ$ ) који исправно класификује податке. Ово проширује геометријску интерпретацију МПВ-а – за линеарну класификацију, емпиријски ризик је минимизиран било којом функцијом чије маргине леже између вектора подршке, а најједноставнији од њих је класификатор максималне маргине. ^[21]

Својства

МПВ припадају породици генерализованих линеарних класификатора и могу се тумачити као проширење перцептрона . Они се такође могу сматрати посебним случајем Тихоновске регуларизације . Посебно својство је да они истовремено минимизирају грешку емпиријске класификације и максимизирају геометријску маргину ; стога су познати и као класификатори максималне маргине.

Поређење МПВ-а са другим класификаторима су направили Меиер, Леисцх и Хорник. ^[22]

Избор параметара

Ефикасност МПВ-а зависи од избора језгра, параметара језгра и параметра меке маргине $λ$ . Уобичајени избор је Гаусово језгро, које има један параметар $γ$ . Најбоља комбинација од $λ$ и $γ$ се често бира претрагом мреже са експоненцијално растућим секвенцама од $λ$ и $γ$ , на пример, $λ \in {2^{- 5}, 2^{- 3}, \dots, 2^{13}, 2^{15}}$ ; $γ \in {2^{- 15}, 2^{- 13}, \dots, 2^{1}, 2^{3}}$ . Обично се свака комбинација избора параметара проверава коришћењем унакрсне валидације и бирају се параметри са најбољом тачношћу унакрсне провере. Алтернативно, недавни рад у Бајесовој оптимизацији се може користити за одабир $λ$ и $γ$ , што често захтева процену много мањег броја комбинација параметара од претраживања мреже. Коначни модел, који се користи за тестирање и класификацију нових података, се затим обучава на целом скупу за обуку користећи изабране параметре.

Проблеми

Потенцијални недостаци МПВ-а укључују следеће аспекте:

Захтева потпуно означавање улазних података
Некалибриране вероватноће чланства у класама — МПВ произилази из Вапникове теорије која избегава процену вероватноће на коначним подацима
МПВ је директно применљива само за двокласне задатке. Стога се морају применити алгоритми који своде задатак више класа на неколико бинарних проблема.
Параметре решеног модела је тешко интерпретирати.

Надоградње

Метода груписања потпорних вектора

Метода груписања потпорних вектора је сличана метода која се такође заснива на функцијама језгра, али је прикладаан за учење без надзора. Сматра се фундаменталном методом у науци о подацима .Шаблон:Чињеница

Метода потпорних векотра са више класа

Мултикласна МПВ има за циљ да додели ознаке инстанцама коришћењем методе потпорних векотра, где су ознаке извучене из коначног скупа неколико елемената.

Доминантан приступ за то је свођење једног проблема више класа на вишеструке проблеме бинарне класификације. ^[23] Уобичајене методе за такву оптимизацију укључују: ^[23] ^[24]

Прављење бинарних класификатора који праве разлику између једне од ознака и остатка ( један против свих ) или између сваког пара класа ( један против једаног ). Класификација нових инстанци за случај један наспрам свих врши се стратегијом победник узима све, у којој класификатор са највећом излазном функцијом додељује класу (важно је да излазне функције буду калибрисане да би произвеле упоредиве резултате ). За приступ један против један, класификација се врши стратегијом гласања са максималним бројем победа, у којој сваки класификатор додељује инстанцу једној од две класе, затим се глас за додељену класу повећава за један глас, и на крају класа са највише гласова одређује класификацију инстанце.
Усмерени ациклични граф МПВ (DAGSVM) ^[25]
Исправљање излазних кодова ^[26]

Крамер и Сингер су предложили вишекласну МПВ који баца проблем вишекласне класификације у један проблем оптимизације, уместо да га декомпонује на вишеструке проблеме бинарне класификације. ^[27] Види такође Ли, Лин и Ваба ^[28] ^[29] и Ван ден Бург и Гроенен. ^[30]

Трансдуктивна метода потпорних векотра

Трансдуктивна метода потпорних векотра прошире МПВ тако што могу да третирају и делимично обележене податке у полунадгледаном учењу пратећи принципе трансдукције . Овде, поред комплета за обуку $𝒟$ , ученику се такође даје сет

𝒟^{⋆} = {{\vec{x}}_{i}^{⋆} ∣ {\vec{x}}_{i}^{⋆} \in ℝ^{p}}_{i = 1}^{k}

тест примера које треба класификовати. Формално, трансдуктивна метода потпорних вектора је дефинисана следећим примарним проблемом оптимизације: ^[31]

Минимизовати (у $\vec{w}, b, \vec{y^{⋆}}$ )

\frac{1}{2} ‖ \vec{w} ‖^{2}

подлеже (за било које $i = 1, \dots, n$ и било које $j = 1, \dots, k$ )

y_{i} (\vec{w} \cdot \vec{x_{i}} - b) \geq 1,

y_{j}^{⋆} (\vec{w} \cdot \vec{x_{j}^{⋆}} - b) \geq 1,

и

y_{j}^{⋆} \in {- 1, 1} .

Трансдуктивне методе потпорних вектора је представио Владимир Н. Вапник 1998. године.

Структурирана МПВ

МПВ су генерализоване на структуриране МПВ, где је простор за ознаке структуриран и вероватно бесконачне величине.

Регресија

Верзију МПВ за регресију предложили су 1996. Владимир Н. Вапник, Харис Дракер, Кристофер Џеј Си Берџес, Линда Кауфман и Александар Ј. Смола. ^[32] Овај метод се назива регресија вектора потпора. Модел произведен класификацијом вектора подршке (као што је горе описано) зависи само од подскупа података о обуци, јер функција трошкова за изградњу модела не брине о тачкама обуке које се налазе изван маргине. Аналогно томе, модел који производи СВР(support-vector regression) зависи само од подскупа података о обуци, јер функција грешке за изградњу модела игнорише све податке о обуци који су блиски предвиђању модела. Другу МПВ верзију познату као метода потпорних вектора најмањих квадрата (LS-SVM) су предложили Суикенс и Вандевалле. ^[33]

Обука оригиналног СВР-а значи решавање ^[34]

минимизирати

\frac{1}{2} ‖ w ‖^{2}

за

| y_{i} - ⟨ w, x_{i} ⟩ - b | \leq ε

где је $x_{i}$ узорак за обуку са циљном вредношћу $y_{i}$ . Унутрашњи производ плус пресретање $⟨ w, x_{i} ⟩ + b$ је предвиђање за тај узорак, и $ε$ је слободан параметар који служи као праг: сва предвиђања морају бити унутар $ε$ распона истинитих предвиђања. "Лабаве" променљиве се обично додају у горе наведеном да би се омогућиле грешке и омогућила апроксимација у случају да је горњи проблем неизводљив.

Бајесова МПВ

Полсон и Скот су 2011. показали да МПВ прихвата Бајесову интерпретацију кроз технику повећања података . ^[35] У овом приступу МПВ се посматра као графички модел (где су параметри повезани преко расподеле вероватноће). Овај детаљни преглед омогућава примену Бајесове технике на МПВ, као што је флексибилана функција моделирања, аутоматско хиперпараметерско подешавање, и предвидљиву несигурну квантификацију . Шаблон:Cite journal Венцел развио скалабилну верзију Бајесовое МПВ, омогућавајући примену Бајесовое МПВ на велике податке . ^[36] Флориан Вензел је развио две различите верзије, шему варијационог закључивања (VI) за Бајесов модел потпорних вектора са језгром (SVM) и стохастичку верзију (SVI) за линеарни Бајесов МПВ. ^[37]

Имплементација

Параметри хиперравни максималне маргине су изведени решавањем оптимизације. Постоји неколико специјализованих алгоритама за брзо решавање проблема квадратног програмирања (КП) који произилази из МПВ, углавном се ослањајући на хеуристику за разбијање проблема на мање делове којима је лакше управљати.

Други приступ је коришћење методе унутрашње тачке која користи итерације сличне Њутновој методи да би се пронашло решење Каруш–Кун–Такерових услова примарног и дуалног проблема. ^[38] Уместо решавања низа рашчлањених проблема, овај приступ директно решава проблем у целини. Да би се избегло решавање линеарног система који укључује велику матрицу језгра, апроксимација ниског ранга матрици се често користи у трику језгра.

Уобичајени метод је и Платоов алгоритам секвенцијалне минималне оптимизације, који разлаже проблем на 2-димензионалне подпроблеме који се решавају аналитички, елиминишући потребу за нумеричким алгоритмом оптимизације и складиштењем матрице. Овај алгоритам је концептуално једноставан, лак за имплементацију, генерално бржи и има боља својства скалирања за тешке МПВ проблеме.

Посебан случај линераних МПВ може се ефикасније решити истом врстом алгоритама који се користе за оптимизацију његовог блиског рођака, логистичке регресије ; ова класа алгоритама укључује суб-градијенти спуст (нпр. PEGASOS) и координатни спуст (нпр. LIBLINEAR^[39] ). LIBLINEAR има импресивна времена обуке. Свака итерација конвергенције траје линеарно у времену потребном за читање тренинг података, а итерације такође имају својство Q-линеарне конвергенције, што алгоритам чини изузетно брзим.

Општа МПВ језгра се такође могу ефикасније решити коришћењем суб-градијентног спуста (нпр P-packSVM ), посебно када је паралелизација дозвољена.

МПВ језгра су доступна у многим комплетима алата за машинско учење, укључујући <a href="-{R|https://en.wikipedia.org/wiki/LIBSVM}-" rel="mw:ExtLink" title="LIBSVM" class="cx-link" data-linkid="815">LIBSVM</a>, MATLAB, SAS, СВМлигхт, kernlab, <a href="-{R|https://en.wikipedia.org/wiki/Scikit-learn}-" rel="mw:ExtLink" title="Scikit-learn" class="cx-link" data-linkid="817">scikit-learn</a>-, <a href="-{R|https://en.wikipedia.org/wiki/Shogun_(toolbox)}-" rel="mw:ExtLink" title="Shogun (toolbox)" class="cx-link" data-linkid="818">Shogun</a>, <a href="-{R|https://en.wikipedia.org/wiki/Weka_(machine_learning)}-" rel="mw:ExtLink" title="Weka (machine learning)" class="cx-link" data-linkid="819">Weka</a>, Shark, JKernelMachines, OpenCV и друге.

Препоручује се претходна обрада података (стандардизација) да би се побољшала тачност класификације. ^[40] Постоји неколико метода стандардизације, као што су мин-макс, нормализација децималним скалирањем, Z-score. ^[41] Одузимање средње вредности и дељење варијансом сваке карактеристике се обично користи за М. ^[42]

Референце

Шаблон:Reflist

Додатна литература

Спољашње везе

libsvm, <a href="-{R|https://en.wikipedia.org/wiki/LIBSVM}-" rel="mw:ExtLink" title="LIBSVM" class="cx-link" data-linkid="924">LIBSVM</a> је популарна библиотека за ученике MПВ-а
liblinear је библиотека за велику линеарну класификацију укључујући неке МПВ
[1]SVM light је колекција софтверских алата за учење и класификацију користећи МПВ
[2] Шаблон:Wayback SVMJS live demo је Графички кориснички интерфејс демо за JavaScript имплементацију МПВ-а

Шаблон:Нормативна контрола

↑ Шаблон:Cite journal
↑ Шаблон:Cite web
↑ Шаблон:Cite book
↑ ^4,0 ^4,1 ^4,2 Шаблон:Cite book
↑ Шаблон:Cite book
↑ Шаблон:Cite book
↑ Pradhan, Sameer S., et al. "Shallow semantic parsing using support vector machines." Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics: HLT-NAACL 2004. 2004.
↑ Vapnik, Vladimir N.: Invited Speaker. IPMU Information Processing and Management 2014).
↑ Barghout, Lauren. "Spatial-Taxon Information Granules as Used in Iterative Fuzzy-Decision-Making for Image Segmentation". Granular Computing and Decision-Making. Springer International Publishing, 2015. 285–318.
↑ Шаблон:Cite arXiv
↑ Шаблон:Cite journal
↑ Шаблон:Cite book
↑ Gaonkar, Bilwaj; Davatzikos, Christos; Шаблон:Cite journal.
↑ Cuingnet, Rémi; Rosso, Charlotte; Chupin, Marie; Lehéricy, Stéphane; Dormont, Didier; Benali, Habib; Samson, Yves; and Colliot, Olivier; Шаблон:Cite journal Шаблон:Wayback, .
↑ Statnikov, Alexander; Hardin, Douglas; & Aliferis, Constantin; (2006); "Using SVM weight-based methods to identify causally relevant and non-causally relevant variables", Sign, 1, 4.
↑ Шаблон:Cite journal
↑ Шаблон:Cite web
↑ Шаблон:Cite journal
↑ Шаблон:Cite journal
↑ Шаблон:Cite book
↑ Шаблон:Cite journal
↑ Шаблон:Cite journal
↑ ^23,0 ^23,1 Шаблон:Cite book
↑ Шаблон:Cite journal
↑ Шаблон:Cite book
↑ Шаблон:Cite journal
↑ Шаблон:Cite journal
↑ Шаблон:Cite journal
↑ Шаблон:Cite journal
↑ Шаблон:Cite journal
↑ Joachims, Thorsten; "Transductive Inference for Text Classification using Support Vector Machines", Proceedings of the 1999 International Conference on Machine Learning (ICML 1999), pp. 200–209.
↑ Drucker, Harris; Burges, Christ. C.; Kaufman, Linda; Smola, Alexander J.; and Vapnik, Vladimir N. (1997); "Support Vector Regression Machines", in Advances in Neural Information Processing Systems 9, NIPS 1996, 155–161, MIT Press.
↑ Suykens, Johan A. K.; Vandewalle, Joos P. L.; "Least squares support vector machine classifiers", Neural Processing Letters, vol. 9, no. 3, Jun. 1999, pp. 293–300.
↑ Шаблон:Cite journal
↑ Шаблон:Cite journal
↑ Шаблон:Cite book
↑ Florian Wenzel; Matthäus Deutsch; Théo Galy-Fajou; Marius Kloft; ”Scalable Approximate Inference for the Bayesian Nonlinear Support Vector Machine” Шаблон:Wayback
↑ Шаблон:Cite journal
↑ Шаблон:Cite journal
↑ Шаблон:Cite journal
↑ Шаблон:Cite journal
↑ Шаблон:Cite journal

[HavaSiegelmann-1] Шаблон:Cite journal

[2] Шаблон:Cite web

[3] Шаблон:Cite book

[ReferenceA-4] 4,0 ^4,1 ^4,2 Шаблон:Cite book

[5] Шаблон:Cite book

[6] Шаблон:Cite book

[7] Pradhan, Sameer S., et al. "Shallow semantic parsing using support vector machines." Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics: HLT-NAACL 2004. 2004.

[8] Vapnik, Vladimir N.: Invited Speaker. IPMU Information Processing and Management 2014).

[9] Barghout, Lauren. "Spatial-Taxon Information Granules as Used in Iterative Fuzzy-Decision-Making for Image Segmentation". Granular Computing and Decision-Making. Springer International Publishing, 2015. 285–318.

[10] Шаблон:Cite arXiv

[11] Шаблон:Cite journal

[12] Шаблон:Cite book

[13] Gaonkar, Bilwaj; Davatzikos, Christos; Шаблон:Cite journal.

[14] Cuingnet, Rémi; Rosso, Charlotte; Chupin, Marie; Lehéricy, Stéphane; Dormont, Didier; Benali, Habib; Samson, Yves; and Colliot, Olivier; Шаблон:Cite journal Шаблон:Wayback, .

[15] Statnikov, Alexander; Hardin, Douglas; & Aliferis, Constantin; (2006); "Using SVM weight-based methods to identify causally relevant and non-causally relevant variables", Sign, 1, 4.

[CorinnaCortes-16] Шаблон:Cite journal

[17] Шаблон:Cite web

[18] Шаблон:Cite journal

[19] Шаблон:Cite journal

[20] Шаблон:Cite book

[21] Шаблон:Cite journal

[22] Шаблон:Cite journal

[duan2005-23] 23,0 ^23,1 Шаблон:Cite book

[hsu2002-24] Шаблон:Cite journal

[25] Шаблон:Cite book

[26] Шаблон:Cite journal

[27] Шаблон:Cite journal

[28] Шаблон:Cite journal

[29] Шаблон:Cite journal

[30] Шаблон:Cite journal

[31] Joachims, Thorsten; "Transductive Inference for Text Classification using Support Vector Machines", Proceedings of the 1999 International Conference on Machine Learning (ICML 1999), pp. 200–209.

[32] Drucker, Harris; Burges, Christ. C.; Kaufman, Linda; Smola, Alexander J.; and Vapnik, Vladimir N. (1997); "Support Vector Regression Machines", in Advances in Neural Information Processing Systems 9, NIPS 1996, 155–161, MIT Press.

[33] Suykens, Johan A. K.; Vandewalle, Joos P. L.; "Least squares support vector machine classifiers", Neural Processing Letters, vol. 9, no. 3, Jun. 1999, pp. 293–300.

[34] Шаблон:Cite journal

[35] Шаблон:Cite journal

[36] Шаблон:Cite book

[37] Florian Wenzel; Matthäus Deutsch; Théo Galy-Fajou; Marius Kloft; ”Scalable Approximate Inference for the Bayesian Nonlinear Support Vector Machine” Шаблон:Wayback

[38] Шаблон:Cite journal

[39] Шаблон:Cite journal

[40] Шаблон:Cite journal

[41] Шаблон:Cite journal

[42] Шаблон:Cite journal

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

Метода потпорних вектора

Садржај

Мотивација

Дефиниција

Апликације

Историја

Линеарна МПВ

Тврда маргина

Мека маргина

Нелинеарна класификација

Израчунавање класификатора МПВ

Примал

Дуал

Трик језгра

Савремене методе

Суб-градијенти спуст

Координатни спуст

Емпиријска минимизација ризика

Минимизација ризика

Регуларизација и стабилност

МПВ и губитак зглоба

Циљне функције

Својства

Избор параметара

Проблеми

Надоградње

Метода груписања потпорних вектора

Метода потпорних векотра са више класа

Трансдуктивна метода потпорних векотра

Структурирана МПВ

Регресија

Бајесова МПВ

Имплементација

Референце

Додатна литература

Спољашње везе

Мени за навигацију

Метода потпорних вектора

Мотивација

Дефиниција

Апликације

Историја

Линеарна МПВ

Тврда маргина

Мека маргина

Нелинеарна класификација

Израчунавање класификатора МПВ

Примал

Дуал

Трик језгра

Савремене методе

Суб-градијенти спуст

Координатни спуст

Емпиријска минимизација ризика

Минимизација ризика

Регуларизација и стабилност

МПВ и губитак зглоба

Циљне функције

Својства

Избор параметара

Проблеми

Надоградње

Метода груписања потпорних вектора

Метода потпорних векотра са више класа

Трансдуктивна метода потпорних векотра

Структурирана МПВ

Регресија

Бајесова МПВ

Имплементација

Референце

Додатна литература

Спољашње везе

Мени за навигацију

Претрага