Ці лічыцца даданне выпадковага шуму ў схаваныя пласты рэгулярызацыяй? У чым розніца паміж даданнем і даданнем адсеву і нармалізацыяй партыі?


адказ 1:

Так, даданне выпадковых шумоў у схаваныя пласты - гэта рэгулярызацыя, як і выпадзенне. Ключавая інтуіцыя тут заключаецца ў тым, што калі нейронная рэакцыя будзе гучнай пры кожнай змене, трэніроўцы трэба будзе падганяць вага пад асобныя катэгорыі з адлегласцю, большай за шум. Такім чынам, класіфікацыя павінна быць больш устойлівай падчас класіфікацыі шуму. Гэта вельмі падобна на тое, як працуе класіфікацыя Max Margin, і мы ўсе ведаем, наколькі паспяховымі былі метады Max Margin (напрыклад, Support Vector Machines). Аднак вы павінны пераканацца, што шум не перапаўняе сігнал.

Выпадзенне лічыцца метадам регулярызацыі, паколькі ён праводзіць мадэльнае пасярэдніцтва. Гэта значыць, падчас трэніровак мадэль на самай справе з'яўляецца размеркаваннем верагоднасці ў нейкі момант у класе мадэляў нейроннай сеткі, у якіх вагі фіксаваны, але адзін з нейронаў у мадэлі можа адсутнічаць. Агульная верагоднасць развіцця кожнай нейроннай сеткі вызначаецца індывідуальнай верагоднасцю таго, што той ці іншы нейрон прысутнічае або адсутнічае. Гэта рэгулярызацыя, таму што яна ўсярэдненая па скажэнні асобных асобнікаў, што згладжвае функцыю выдаткаў.

Даданне выпадковага шуму ў схаваны пласт працуе аналагічна, але з розным размеркаваннем верагоднасці. Замест таго, каб мець фіксаваныя вагі, вы маеце фіксаваную тапалогію, і размеркаванне верагоднасці выпадковым чынам выбірае вагі ў адпаведнасці з гаўсаўскім размеркаваннем, якое сканцэнтравана на "сапраўдных" вагах, то ёсць вагах, якія вы захоўваеце на цвёрдым дыску. Гэта таксама мадэль сярэдняга ўзроўню і павінна аказваць рэгулюючае ўплыў, з тым абмежаваннем, што шум (дысперсія) не павінен перакрываць сігнал. Напрыклад, калі вы выкарыстоўваеце BatchNorm упершыню, у вас ёсць прыблізна звычайны стандартны выходны профіль (адзінкі, арыентаваныя ў нуль з адной дысперсіяй), і вы можаце прыкладваць шум з дысперсіяй 0,1, напрыклад. Вы можаце гуляць з дысперсіяй, каб убачыць, што працуе.

EDIT: Паколькі BatchNorm згадваўся ў пытанні, я хацеў бы адзначыць, што BatchNorm на самай справе не выкарыстоўваецца для рэгулярызацыі. Гэта значыць, BatchNorm не згладжвае кошт. Замест гэтага, BatchNorm дадаецца для павышэння прадукцыйнасці зваротнага распаўсюджвання. Па сутнасці, гэта перашкаджае распаўсюджванню зваротнага градыенту стаць занадта вялікім ці занадта малым шляхам змянення маштабу і паўторнага цэнтравання. У якасці тэхнікі ён мае больш глыбокія сувязі з метадамі аптымізацыі другога парадку, якія спрабуюць мадэляваць крывізну паверхні выдаткаў. Як ужо згадвалася вышэй, BatchNorm таксама можа быць выкарыстаны для забеспячэння правільнага адноснага маштабавання, калі вы дадаеце выпадковы шум да нейроннай дзейнасці.


адказ 2:

Я б палічыў гэта аптымізацыйным фокусам, а не рэгулярызацыяй.

Эфект павінен адпавядаць эфекту стохастычнасці ў SGD.

Метады SGD і яго натхненне Монтэ-Карла пазбягаюць затрымацца ў дрэнных мясцовых мінімумах, робячы выпадковы крок час ад часу, а не строга выконваць кірунак самага стромкага спуску. альбо зрабіць нешта раўназначнае ў розных сваіх увасабленнях, напрыклад B. Дадайце выпадковы кампанент на кожны крок, замест таго, каб рэгулярна рабіць выпадковы крок.

Даданне слабых выпадковых шумоў да вагаў робіць сапраўды тое самае. [Заўвага: градыентны спуск дадае нешта да вагаў у кожнай ітэрацыі!]


адказ 3:

Рэдагаваць:

Дадаўшы выпадковы шум, размеркаваны Гаўсам да ўваходных дадзеных кожнага ўзроўню, ваша мадэль можа стаць больш трывалай да невялікіх змяненняў у дадзеных, таму ваша сетка можа лепш адрозніць шум ад сігналу. Як сказаў Зеешан Зія, гэта па сутнасці будзе прыстойным стохастычным градыентам. Я б усё яшчэ не разглядаў гэта рэгулярызацыя. Гэта больш метад, які ваша мадэль можа выкарыстоўваць, каб даведацца, як аддзяляць шум ад сігналу.

Выпадзенне выпадковым чынам дэактывуе пэўную долю вузлоў у схаваным узроўні з кожным праходам. Гэта паляпшае сетку, таму што яна павінна навучыцца распазнаваць аднолькавыя ўзоры па-рознаму, што прыводзіць да лепшай мадэлі.

Пры нармалізацыі партыі вазьміце ўваходныя дадзеныя на адным узроўні і пераканайцеся, што ўсе яны нармалізуюцца ад 0 да 1. Гэта дапамагае сеткі вучыцца лепш, таму што градыент застаецца больш прыстойным і роўным. Такім чынам вы пазбегнеце скачкоў вакол мінімумаў, таму што ваш нахіл занадта вялікі.