Жасырын қабаттарға кездейсоқ шуды қосу заңдылық деп санала ма? Түсіру мен топтаманы қалыпқа келтірудің қандай айырмашылығы бар?


жауап 1:

Ия, жасырын қабаттарға кездейсоқ шу қосу - бұл түсіру сияқты жүйелеу. Мұндағы түйсік - егер әр ауысымда нейрондық жауап қатты болса, жаттығулар шуды шығаратыннан үлкен қашықтықты жекелеген санаттарға теңестіру керек. Сондықтан, шуды жіктеу болмаған кезде классификация тұрақты болуы керек. Бұл Max Margin жіктеуіші жұмысына өте ұқсас және біз Max Margin әдістері қаншалықты сәтті болғанын білеміз (мысалы, қолдау векторлық машиналары). Дегенмен, сіз шуылдың сигналға әсер етпейтініне көз жеткізуіңіз керек.

Қалыптастыру әдісі деп саналады, өйткені ол орта есеппен модель жүргізеді. Яғни, жаттығу кезінде модель шынымен салмақтары бекітілген, бірақ модельдегі нейрондардың біреуі жетіспейтін нейрондық желі модельдерінің класы бойынша белгілі бір уақытта ықтималдылықты бөлу болып табылады. Әрбір нейрондық желінің жалпы ықтималдығы белгілі бір нейронның болуы немесе жоқ болуының жеке ықтималдығымен анықталады. Бұл жүйелеу, себебі шығындар функциясын тегістейтін жекелеген даналардың бұрмалануынан орта есеппен шығарылады.

Жасырын қабатқа кездейсоқ шуды қосу бірдей жұмыс істейді, бірақ ықтималдығы әр түрлі болады. Бекітілген салмақтардың орнына сізде тұрақты топология бар, ал ықтималдылықты бөлу кездейсоқ салмақты «шын» салмақтарға, яғни қатты дискіде сақталатын салмаққа негізделген Гауссиан үлестірімі бойынша таңдайды. Бұл сондай-ақ орта деңгейдегі модель болып табылады және шу (дисперсия) сигналды асырып алмауы керек деген шектеумен реттелетін әсерге ие болуы керек. Мысалы, егер сіз BatchNorm-ті бірінші рет қолдансаңыз, онда сізде әдеттегі стандартты шығыс профилі бар (бір дисперсиямен нөлге центрленген бірліктер), содан кейін, мысалы, 0,1-ге тең болатын шуды қолдануға болады. Сіз жұмыс істейтінін көру үшін дисперсиямен ойнай аласыз.

ӨҢДЕУ: Бұл сұрақта BatchNorm туралы айтылғандықтан, мен BatchNorm-ді жүйелеу үшін қолданбайтындығын көрсеткім келді. Яғни, BatchNorm шығындарды тегістемейді. Оның орнына артқы таралудың тиімділігін жақсарту үшін BatchNorm қосылады. Негізінде, ол артқа таралатын градиентті құтқару және қайта орталықтандыру арқылы тым үлкен немесе тым аз болуына жол бермейді. Техника ретінде ол шығындар бетінің қисықтығын модельдеуге тырысатын оңтайландырудың екінші ретті әдістерімен терең байланыстырады. Жоғарыда айтылғандай, BatchNorm нейрондық белсенділікке кездейсоқ шуды қосқан кезде салыстырмалы масштабтаудың дұрыс болуын қамтамасыз ету үшін де қолданыла алады.


жауап 2:

Мен оны жүйелеуден гөрі оңтайландыру әдісі деп санаймын.

Әсер SGD-дегі стохастикалық әсерге сәйкес келуі керек.

SGD және оның шабыттандыратын Монте-Карло әдістері жергілікті ең төменгі минимумға түсіп қалудан аулақ болады, кейде кездейсоқ қадам жасамай, ең биік бағытта жүрудің орнына. немесе олардың әртүрлі бейнелерінде балама нәрсе жасау, мысалы. B. Кездейсоқ қадамның орнына әр қадамға кездейсоқ компонент қосыңыз.

Салмаққа әлсіз кездейсоқ шуды қосу дәл солай істейді. [Нұсқау: градиенттің түсуі әр итерациядағы салмаққа бір нәрсе қосады!]


жауап 3:

Өңдеу:

Гауссиан таратқан кездейсоқ шуды әр қабаттың кіріс деректеріне қосу арқылы сіздің деректеріңіз деректердегі кішігірім өзгерістерге берік бола алады, сондықтан сіздің желіңіз шуды сигналдан жақсы ажырата алады. Зиесхан Зия айтқандай, бұл негізінен лайықты стохастикалық градиент болады. Мен бұл реттеуді әлі қарастырмас едім. Бұл модель шуды сигналдан ажыратудың заңдылықтарын үйрену үшін қолданатын техниканың көп түрі.

Кездейсоқ түсіру әр өту арқылы жасырын деңгейде түйіндердің белгілі бір үлесін ажыратады. Бұл желіні жақсартады, өйткені әр түрлі тәсілдермен бірдей үлгіні тануды үйренуі керек, бұл модельдің жақсаруына әкеледі.

Топтаманы қалыпқа келтіру кезінде кірістерді бір деңгейге қойып, олардың 0 мен 1 аралығында қалыпқа келтірілгеніне көз жеткізіңіз. Бұл желіні жақсырақ білуге ​​көмектеседі, өйткені градиент жақсы және тегіс қалады. Осылайша сіз миниманың айналасында секіруден аулақ боласыз, өйткені сіздің көлбеуіңіз өте үлкен.