Блытаніна ў алгарытме зваротнага распаўсюджвання

Я спрабаваў зразумець адваротнае распаўсюджванне на некаторы час цяпер. Я ўбачыў два варыянту гэтага.

    <Літый> У класе Эндру Нг вытворныя вагаў схаваных слаёў вылічаецца з выкарыстаннем сігналу памылкі, які распаўсюджваецца назад да ўтоенага вузлу.
  1. У класе Geoffrey Хинтон вытворныя вагаў схаваных слаёў вылічаецца з выкарыстаннем вытворных наступнага пласта, якія ўжо вылічаным і ад майго веды вылічэння, мае больш сэнсу.

Можа хто-небудзь растлумачыць, як працуе першы варыянт?

3

1 адказы

Першы варыянт з'яўляецца другі варыянт, ці, дакладней, ёсць толькі адзін тып зваротнага распаўсюджвання, і які працуе з градыентамі функцыі страт адносна параметраў сеткі.

Гэта не рэдкасць кропка ёсць пытанні, хоць, галоўнае пытанне, які я бачу, што прыводзіць да блытаніны, калі функцыя страт была хітра пабудавана так, што яна працуе з функцыяй актывацыі выхаднога пласта, а вытворная член колькасна $ \ Шляпа { ў} - у $, які выглядае гэтак жа, як з лінейнай памылкі непасрэдна. Людзі, якія вывучаюць код, які рэалізуе сетку, як гэта могуць лёгка прыйсці да высновы, што пачатковы градыент з'яўляецца фактычна пачатковай памылкай (і пакуль яны колькасна роўныя, яны розныя паняцці, і ў агульнай нейронавай сеткі, яны не павінны быць роўным)

Гэтая сітуацыя ўжываецца для наступных сеткавых архітэктур:

  • сярэднеквадратычнае памылка $ \ гидроразрыва {1} {2N} \ sum_ {я = 1} ^ N (\ Шляпа {ў} _i - y_i) ^ 2 $ і лінейны выхадны пласт - зьвярніце ўвагу на множнік $ \ гидроразрыва {1} {2} $ ёсць свядома спрасціць вытворную.

  • <Літый> <р> Двайковы крос-энтрапіі $ \ гидроразрыва {-1} {N} \ sum_ {= 1} ^ Ny_i \ тэкст {увайсці} (\ шлем {ў} -i) + (1-y_i) \ Тэкст {} увайсці (1- \ капялюшы {ў} _i) $ і сігмападобнай выхадны пласт. Вытворная страты акуратна гасіць вытворную ад сігма, пакінуўшы вас з градыентам на папярэдне пераўтварыць этап $ \ капелюшом {ў} -. Г $

    <Літый> <р> Шматканальны клас logloss з адной гарачай кадавання праўдзівых класаў $ \ гидроразрыва {-1} {N} \ sum_ {= 1} ^ N \ mathbf {ў} _i \ CDOT \ тэкст {} увайсці (\ капялюш {\ mathbf {ў}} _ я) $ і SoftMax выхаднога пласта. Зноў жа вытворная ад страты акуратна ўраўнаважвае, пакінуўшы вас з градыентам на папярэдне пераўтварыць этап $ \ капелюшом {ў} -. Y $ для сапраўднага класа

Такім чынам, калі вы сказалі, што адваротнае распаўсюджванне апрацоўвае «сігнал памылкі» або «памылка» ў зваротным кірунку праз сетку, проста ў думках дадаць «градыент» у пачатку фразы. Некаторыя людзі скажуць, што гэта свядома, якія абазначаюць, іншыя могуць быць сумленна зблытаць.

Тое ж самае ставіцца да глыбейшых слаям, хоць тады няма ніякага іншага крыніцы для блытаць «гэта памылка распаўсюджваецца», акрамя як скарачэнне для "гэта [градыент] памылкі распаўсюджваецца».

4
дададзена
@lakshaytaneja: Ёсць не больш акуратныя прыёмы камбінацый вытворных глыбей у сеткі, але да гэтага часу адваротнае распаўсюджванне ўсё аб градыентах, няма «варыянтаў», дзе гаворка ідзе пра значэннях памылак непасрэдна. Я растлумачыў, выхадны пласт тут, таму што ў маім вопыце з'яўляецца асноўнай прычынай для непаразуменняў. Можа растлумачыць больш, дзе ваша блытаніна (чаму <я> думаю Andrew Ng тлумачыць размеркавання значэнняў памылак - ён <б> не , але, магчыма, тлумачэнне хапае чагосьці, што дапамагло б Вам) даючы канкрэтную цытату?
дададзена аўтар Jeff Ferland, крыніца
ну я разумею, што гэта дакладна для вагаў паміж схаваным і выхадных пластом, але гэта той жа выпадак паміж двума ўтоенымі пластамі, як вытворнай ад памылкі ў гэтым вузле звычай быць у ^ - у
дададзена аўтар Justin Smith, крыніца
Я думаю, цяпер я ясна ў сваім відэа, як ён паказвае схематычна, падобная памылка, якая распаўсюджваецца назад, але да его дакладна толькі для вагаў паміж схаваным і выхадных пластом пасля гэтага рэкурсыўнай функцыі ён даў выкарыстоўвае дэрыватаў ад папярэдняга layer.Its толькі што, як ён патлумачыў гэта для першага пласта затрымаліся ў маёй галаве ў любым выпадку дзякуй за расчыстку маіх сумненняў :)
дададзена аўтар Justin Smith, крыніца