Калі вы павінны выкарыстоўваць навучанне планавання хуткасці па Адаптыўная алгарытме аптымізацыі хуткасці навучання?

Для таго, каб сыходзіцца да аптымальнага належным чынам, былі вынайдзеныя розныя алгарытмы, якія выкарыстоўваюць адаптыўнай хуткасць навучання, такія як AdaGrad, Адам і RMSProp. З іншага боку, ёсць хуткасць планавальнік навучання, такі як планаванне магутнасці і экспанентнае планаванне.

Тым не менш, я не разумею, у якіх сітуацыях вы павінны выкарыстоўваць адзін над іншым. Я адчуваю, што з выкарыстаннем адаптыўнага алгарытму аптымізацыі хуткасці навучання, такіх як Адам прасцей і лягчэй рэалізаваць, чым з дапамогай навучання планавальніка хуткасці.

Так як вы можаце выкарыстоўваць яго на часткі належным чынам, у залежнасці ад таго, якія праблемы?

4
Выкарыстоўвайце адаптыўны аптымізатар, калі вы можаце дазволіць сабе не выціскаць апошнюю кроплю прадукцыйнасці, інакш графік становіцца яшчэ адным гиперпараметром для аптымізацыі. Адаптыўнасць таксама карысна, калі вашы дадзеныя нестацыянарныя і вы павінны перакваліфікавацца мадэль (напрыклад, у начны рабоце).
дададзена аўтар David, крыніца

1 адказы

Я не ўпэўнены, аб іншых галінах, але ў апошні час у вобласці глыбокага навучання нейронавай сеткі ёсць гэтае паданне Arxiv, Гранічна значэнне адаптыўных Градыентнае метадаў у Machine Learning .

<�Р> Адаптыўныя метады аптымізацыі, якія выконваюць лакальную аптымізацыю з метрыкай, пабудаванай з гісторыі ітэрацыі, становяцца ўсё больш папулярнымі для падрыхтоўкі глыбокіх нейронавых сетак. Прыклады ўключаюць AdaGrad, RMSProp і Адам. Пакажу, што для простых overparameterized праблем, адаптыўныя метады часта знаходзяць зусім розныя рашэнні, чым Градыентнае спуск (GD) або выпадковыя спуск градыенту (SGD). Пабудуем ілюстрацыйную двойкавую задачу класіфікацыі, дзе дадзеныя лінейна разделимы, GD і SGD дасягнення нулявы памылкі тэставання і AdaGrad, Адам і RMSProp дасягаюць тэставых памылак калі заўгодна блізка да палове. Мы дадаткова вывучыць эмпірычную абагульняючую здольнасць адаптыўных метадаў на некалькі укаранёных глыбокіх мадэлях навучання. <�Моцны> Мы бачым, што рашэнні, знойдзеныя адаптыўных метадаў абагульняць горш (часта значна горш), чым Сінга, нават калі гэтыя рашэнні маюць больш высокую прадукцыйнасць навучання. Гэтыя вынікі сведчаць пра тое, што практыкуючыя павінны перагледзець выкарыстанне адаптыўных метадаў для навучання нейронавых сетак.
2
дададзена
Хоць гэта інфарматыўны, гэта не дае адказу на зыходны пытанне. Можа быць, дадаць яго ў якасці каментара.
дададзена аўтар Ryan Ahearn, крыніца
можа быць, я прапускаю нешта так, калі ласка, папраўце мяне. У артыкуле, здаецца, мяркуе, што адаптыўныя метады не могуць быць гэтак жа добра, як і сам Сінга. Там няма ніякай згадкі падыходаў, заснаваных на планаванні.
дададзена аўтар Ryan Ahearn, крыніца
@ShagunSodhani - Я адчуваю, што гэта, па меншай меры адказвае на зыходны пытанне часткова, гэта значыць ён можа быць лепш навучаць нейронных сетку, выкарыстоўваючы гэтыя падыходы, заснаваныя на планаванні навучання хуткасці замест адаптыўных алгарытмаў хуткасці Аптымізуе навучанне?
дададзена аўтар Hades, крыніца