Вяртанне Attribution: Магчымыя сродкі для мультиколлинеарности

Скажам, у мяне ёсць наступныя налады рэгрэсіі, які я выкарыстоўваю для партфоліо зваротнай атрыбуцыі:

$ R = 1 * \ бэта (1) + А * \ бэта (2) + В * \ бэта (3) + З * \ бэта (4) + \ эпсілон $

дзе фіктыўная матрыца краіны,       У ўяўляе сабой фіктыўная матрыца Industries,       З ўяўляе сабой матрыцу факторных уздзеянняў,       1 вектар з адзінак

As you can see in this setup, there is multicollinearity between A and B. The rank of (AB) < rank of (A) + rank of (B). In Matlab code:

rank([dummyvar(ceil(abs(rand(20,1))*5)'),dummyvar(ceil(abs(rand(20,1))*4)')])

Як я магу ісці аб вылічэнні ўсе гэтыя бэты без адкідвання аднаго з слупкоў з А ці матрыцы B, як гэта звычайна робіцца для вырашэння гэтай праблемы. Я ведаю, што ёсць выкрут, каб вырашыць гэтую праблему, але я не магу ўспомніць, як гэта робіцца.

7
См праўкі вышэй.
дададзена аўтар fooot, крыніца
Чаму гэта ясна, што ёсць МУЛЬТИКОЛЛИНЕАРНОСТЬ?
дададзена аўтар Kikapi, крыніца

3 адказы

Для вырашэння пытання аб мультиколлинеарности вы можаце ў асноўным зрабіць наступнае (source , аўтар напісаў сваю дысертацыю аб мультиколлинеарности дыягностыкі):

  1. Атрыманне дадатковых дадзеных
  2. Выдаленне адна зменная
  3. <Літый> Аб'яднанне зменных (напрыклад, з частковай рэгрэсіі па метадзе найменшых квадратаў або галоўных кампанент рэгрэсіі) і
  4. Выкананне коньковых рэгрэсіі, якая дае неаб'ектыўныя вынікі, але памяншае дысперсію паводле ацэнак.

Я не ведаю, ці з'яўляецца 1. выканальна, але гэта заўсёды добрая ідэя (адзін з Засваенне навуковых дадзеных з'яўляецца тое, што ўсё больш і больш дадзеных, пераважней больш складаныя алгарытмы).

Адносна 2. Вы сказалі, што вы не жадаеце гэтага.

3. не падаецца практычным альбо, так як новая зменная не будзе інтэрпрэтаваных больш.

So 4. seems to be the best candidate. Mathematically this is also known as Tikhonov regularization. In matlab a good starting point seems to be this one:
http://www.mathworks.com/help/stats/ridge-regression.html

The command is ridge(), see also here:
http://www.mathworks.com/help/stats/ridge.html

1
дададзена

Вы можаце выкарыстоўваць абмежаваны рэгрэс. Гэта дазволіць вырашыць менавіта вашу праблему. Гэта AFAIK прамысловасці стандартнага спосабу рашэння гэтай праблемы.

Вы хочаце ўсталяваць абмежаванне для кожнай групы фіктыўных зменных ў вас ёсць такія, што сума каэфіцыентаў для гэтай групы роўная 0. У гэтым выпадку для A і B. вы можаце пакінуць C без абмежаванняў (вы павінны на самай справе! )

Калі са-лінейнасць зыходзіць з C (фактараў). Тады гэта яшчэ адно пытанне, і парады, у іншых адказах тады вельмі карысна.

Вы павінны зрабіць гэта да таго часу, пакуль у вас ёсць больш чым на 2 групы, ці адну групу і перасякаюцца. Гэта даволі стандартны ў якасці метаду мадэлявання рызыкі. Глядзіце прыклад таго, як MSCI здзелак з ёй у сваёй мадэлі msci.com/documents/10199/ed6e42a3-c1fa-4430-89ba-efd5a5b52558 ЗША (сярэдзіна старонкі 1)

На баку запіскі, вы павінны таксама разгледзець магчымасць выкарыстання надзейнай тэхнікі рэгрэсіі.

If you are using Matlab (it seems from your snippet) you can read about constrained and robust regression in this excellent tutorial: http://www.mathworks.com/matlabcentral/fileexchange/8553-optimization-tips-and-tricks

І выкарыстоўваць наступную функцыю: http://www.mathworks.com/matlabcentral/fileexchange/13835 -lse Хоць Matlab таксама мае некаторыя функцыі рэгрэсіі, але больш абмежаваныя ИМО.

1
дададзена
Хоць стрыманая рэгрэсія можа быць карыснай у некаторых абставінах я не бачу, як гэта можа вырашыць гэтую канкрэтную праблему мультиколлинеарности. Ці можаце вы даць крыніца? (Я не знайшоў ніякіх спасылак адносна гэтага пункту ў дакументах вы цытавалі). І не маглі б вы таксама даць крыніца для вашага сцвярджэнні, што ён з'яўляецца «прамысловым стандартам для вырашэння гэтай праблемы»? Дзякуй
дададзена аўтар Jon G - Megaphone Tech, крыніца
Ну, прыбіраючы лішнюю ступень свабоды шляхам дадання абмежаванняў на некаторыя зменныя, здаецца, трохі вымушаны (і, вядома, не «стандарт»). Ридж рэгрэсіі з'яўляецца значна лепшай альтэрнатывай, каб паменшыць дысперсію на мой погляд. Мне цікава, калі вы знойдзеце што-то ў сеткі.
дададзена аўтар Jon G - Megaphone Tech, крыніца
Я думаю, што ёсць кампраміс: Вы значна больш гнуткія з сціснутай рэгрэсіі, але вы павінны дакладна ведаць, што вы робіце, з рабрыстай рэгрэсіі працэс больш аўтаматызаваны, так што ў пэўным сэнсе меней небяспечна.
дададзена аўтар Jon G - Megaphone Tech, крыніца
Дзякуючы NegativeJo, гэта менавіта тое, што я шукаў. У мінулым, гэта менавіта тое, як я бачыў, што гэта апрацоўваецца. Я проста не мог успомніць.
дададзена аўтар fooot, крыніца
Гэта вырашае праблему, калі МУЛЬТИКОЛЛИНЕАРНОСТЬ прыходзіць толькі ад А і В (гэта значыць фіктыўныя зменныя). Дадаючы абмежаванне вы выдаляеце дадатковую ступень свабоды. Дакладна?
дададзена аўтар nick clark, крыніца
Што да прамысловай стандарту, акрамя «давяраць мне, што я эксперт» :) У мяне няма ніякіх дакументаў, якія я магу свабодна дзяліцца ... Я паспрабую Google адзін, хоць, што спасылкі на гэты
дададзена аўтар nick clark, крыніца
Але Wouldnt хрыбет рэгрэсія зрабіць менш актуальнай фіктыўная пераменная для кожнага каэфіцыента групы ідуць да 0? Што рабіць, калі вы хочаце, каб прымусіць кожнага з манекенаў, каб мець каэфіцыент (для больш інтэрпрэтаваных пострановой атрыбуцыі, напрыклад)? Цікавы момант, хоць.
дададзена аўтар nick clark, крыніца
MSCI Barra, здаецца, рады падзяліцца некаторымі падрабязнасцямі сваёй мадэлі USE4. См да сярэдзіны старонкі 1, напрыклад. msci.com/documents/10199/ed6e42a3-c1fa-4430- 89ba-efd5a5b5255 & ZWNJ; 8
дададзена аўтар nick clark, крыніца
Я не хапае рэпутацыі (пакуль), каб перамясціць гэта ў чат. Гэта зрабіла б для цікавай гутаркі напэўна. Я згодны з вамі на вашай кропцы. І некалькі практык я ведаю, што аддалі перавагу б хрыбет рэгрэсію. У маім вопыце ў гэтай канкрэтнай кропцы краіны/прамысловасці, здаецца, што ён з'яўляецца больш распаўсюджаным, каб убачыць абмежаваную рэгрэсіі рашэння, хоць.
дададзена аўтар nick clark, крыніца

Вы можаце выкарыстоўваць аналіз галоўных кампанентаў, якія будуць дзяліць зменныя ў некоррелированные фактары і выкарыстанне сумарных ацэнкі, як фактар ​​ўваход у мадэлі замест зменных балаў.

0
дададзена
Праблема з PCA з'яўляецца тое, што ў гэтым выпадку новыя зменныя не будуць інтэрпрэтаваныя больш (глядзіце таксама пункт 3 у маёй абароне).
дададзена аўтар Jon G - Megaphone Tech, крыніца