Як загрузіць усе пералічаныя файлы з вэб-старонкі, дзе URL, не маюць імёны, пэўныя

I would like to download all the datasets from this page: http://www.data.gov/catalog/geodata/category/0/agency/0/filter/sort/page/1/count/20

Я паспрабаваў Wget, але вось праблема:

Там няма файла Звязваючы URL да файла, і яны могуць мець розныя тыпы файлаў.

Here is an example of an URL to a file: http://www.data.gov/download/CECA1FB2-EA36-537B-8C68-298CCA449697/geodata

Шаблон з'яўляецца тое, што пачатак усіх URL з HTTP://www.data.gov/download/ і заканчваецца/геоданных

Які найлепшы спосаб зрабіць скрэбці гэты сайт? Ці павінен я выкарыстоўваць wget, завітак, скрыпт, ці нешта яшчэ?

0
Я да гэтага часу цікава пра гэта так любы каментар або прапанову высока цэніцца!
дададзена аўтар kefiren, крыніца

1 адказы

Чаму не будзе Wget працаваць у гэтым выпадку? Зыходзячы з вашых прыкладаў URL-адрасоў, рэкурсіўны пошук Wget будзе змясціць кожны загружаны файл у файл «геоданных» ў сваім уласным каталогу. Пасля таго, як гэта на лакальным дыску, вы можаце рабіць з дадзенымі, як вы хацелі б, у тым ліку перайменаванне і перасоўванне файлаў у больш зручнай форме (напрыклад, з дапамогай MMV або знайсці -exec каманду).

0
дададзена