PDF соскоб з выкарыстаннем R

Я выкарыстоўваю пакет xml паспяхова для здабывання HTML-табліцы, але хачу пашырыць у PDF-х. З папярэдніх пытанняў, не здаецца, што ёсць простае рашэнне R, але задавалася пытаннем, ці было ў апошні час падзеі

У адваротным выпадку, ёсць нейкі спосаб у Python (у якім я поўны Novice), каб атрымаць і маніпуляваць PDFs, каб я мог скончыць працу прэч з пакетам xml R

10

4 адказы

Выманне тэксту з PDF-файлаў цяжка, і амаль заўсёды патрабуе шмат сыходу.

Я хацеў бы пачаць з інструментамі каманднага радка, такія як pdftotext і паглядзець, што яны выплюнуць. Праблема заключаецца ў тым, што PDF-файлы могуць захоўваць тэкст у любым парадку, можна выкарыстоўваць нязручныя кадоўкі шрыфтоў, і могуць рабіць такія рэчы, як выкарыстанне лігатурай сімвалы (далучаюць да «FF» і «» Ij, што вы бачыце ў належным наборноге), каб кінуць вас.

pdftotext з'яўляецца ўсталёўваным на любой сістэме Linux ...

10
дададзена
Ну pdftotext выдатна працуе ў вытворчасці чыстага тэксту старонкі, але яе не ў якой-небудзь форме, каб лёгка стварыць тое, што я хачу. Дзякуй ў любым выпадку
дададзена аўтар pssguy, крыніца
дададзена аўтар pssguy, крыніца
Адкамандзіраваны. Рабіць гэта ў R не варта намаганняў усіх, каб развіваць і падтрымліваць, калі ёсць варыянты, якія значна лепш падтрымліваюцца па-за R. Калі вам трэба зрабіць шмат файлаў, паспрабуйце выкарыстоўваць знайсці </код > ўтыліта ў Unix (ці ў калекцыі GNU для Windows), або адзін можа мець R пасылаць каманды абалонкі, перакручванне праз імёны файлаў ... Нават Adobe быў жудасны тэкст экстрактар ​​на працягу доўгага часу (не ўпэўнены, калі гэта лепш) , у той час як Xerox быў добры.
дададзена аўтар Iterator, крыніца
Вы можаце паказаць нам рэпрэзентатыўны файл PDF?
дададзена аўтар Spacedman, крыніца
Запуск pdftotext ня бліскучы на ​​гэтай старонцы, але пераўтварэнне ў пс першы ці проста працуе ps2txt на PDF стварае практычна ідэальную табліцу з некаторымі старонкі галовак/Ножкі выдаліць.
дададзена аўтар Spacedman, крыніца
Я меў шчасце з pdftotext на вокнах таксама
дададзена аўтар pguardiario, крыніца

Вы можаце праверыць аналіз тэксту пакет тм . Я памятаю, што яны рэалізаваны так званыя чытачы, і там таксама былі адзін для PDF-файлаў.

5
дададзена
Дзякуючы. я праверыў дакументы. Выкарыстоўвае pdftotext неяк
дададзена аўтар pssguy, крыніца

AFAIK не існуе просты спосаб ператварыць табліцы PDF ў нешта карыснае для аналізу дадзеных. Вы можаце выкарыстоўваць файл Data Science Toolkit 'пд.ш. ў тэкст ўтыліты (R інтэрфейс праз RDSTK пакет), а затым разабраць атрыманы тэкст. Майце на ўвазе: сінтаксічны аналіз часта нетрывіяльным.


EDIT: Там карыснае абмеркаванне пераўтварэнні PDF-файлаў у xml на discerning.com . Кароткі адказ, што вы, верагодна, трэба купіць камерцыйны інструмент.

4
дададзена
+1 Дзякуй за гэта. я праверыў абмеркаванне і паспрабаваў загружаючы прадукт ABBYY на судзе, але гэта не proprrly налады. Адгадайце, я асуджаны
дададзена аўтар pssguy, крыніца

Сэрца Tabula прыкладанне, якое можа атрымаць табліцы з PDF-дакументаў даступны ў выглядзе простай каманднага радка Java прыкладанні, табула-экстрактар ​​.

Гэта дадатак Java абгорнуты ў R па tabulizer пакета. Перадайце яму шлях да файла PDF і ён будзе спрабаваць атрымаць табліцы дадзеных для вас і вярнуць іх у якасці дадзеных.

Для прыкладу, гл Калі дакументы Стаць Базы дадзеных - Tabulizer R Абгортка для Tabula PDF Табліца Extractor .

1
дададзена