Памылка шляху Nutch

Прывітанне Я усталяваў Solr і Nutch на Ubuntu. Я магу сканаваць і індэксаваць на выпадкі жыцця, але не ўвесь час. Я атрымліваю гэтую памылку шляху паўторна і не магу знайсці рашэнне ў Інтэрнэце. Звычайна, я б выдаліць каталогі, якія маюць памылкі і паўторна, ён будзе працаваць нармальна. Але я не хачу, каб зрабіць гэта больш. Што выклікае памылку? Дзякуючы.

LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027231916
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027232907
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027233840
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027224701
LinkDb: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027231916/parse_data
Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027232907/parse_data
Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027233840/parse_data
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:190)
    at org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:44)
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:201)
    at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:810)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:781)
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730)
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1249)
    at org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:175)
    at org.apache.nutch.crawl.LinkDb.run(LinkDb.java:290)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.crawl.LinkDb.main(LinkDb.java:255)
2

2 адказы

Вы павінны забіць працэс Nutch. Проста ачысціць каталогі crawldb і г.д., і вы добра ісці.

Nutch спачатку шукае гатовую базу дадзеных спасылак (linkdb) у шляхі абыходу, калі не можа знайсці яго, стварае новы файл з насення вы даеце. Калі вы забіць працэс паўзе, гэта выклікае, што чытанне з базы дадзеных спасылак не ў стане.

1
дададзена
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

Праверце тэчку поўзання існуе і мае адпаведныя дазволу, і вам трэба выкарыстоўваць -linkdb, як апісана вышэй, як у новай версіі яго па жаданні. У асноўным гэтая памылка прыходзіць з-за шляху, які вы задаяце для crawldb linkdb і шлях не сегменты зададзенага правільна.

У мяне была тая ж праблема, я выкарыстаў вышэй сінтаксісу ён працаваў. Проста праверце тэчку, якую Вы вызначаеце для іх з'яўляюцца правільнымі.

Выкарыстоўвайце гэта,

http://thetechietutorials.blogspot.com/2011/06/solr і-Nutch-integration.html

працаваў для мяне.

0
дададзена