2012-06-22 21 views
6

He empezado a utilizar Nutch y todo estaba bien hasta que me encontré con una excepción IOException,se arrastra usando Nutch ... Muestra una IOException

$ ./nutch crawl urls -dir myCrawl -depth 2 -topN 4 
cygpath: can't convert empty path 
solrUrl is not set, indexing will be skipped... 
crawl started in: myCrawl 
rootUrlDir = urls 
threads = 10 
depth = 2 
solrUrl=null 
topN = 4 
Injector: starting at 2012-06-23 03:37:51 
Injector: crawlDb: myCrawl/crawldb 
Injector: urlDir: urls 
Injector: Converting injected urls to crawl db entries. 
Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Rahul\mapred\staging\Rahul255889423\.staging to 0700 
    at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:682) 
    at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java:655) 
    at  org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:509) 
    at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:344) 
    at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:189) 
    at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:116) 
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:856) 
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850) 
    at java.security.AccessController.doPrivileged(Native Method) 
    at javax.security.auth.Subject.doAs(Subject.java:415) 
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1083) 
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850) 
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824) 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261) 
    at org.apache.nutch.crawl.Injector.inject(Injector.java:217) 
    at org.apache.nutch.crawl.Crawl.run(Crawl.java:127) 
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
    at org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 

@jeffery --- i rebajó mi versión Nutch n encontrado un nuevo problema, que está fuera de mi alcance para entender .... ayuda Plzz ....

$ ./nutch crawl urls -dir myCrawl -depth 4 -topN 5 
cygpath: can't convert empty path 
solrUrl is not set, indexing will be skipped... 
crawl started in: myCrawl 
root UrlDir = urls 
threads = 10 
depth = 4 
solrUrl=null 
topN = 5 
Injector: starting at 2012-06-23 22:30:28 
Injector: crawlDb: myCrawl/crawldb 
Injector: urlDir: urls 
Injector: Converting injected urls to crawl db entries. 
Exception in thread "main" java.io.IOException: Job failed! 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252) 
    at org.apache.nutch.crawl.Injector.inject(Injector.java:217) 
    at org.apache.nutch.crawl.Crawl.run(Crawl.java:127) 
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
    at org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 

¿Cuál es el problema de esta TYM ???

+0

¿Qué versión de Nutch/Hadoop estás usando? – Jeffrey

+0

Nutch-1.5 Solr-3.5 –

+0

no lo sé abt hadoop. Soy un completo novato en el uso de Nutch. :( –

Respuesta

0

Me encontré con este problema hace un par de días también. Las versiones más nuevas de Hadoop tienen problemas cuando se trata de interactuar con Windows. Puede cambiar a una plataforma * nix (lo que probablemente debería hacer, casi todo el soporte para Nutch está dirigido a usuarios * nix) o rebajar su versión Nutch. La última versión de Nutch que encontré para trabajar en Windows Server 2008 fue 1.2.

+0

gracias por la información .... si bajé la versión a 1.2 en Windows, ¿tendrá algún tipo de limitaciones en comparación con trabajar en el entorno de Linux utilizando la última versión de nutch? –

+0

@prafulbagai No tendrá ninguna de las nuevas funciones. Todos los tutoriales oficiales están orientados hacia 1.5, por lo que puede haber algunas discrepancias. Aún podrá rastrear, analizar e indexar, por lo que dependiendo de la naturaleza exacta de sus necesidades, puede estar bien. – Jeffrey

+0

Thnx Jeffery !!!! Voy a probar lo que recomiendas wat !!! 1 última pregunta ... Esto puede sonar algo estúpido, pero si quiero revisar el código fuente de Nutch y personalizarlo, ¿dónde puedo verlo? –

Cuestiones relacionadas