2012-06-04 20 views
9

haga lo que haga, no puedo deshacerme de este error. Sé que Snappy es una biblioteca de compresión/descompresión rápida y por lo tanto preferible sobre las otras opciones. Me gustaría utilizar esta biblioteca para mi procesamiento. Hasta donde sé, Google usa esto internamente para sus BigTables, MapReduce (básicamente para todas sus aplicaciones asesinas). Investigué por mi cuenta. La gente sugiere no usarlo, o java-snappy como una opción, pero quiero seguir con el hadoop snappy. Tengo la biblioteca correspondiente en mi configuración. (Quiero decir, bajo lib)ADVERTENCIA snappy.LoadSnappy: Snappy biblioteca nativa no cargada

¿Alguien podría corregir este error? Veo que los trabajos se realizan con éxito independientemente de este error.

****hdfs://localhost:54310/user/hduser/gutenberg 
12/06/01 18:18:54 INFO input.FileInputFormat: Total input paths to process : 3 
12/06/01 18:18:54 INFO util.NativeCodeLoader: Loaded the native-hadoop library 
12/06/01 18:18:54 WARN snappy.LoadSnappy: Snappy native library not loaded 
12/06/01 18:18:54 INFO mapred.JobClient: Running job: job_201206011229_0008 
12/06/01 18:18:55 INFO mapred.JobClient: map 0% reduce 0% 
12/06/01 18:19:08 INFO mapred.JobClient: map 66% reduce 0% 
12/06/01 18:19:14 INFO mapred.JobClient: map 100% reduce 0% 
12/06/01 18:19:17 INFO mapred.JobClient: map 100% reduce 22% 
12/06/01 18:19:23 INFO mapred.JobClient: map 100% reduce 100% 
12/06/01 18:19:28 INFO mapred.JobClient: Job complete: job_201206011229_0008 
12/06/01 18:19:28 INFO mapred.JobClient: Counters: 29 
12/06/01 18:19:28 INFO mapred.JobClient: Job Counters 
12/06/01 18:19:28 INFO mapred.JobClient:  Launched reduce tasks=1 
12/06/01 18:19:28 INFO mapred.JobClient:  SLOTS_MILLIS_MAPS=22810 
12/06/01 18:19:28 INFO mapred.JobClient:  Total time spent by all reduces waiting after reserving slots (ms)=0 
12/06/01 18:19:28 INFO mapred.JobClient:  Total time spent by all maps waiting after reserving slots (ms)=0 
12/06/01 18:19:28 INFO mapred.JobClient:  Launched map tasks=3 
12/06/01 18:19:28 INFO mapred.JobClient:  Data-local map tasks=3 
12/06/01 18:19:28 INFO mapred.JobClient:  SLOTS_MILLIS_REDUCES=14345 
12/06/01 18:19:28 INFO mapred.JobClient: File Output Format Counters 
12/06/01 18:19:28 INFO mapred.JobClient:  Bytes Written=880838 
12/06/01 18:19:28 INFO mapred.JobClient: FileSystemCounters 
12/06/01 18:19:28 INFO mapred.JobClient:  FILE_BYTES_READ=2214849 
12/06/01 18:19:28 INFO mapred.JobClient:  HDFS_BYTES_READ=3671878 
12/06/01 18:19:28 INFO mapred.JobClient:  FILE_BYTES_WRITTEN=3775339 
12/06/01 18:19:28 INFO mapred.JobClient:  HDFS_BYTES_WRITTEN=880838 
12/06/01 18:19:28 INFO mapred.JobClient: File Input Format Counters 
12/06/01 18:19:28 INFO mapred.JobClient:  Bytes Read=3671517 
12/06/01 18:19:28 INFO mapred.JobClient: Map-Reduce Framework 
12/06/01 18:19:28 INFO mapred.JobClient:  Map output materialized bytes=1474341 
12/06/01 18:19:28 INFO mapred.JobClient:  Map input records=77932 
12/06/01 18:19:28 INFO mapred.JobClient:  Reduce shuffle bytes=1207328 
12/06/01 18:19:28 INFO mapred.JobClient:  Spilled Records=255962 
12/06/01 18:19:28 INFO mapred.JobClient:  Map output bytes=6076095 
12/06/01 18:19:28 INFO mapred.JobClient:  CPU time spent (ms)=12100 
12/06/01 18:19:28 INFO mapred.JobClient:  Total committed heap usage (bytes)=516882432 
12/06/01 18:19:28 INFO mapred.JobClient:  Combine input records=629172 
12/06/01 18:19:28 INFO mapred.JobClient:  SPLIT_RAW_BYTES=361 
12/06/01 18:19:28 INFO mapred.JobClient:  Reduce input records=102322 
12/06/01 18:19:28 INFO mapred.JobClient:  Reduce input groups=82335 
12/06/01 18:19:28 INFO mapred.JobClient:  Combine output records=102322 
12/06/01 18:19:28 INFO mapred.JobClient:  Physical memory (bytes) snapshot=605229056 
12/06/01 18:19:28 INFO mapred.JobClient:  Reduce output records=82335 
12/06/01 18:19:28 INFO mapred.JobClient:  Virtual memory (bytes) snapshot=2276663296 
12/06/01 18:19:28 INFO mapred.JobClient:  Map output records=629172 

P.S .: Actualmente, estoy trabajando con un pequeño conjunto de datos donde la compresión y descompresión rápidas en realidad no importan. Pero una vez que tenga un flujo de trabajo, lo cargaré con grandes conjuntos de datos.

+0

¿Ha seguido las instrucciones de instalación en todos los nodos de su clúster? http://code.google.com/p/hadoop-snappy/ –

Respuesta

2

Aparecerá este mensaje de error si la biblioteca compartida (.so) para snappy no se encuentra en el LD_LIBARAY_PATH/java.library.path. Si tiene las bibliotecas instaladas en la ubicación correcta, entonces no debería ver los mensajes de error anteriores.

Si tiene el .so instalado en la misma carpeta que el hadoop native lib (libhadoop.so), entonces el 'error' anterior podría estar relacionado con el nodo al que envía sus trabajos (como usted dice, su trabajo no error y esto parece un mensaje en el lado del cliente).

Puede compartir algunos detalles de la configuración de su trabajo (donde configura su formato de salida y las opciones de compresión asociadas).

+0

¿Cómo instalar estas bibliotecas? Tengo .so archivos en $ HADOOP_HOME/lib/native/Linux-amd64-64/libhadoop.so.¿Cómo es el snappy? ¿Son archivos snappy.so? –

+0

Sí, necesitará los archivos .so, pero la carpeta real depende de su sistema operativo/arquitectura, etc. –

+0

Y los documentos de instalación deberían ser suficientes para comenzar: https://code.google.com/p/hadoop-snappy / –

Cuestiones relacionadas