haga lo que haga, no puedo deshacerme de este error. Sé que Snappy es una biblioteca de compresión/descompresión rápida y por lo tanto preferible sobre las otras opciones. Me gustaría utilizar esta biblioteca para mi procesamiento. Hasta donde sé, Google usa esto internamente para sus BigTables, MapReduce (básicamente para todas sus aplicaciones asesinas). Investigué por mi cuenta. La gente sugiere no usarlo, o java-snappy como una opción, pero quiero seguir con el hadoop snappy. Tengo la biblioteca correspondiente en mi configuración. (Quiero decir, bajo lib)ADVERTENCIA snappy.LoadSnappy: Snappy biblioteca nativa no cargada
¿Alguien podría corregir este error? Veo que los trabajos se realizan con éxito independientemente de este error.
****hdfs://localhost:54310/user/hduser/gutenberg
12/06/01 18:18:54 INFO input.FileInputFormat: Total input paths to process : 3
12/06/01 18:18:54 INFO util.NativeCodeLoader: Loaded the native-hadoop library
12/06/01 18:18:54 WARN snappy.LoadSnappy: Snappy native library not loaded
12/06/01 18:18:54 INFO mapred.JobClient: Running job: job_201206011229_0008
12/06/01 18:18:55 INFO mapred.JobClient: map 0% reduce 0%
12/06/01 18:19:08 INFO mapred.JobClient: map 66% reduce 0%
12/06/01 18:19:14 INFO mapred.JobClient: map 100% reduce 0%
12/06/01 18:19:17 INFO mapred.JobClient: map 100% reduce 22%
12/06/01 18:19:23 INFO mapred.JobClient: map 100% reduce 100%
12/06/01 18:19:28 INFO mapred.JobClient: Job complete: job_201206011229_0008
12/06/01 18:19:28 INFO mapred.JobClient: Counters: 29
12/06/01 18:19:28 INFO mapred.JobClient: Job Counters
12/06/01 18:19:28 INFO mapred.JobClient: Launched reduce tasks=1
12/06/01 18:19:28 INFO mapred.JobClient: SLOTS_MILLIS_MAPS=22810
12/06/01 18:19:28 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0
12/06/01 18:19:28 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0
12/06/01 18:19:28 INFO mapred.JobClient: Launched map tasks=3
12/06/01 18:19:28 INFO mapred.JobClient: Data-local map tasks=3
12/06/01 18:19:28 INFO mapred.JobClient: SLOTS_MILLIS_REDUCES=14345
12/06/01 18:19:28 INFO mapred.JobClient: File Output Format Counters
12/06/01 18:19:28 INFO mapred.JobClient: Bytes Written=880838
12/06/01 18:19:28 INFO mapred.JobClient: FileSystemCounters
12/06/01 18:19:28 INFO mapred.JobClient: FILE_BYTES_READ=2214849
12/06/01 18:19:28 INFO mapred.JobClient: HDFS_BYTES_READ=3671878
12/06/01 18:19:28 INFO mapred.JobClient: FILE_BYTES_WRITTEN=3775339
12/06/01 18:19:28 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=880838
12/06/01 18:19:28 INFO mapred.JobClient: File Input Format Counters
12/06/01 18:19:28 INFO mapred.JobClient: Bytes Read=3671517
12/06/01 18:19:28 INFO mapred.JobClient: Map-Reduce Framework
12/06/01 18:19:28 INFO mapred.JobClient: Map output materialized bytes=1474341
12/06/01 18:19:28 INFO mapred.JobClient: Map input records=77932
12/06/01 18:19:28 INFO mapred.JobClient: Reduce shuffle bytes=1207328
12/06/01 18:19:28 INFO mapred.JobClient: Spilled Records=255962
12/06/01 18:19:28 INFO mapred.JobClient: Map output bytes=6076095
12/06/01 18:19:28 INFO mapred.JobClient: CPU time spent (ms)=12100
12/06/01 18:19:28 INFO mapred.JobClient: Total committed heap usage (bytes)=516882432
12/06/01 18:19:28 INFO mapred.JobClient: Combine input records=629172
12/06/01 18:19:28 INFO mapred.JobClient: SPLIT_RAW_BYTES=361
12/06/01 18:19:28 INFO mapred.JobClient: Reduce input records=102322
12/06/01 18:19:28 INFO mapred.JobClient: Reduce input groups=82335
12/06/01 18:19:28 INFO mapred.JobClient: Combine output records=102322
12/06/01 18:19:28 INFO mapred.JobClient: Physical memory (bytes) snapshot=605229056
12/06/01 18:19:28 INFO mapred.JobClient: Reduce output records=82335
12/06/01 18:19:28 INFO mapred.JobClient: Virtual memory (bytes) snapshot=2276663296
12/06/01 18:19:28 INFO mapred.JobClient: Map output records=629172
P.S .: Actualmente, estoy trabajando con un pequeño conjunto de datos donde la compresión y descompresión rápidas en realidad no importan. Pero una vez que tenga un flujo de trabajo, lo cargaré con grandes conjuntos de datos.
¿Ha seguido las instrucciones de instalación en todos los nodos de su clúster? http://code.google.com/p/hadoop-snappy/ –