Secuencia de archivos en Hadoop

¿Cómo se generan estos archivos de secuencia? Vi un enlace sobre archivo de secuencia aquí,Secuencia de archivos en Hadoop

http://wiki.apache.org/hadoop/SequenceFile

¿Están escritos usando el serializador Java predeterminado? y ¿cómo leo un archivo de secuencia?

Fuente

2011-02-23 vkris

¿Cuál es la clase de clave y la clase de valor aquí. ¿Desde donde se accede? Plese ayúdame en esto. Gracias por adelantado. –

Los archivos de secuencia son generados por las tareas de MapReduce y pueden utilizarse como formato común para transferir datos entre trabajos de MapReduce.

Se pueden leer de la siguiente manera:

Configuration config = new Configuration(); 
Path path = new Path(PATH_TO_YOUR_FILE); 
SequenceFile.Reader reader = new SequenceFile.Reader(FileSystem.get(config), path, config); 
WritableComparable key = (WritableComparable) reader.getKeyClass().newInstance(); 
Writable value = (Writable) reader.getValueClass().newInstance(); 
while (reader.next(key, value)) 
    // perform some operating 
reader.close();

también puede generar archivos de secuencias por sí mismo utilizando SequenceFile.Writer.

Las clases utilizadas en el ejemplo son los siguientes:

import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FileSystem; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.SequenceFile; 
import org.apache.hadoop.io.Writable; 
import org.apache.hadoop.io.WritableComparable;

y están contenidos dentro de la dependencia hadoop-core experto:

<dependency> 
    <groupId>org.apache.hadoop</groupId> 
    <artifactId>hadoop-core</artifactId> 
    <version>1.2.1</version> 
</dependency>

Fuente

2011-02-23 19:58:12

Gracias a la respuesta de Lev Khomich, mi problema ha sido resuelto.

Sin embargo, la solución ha quedado obsoleta por un tiempo y la nueva API ofrece más características y también es fácil de usar.

Salida del código fuente de hadoop.io.SequenceFile, haga clic here:

Configuration config = new Configuration(); 
Path path = new Path("/Users/myuser/sequencefile"); 
SequenceFile.Reader reader = new Reader(config, Reader.file(path)); 
WritableComparable key = (WritableComparable) reader.getKeyClass() 
     .newInstance(); 
Writable value = (Writable) reader.getValueClass().newInstance(); 

while (reader.next(key, value)) { 
    System.out.println(key); 
    System.out.println(value); 
    System.out.println("------------------------"); 
} 
reader.close();

información adicional, aquí está el resultado de ejemplo se ejecuta contra el archivo de datos generado por Nutch/inyector:

------------------------ 
https://wiki.openoffice.org/wiki/Ru/FAQ 
Version: 7 
Status: 1 (db_unfetched) 
Fetch time: Sun Apr 13 16:12:59 MDT 2014 
Modified time: Wed Dec 31 17:00:00 MST 1969 
Retries since fetch: 0 
Retry interval: 2592000 seconds (30 days) 
Score: 1.0 
Signature: null 
Metadata: 

------------------------ 
https://www.bankhapoalim.co.il/ 
Version: 7 
Status: 1 (db_unfetched) 
Fetch time: Sun Apr 13 16:12:59 MDT 2014 
Modified time: Wed Dec 31 17:00:00 MST 1969 
Retries since fetch: 0 
Retry interval: 2592000 seconds (30 days) 
Score: 1.0 
Signature: null 
Metadata:

Gracias!

Fuente

2014-04-13 23:58:10

En realidad, su solución es más similar a @ khomich que diferente: parece que el único cambio está en la llamada al constructor de Reader. Hubiera sido bueno haberlo señalado. – javadba

Secuencia de archivos en Hadoop

Respuesta

Cuestiones relacionadas