2011-07-25 31 views
14

Estoy trabajando en un proyecto de clasificación de texto grande y tenemos nuestros datos de texto (mensajes simples) almacenados en HBase.HBase & Mahout - Uso de HBase como almacén de datos/fuente para Mahout - Clasificación

Tenemos dos problemas, primero nos gustaría usar HBase como fuente para los clasificadores de Mahout: Bayers y Random Forests.

En segundo lugar, nos gustaría poder almacenar el modelo generado en HBase en lugar de utilizar el enfoque en memoria (InMemoryBayesDatastore); sin embargo, a medida que crezca nuestro juego tendremos problemas con la utilización de la memoria y deseamos probar HBase como una alternativa viable.

Parece haber poco material flotando alrededor de HBase con Mahout y si es posible usarlo como fuente de datos potencial. Estoy usando Mahout 0.6 core API en Java que tiene el almacén de datos InMemory.

Haciendo un poco de excavación Me creer que no (se) un componente HBase Bayers almacén de datos - org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore Ver JavaDoc mayores aquí: http://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout-core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html

Sin embargo, mirando a la documentación más reciente parece que esta función ha desaparecido ..? https://builds.apache.org/job/Mahout-Quality/javadoc/

Quería saber si todavía era posible utilizar HBase como una fuente de datos para Bayers y RandomForests y hay casos de usos anteriores en esto?

Gracias!

+0

puede que tenga una mejor oportunidad de obtener esta respuesta publicando esto en la lista de correo en su lugar – Jeffrey04

Respuesta

3

No es directamente posible, no. Puedes revivir esta vieja implementación, desempolvarla y probablemente hacer que funcione sin muchos problemas. Fue eliminado para adelgazar y enfocar el proyecto.

Por supuesto, también puede ver exportar sus datos, de alguna forma, y ​​agregarlos a una representación o tienda que sea compatible directamente.

En general, puede usar HBase con Mahout en virtud del hecho de que Mahout usa Hadoop (principalmente) y Hadoop puede usar HBase. Esa no es la situación aquí; aquí hay un punto de integración más directo, que ha quedado obsoleto.