Tenemos algunos datos textuales no estructurados en nuestro almacén de datos del motor de aplicaciones. Quería crear una nube de etiquetas "única" de una propiedad en un subconjunto de los objetos del almacén de datos. Después de echar un vistazo, no veo ningún marco que me permita hacer esto sin escribirlo yo mismo.nube de etiquetas del almacén de datos del motor de aplicaciones de Google con python
La forma que tenía en mente era:
- Escribir un mapa (como en MapReduce) función que pasar por cada objeto del tipo particular en un almacén de datos,
- Dividir la cadena de texto en palabras
- para cada palabra incrementar un contador
- uso los recuentos finales para generar la nube de etiquetas con algún software de terceros (fuera de línea - alguna sugerencia venido)
Como nunca he hecho esto antes, estaba vagando si primero hay algún marco alrededor que hace esto por mí (por favor) de si no me estoy acercando al camino correcto. Por favor, siéntase libre de señalar agujeros en el plan.
Gracias Ezra - esa es una información muy útil allí. –