Busco una buena referencia enminería a gran escala con los datos clojure
minería de datos a gran escala con Clojure
sé de muchos buenos libros de programación clojure (Programación Clojure, la alegría de Clojure, .. .), y muchos buenos libros de texto de minería de datos (extracción de conjuntos de datos masivos, gestión de gigabytes, ...). Sin embargo no estoy al tanto de cualquier referencia que se refiere específicamente
minería a gran escala con los datos Clojure
El "con clojure" parte es más importante para mí por las siguientes razones:
* most theoretical analysis uses big-Oh running time, which ignores constants
* constants matter, if it ends up being a matter of 1 second vs 1 hour (for things that need to be real time)
* or 1 hour vs 1 week (for batch jobs)
En en particular, creo que hay mucha interacción entre JVM, Clojure Data Structures, si los datos se almacenan en la memoria o se leen perezosamente desde el disco; eso puede tener el "mismo" algoritmo tener tiempos de ejecución drásticamente diferentes mediante implementaciones "levemente" diferentes.
Por lo tanto, mi pregunta (todo lo anterior fue para evitar ser cerrada por "Check Google"):
lo que es un buen recurso en la minería de datos masivo con Clojure?
Gracias!
Muchos de estos costos constantes provienen en realidad de la VM. En particular, el costo de los objetos primitivos envueltos en la extracción de datos es significativo, por lo que Java siempre es bastante lento allí. Dudo que Clojure ayude mucho allí. De hecho, muchas de las cosas de las que Clojure se enorgullece suenan exactamente como este problema. Inmutabilidad por ejemplo. Cuando extrae datos grandes, quiere evitar copias, ¡y la inmutabilidad y las interfaces agradables generalmente requieren copias! Me gustaría darle una oportunidad a Vala. –
Clojure de estructuras de datos son inmutables pero no requieren la copia de datos existentes. Eche un vistazo a las 'estructuras de datos persistentes de Clojure'. –