Mi pregunta está bastante relacionada con this one, pero decidí abrir otra cadena de preguntas. Espero que esté bien.¿Qué corpus de spam puedo usar en NLTK?
Estoy construyendo un filtro de correo no deseado usando el NLTK en Python también, pero acabo de comenzar.
Me pregunto qué corpus de spam puedo usar y cómo importarlo? No he encontrado ningún corpus de spam 'integrado en el NLTK' (here).
Gracias de antemano.
¡Gracias, es un enlace brillante! :) – Lain
Creo que esos están incluidos en el conjunto de datos TREC. También hubo cierto debate sobre las clasificaciones. John Graham-Cumming hizo un estudio de seguimiento; quizás puedas obtener sus datos también. No puedo encontrar rápidamente su informe final, pero aquí hay un puntero interino: http://blog.jgc.org/2006/05/theres-one-born-every-minute-spam-and.html Tal vez su publicación final fue para CEAS 2006 o la Conferencia MIT Spam 2007? – tripleee
Gracias de nuevo :) El conjunto de datos TREC se ve muy bien también, pero su "Asunción de riesgo" es un poco demasiado. Probablemente no contenga virus informáticos demasiado sofisticados, pero decidí optar por el conjunto de datos de Enron preprocesados. Puedo reemplazarlo más tarde, si no es lo suficientemente grande. El enlace es realmente interesante, definitivamente verificaré si la clasificación spam/ham es confiable en Enron. – Lain