2012-03-26 20 views
7

Mi pregunta está bastante relacionada con this one, pero decidí abrir otra cadena de preguntas. Espero que esté bien.¿Qué corpus de spam puedo usar en NLTK?

Estoy construyendo un filtro de correo no deseado usando el NLTK en Python también, pero acabo de comenzar.

Me pregunto qué corpus de spam puedo usar y cómo importarlo? No he encontrado ningún corpus de spam 'integrado en el NLTK' (here).

Gracias de antemano.

Respuesta

9

Este presentation usa enron-spam dataset (más de 200,000 correos electrónicos).

La formación y las pruebas conjuntos vienen de un conjunto de datos de más de 200.000 Enron correos electrónicos que contienen tanto el “spam” y mensajes de correo electrónico “jamón”

+1

¡Gracias, es un enlace brillante! :) – Lain

+0

Creo que esos están incluidos en el conjunto de datos TREC. También hubo cierto debate sobre las clasificaciones. John Graham-Cumming hizo un estudio de seguimiento; quizás puedas obtener sus datos también. No puedo encontrar rápidamente su informe final, pero aquí hay un puntero interino: http://blog.jgc.org/2006/05/theres-one-born-every-minute-spam-and.html Tal vez su publicación final fue para CEAS 2006 o la Conferencia MIT Spam 2007? – tripleee

+0

Gracias de nuevo :) El conjunto de datos TREC se ve muy bien también, pero su "Asunción de riesgo" es un poco demasiado. Probablemente no contenga virus informáticos demasiado sofisticados, pero decidí optar por el conjunto de datos de Enron preprocesados. Puedo reemplazarlo más tarde, si no es lo suficientemente grande. El enlace es realmente interesante, definitivamente verificaré si la clasificación spam/ham es confiable en Enron. – Lain

1

El spam no es difícil de obtener. El correo no deseado razonablemente nuevo en grandes cantidades tampoco es necesariamente un gran desafío; el gran enigma es cómo obtener jamón. Si solo está construyendo su propio filtro de correo no deseado, por supuesto, puede usar su propio jamón.

El Corpus Público de SpamAssassin está envejeciendo, pero ya lo tienes; http://spamassassin.apache.org/publiccorpus/

También están los corpora de la pista de spam de TREC, que son algo más grandes, pero no mucho más nuevos o menos sesgados; http://plg.uwaterloo.ca/~gvcormac/treccorpus/

Varios entusiastas continúan publicando su correo no deseado en la web, pero la mayoría no incluye encabezados completos, etc. Si solo está interesado en el filtrado de "bolsa de palabras", quizás eso sea suficiente.

+0

Gracias mucho por su respuesta y los enlaces. Estoy implementando dos filtros de correo no deseado para comprobar si la clasificación generativa o discriminatoria funciona mejor para la tarea de filtrado de spam. – Lain

Cuestiones relacionadas